Page 83 - 《中国图书馆学报》2013年第1期
P. 83
是应该根据实际情况进行扩容。 表 2 采集数据种类及数量
为了消除时间因素的影响,笔者采用系统抽
样的方法采集词条数据,并且采集两组数据,每组
包含 75,000条 编 号 地 址。 A组 编 号 从 50 至
7,499,950.间 隔 为 100.B 组 编 号 从 100 至
7,500,000.间隔同样为 100。 词条采集时间为201 1
年 12月 lO日至 12 日,去除掉重复词条和用户为
注:所有贡献者包括词条的创建者与词条编辑者
“百科 ROBOT”所参与的所有行为数据后,表 2所
显示的是采集的数据种类和数量( 百科 ROBOT是 以编号为100的词条“智能电子专业”为例,采
百度百科编写的实现自动创建词条、编辑词条的一 集到的全部数据如表 3所示 :
个程序,并非自然人,所以研究过程中将其去除) 。
表3 采集数据实例
3.3 分析方法 经过对数处理。
本研究以数理统计方法为主,研究使用的分
析工具主要有 access( 数据的存储和转换) 、Excel 4 结果分析
(实验数据的基本分析) 、spss( 图形生成和函数拟
合) 。 使用火车采集器爬取百度百科数据时,以 ac— 4.1 词条特征研究
cess作为数据容器。 采集结束后,将数据导入excel 4.1.1 词条增长规律
文件.首先进行数据清洗,即将没有数据和用户为 在科技文献增长规律研究中.最突出的成果和
“百科 ROBaT”的数据清除;其次进行数据挖掘,即 进展当数“指数增长率”和“逻辑增长率”[15] ,它们
将随后要分析研究的几项特征数据挖掘出来,例如 描述了科技文献增 长的规律,其中“逻辑增长规
每月词条创建数量、每月词条编辑次数、用户创建 律”是对“指数增长率”的改进模式。 在网络信息
词条数量、用户编辑词条次数等,此过程主要利用 资源增长规律研究中,“指数增长”也是大家认可
exceI 的宏功能实现。 本文中的结果多数由图形的 的.这在维基百科词条和博客内容增长研究中得到
形式呈现.在词条被编辑次数、用户贡献行为分析 证实,但在本研究中我们发现了与以上研究不同的
过程中,为使结果更加容易显示出来,两坐标轴都 另一种增长模式。