Page 114 - 《中国图书馆学报》2013年第1期
P. 114
的第四范式 3]——数据密集型科学研究( 以协同 的学科——知识计量学。
化、网络化与数据驱动为其主要特征) ,在学界引起 这种必然性体现在三个方面:
了巨大反响,数据在科学研究中的重要性更甚从 首先,数据引证将成为文献信息计量分析领
前。 国际社会对数据透明化与数据共享日益强烈 域新的研究对象。 作为科学记录①的组成部分之
的需求,以及全球范围内广泛兴起的关联数据运 一,“数据引证”具有信息计量分析价值。 信息计
动、政府数据开放运动,增加了数据资源的可获得 量学,诞生于信息爆炸式增长以及“大科学”的背
性与可用性。 然而,诸如数据所有权与知识产权保 景之下,包含了与信息以及信息的存储、检索、利用
护【o]、数据使用的溯源f 5] 、数据再利用价值的评 过程相关的所有定量研究‘9】 。 数据引证,是信息利
价…等问题也开始显现,进一步说明了规范数据参 用行为的一种,也是科学交流过程中的重要一环,
考与引用行为的紧迫性。 具有潜在的可计量性,在此基础上可进一步追踪数
自2011年起,众多国际组织纷纷开展以“数据 据集的使用情况,以及评估数据集对科学研究、科
引证”为主题的研讨会与相关活动,包括 DataCite、 学交流的影响。 这为信息计量学及科学计量学打
DCC (硼ne Digital Curatjon Centre) 、ESIP ( The Fed— 开了一个新的视角——数据使用的视角,去揭示信
eration for Earth Science Information Partners) 、BRDI 息运动与科学活动的内在规律。 同时.科研人员以
(The National Academy's Board of Research Data and 及数据存储机构为保证数据的可获得性与可用性
Information) 以及 CODATA (The International Coun. 所付出的努力,可以通过数据的规范化参考与引用
cil for Science's Committee on Data for Science and 被公之于世,这也为科研评价与创新激励提供了一
Technology)等。 奥巴马政府于2012年3月29 日发 个新的维度。
布的“大数据研究与发展计划” (“ Big Data Re— 其次,数据引证将使文献信息计量分析从文献
search and Development Initiative”) 中也将“数据引 单元深入到知识单元。 对文献资料(包括专利、网
证”特别列出.反映出 NSF ( National Science Foun— 络信息等) 以及相关对象(如作者、期刊、研究机构、
dation.美国国家科学基金会)致力于实现负责任的 基金等)进行定量分析,特别是引文分析.是文献计
数据管理和数据可持续性的承诺07] 。 量学、信息计量学与科学计量学中常见的追踪科学
发展轨迹的方法,也积累了长期的经验并取得了丰
2 数据引证与知识计量学的成形 硕的成果。 然而,正如 Jim Gray所指出的.科学研
究的素材实际包含呈金字塔形的三个层面㈨ (见
虽然“数据引证”引发了科学界的热烈关注. 图 1 ) :文献、派生和重组数据、原始数据。 金字塔
但在文献计量学与信息计量学相关的会议和文献 的下两层占据更多的比例,特别是在数据密集型科
中还鲜见其身影,这反映了目前文献计量学与信息 学的背景下,这一点尤其突出。 因此,将科研投入/
计量学的研究依然停留在文献单元的层次.对于深 产出研究的对象,从以往的文献资料.拓展至更为
入知识单元的“数据引证”缺乏足够的重视。 然 基础的科研素材——原始数据、派生和重组数据.
而.在当今大数据时代以及数据密集型研究范式兴 进行基于数据引证行为与记录的分析.是极有必要
起的背景下,数据引证的重要性不言而喻。 可以预 并且非常自然的。
见,以数据引证为核心的知识单元的计量分析必将 第三,以数据引证为核心的知识计量分析具有
迅速崛起,从而打破文献计量学、信息计量学与科 诱人的前景。 数据引证的规范化以及相关研究.能
学计量学之间的鸿沟.推动三者融合统一于一门新 为科学研究中的信息查询提供便利.从而提升信息
① 科学记录(scientific ”ecords) ,是包含独立的科学期刊 、会议展 示与 文集收录.以及支撑这些出版物的数据与其
他佐证的集合体[81。