Page 87 - 《中国图书馆学报》2010年第4期
P. 87

086                   Journal of Library Science in China



   是探索在当前的研究领域可能出现的新主题发                    记录链接方法来整合多源数据应该是引文网络
   展方向;吴清强的研究用词汇引用图来验证文                    分析在数据处理方法上的新尝试,其可靠性与
   献引用网络,目标是探索主题词标识的优化技                    有效性还有待于更进一步验证及优化。
   术。 研究结果表明,利用引用关系(引文网络图                     由于不同数据库的结构不同,因而数据整
   或词汇引用图) 对数据集收敛可以起到知识结                   合中遇到的问题比较多,如名称不匹配、数据标
   构划分的效果。 因此,利用基于引文网络的词                   识方式不同、数据存储格式存在差异等。 然而,
   汇引用图关系来识别词簇主题为主题层面的结                    对于多任务的引文网络分析来说,从不同数据
   构分析(尤其是学科研究前沿及可能的发展方                    库整合相应的数据资源是必须解决的基础问
   向)打下了很好的基础。                             题,因此开展数据整合方法研究应是今后重要
       上述整合客观文本范式与认知构建范式的                  的研究方向。
   研究都局限在词(关键词或标题词)与参考文献
   的关系上,并没有使用文本的所有词汇,因而其                   3. 3摇 数据分析技术方法的整合
   是否可以代表文献本身与引文的关系,需要进                    3. 3. 1摇 与数据挖掘方法的整合
   一步探讨。 但该方面的发展代表了引文网络分                      科学文献的指数级增长,使得如何从巨大
   析的内在发展要求,实现了客观文本范式与认                    的信息源中快速准确地识别重要和关键信息成
   知构建范式的有机整合,有利于创新引文网络                    为科学研究的关键。 传统计量学方法由于受到
   分析范式。                                   数据处理方法与技术手段的限制,只能把分析
                                           对象限定在标题、摘要、关键词及引文等对象
   3. 2摇 数据获取的多源数据整合                       上,利用词频统计方法和引文方法进行计量学
       多数情况下,科学计量学研究的数据来源                  研究。 该方法虽然在实践中被证明是有效的,
   比较单一,其主要原因在于各数据来源的差异                    但这种方法本身存在缺陷,诸如阈值选取的主
   比较大,难以完全达到预期研究目标的质量要                    观性、选择高频词带来的信息损失以及忽略词
   求。 随着数据库和计算机数据处理技术的发                    位置差异而引起的误差等。 而数据挖掘技术的
   展,多家大型数据库都增加了引文数据,为使用                   出现,为引文网络分析快速处理海量信息提供
   多源数据进行引文网络分析提供了可能。                      了新的方法与技术。 近年来将引文网络分析与
       多源数据整合首先需要从不同数据库获取                  数据挖掘技术整合起来进行引文网络分析已受
   多个数据并把它们合并为一个整体数据集进行                    到学者们的关注。
                [16]                                     [19]
   分析。 例如 Eom     从 3 个来源获取分析数据研              Glenisson 等人  结合文本挖掘方法和引文
   究决策支持系统 1971—1990 年的知识结构变               平均出版年对 2003 年 ISSI 的 19 篇会议论文结
   化;Janssens 等人对两个不同来源的数据进行整              构进行初步分析,结果表明该方法整合是有效
   合从而研究图书情报领域的知识结构划分              [17]  。  的。 他们又利用相同的方法扩大了数据集,对
              [18]
       Synnestved  把 WoS 和 Medline 中有关生    2003 年 Scientometrics 的所有论文进行分析,结
   物医学的引用信息通过记录链接方法整合在一                    果表明利用全文比起利用标题和摘要的方法在
   起并实现了引用数据的可视化表示。 研究结果                   揭示知识结构方面更加准确,并使用两种方法
   表明,多个来源数据库的引用信息能够提高数                    分析同样的数据来证明文本挖掘技术在引文网
   据的质量,并增加可视化中的爆发词以及关键                    络分析中的有效性      [20]  。
   词改变的等级排序,减少单一引文数据库造成                       Janssens 等人  [17]  利用数据挖掘方 法 得 到
   的偏见,形成更加丰富的信息空间。 这种整合                   词—文献矩阵,利用文献耦合得到参考文献—
   首先是通过多源数据来扩大数据集,并把两种                    文献矩阵,分别利用相加求平均值和逆卡方方
   不同来源的数据信息特征进行合并,以提高引                    法把从两个不同角度得到的文献相似矩阵基于
   文网络分析的全面性和准确性。 可以说,基于                   统计方法结合起来,结果表明两种方法都改善

   总第三六卷摇 第一八八期摇 Vol. 36. No. 188
   82   83   84   85   86   87   88   89   90   91   92