Page 49 - 《中国图书馆学报》2013年第1期
P. 49
3.6 依据书目记录的匹配 映射。
书目记录的类号是分类表实际应用的体现。
由于分类人员长期的专业分类实践经验,同一类型 4.1 四配依据分布讨论
的图书资料通常被归入同一类目下,因此为了进一 可以看出,要实现 DDC到 CLC的映射,必须
步实现类目映射的完整性,保证类目映射的准确 考虑多方面的因素,而这些因素所能匹配的类目比
性,映射人员采用中国国家图书馆、美国图书馆的 例为实现自动匹配提供依据。 如图2所示,直接匹
相关书目记录库作为参考依据,通过书目记录集来 配过程中,依据上述因素实现匹配的大小比例不
确定类目所属的主题及学科范围,验证类目映射的 一。 在诸映射依据中,类名、类目关系、注释和主题
准确度与有效性。 并采用相互验证的方式来获得 词均是类目本身所携带的重要信息,依据其映射的
DDC对应的中图号和中图号对应的 DDC号。 类目占63%,因此类目自身信息是分类法映射最重
依据书目记录映射主要解决两方面的问题, 要的依据。 映射过程中,根据类目特点定义映射规
一是依据类目、主题词、注释,仍然没有找到相对应 则的匹配占 5.14%,依据书目记录映射的类目占
的类目,二是对于所找到的对应类目,作进一步准 31.87%,可见类日本身携带的信息在人丁映射时
确性验证,以明确其匹配类型。 采用的映射方法有 尚不能完全实现类目匹配,还应将书目记录作为映
两种:其一,将 Cl类目在中国国家图书馆外文书库 射匹配的重要参考。
0PAC进行检索,若 Cl类号对应的书目记录均对
应一个 DDC类号,则可以证明 Cl 和该类目对应.
若 Cl 类号书目对应的类号不止一个,则对各类号
进行累计计算,将出现频率最大值的类号作为匹配
类号。 其二,DDC类号在中国国家图书馆中没有
对应的检索结果或结果较少,则通过检索美国大学
图书馆相关书目记录库获取,这种情况下需查找 图2 DDC理学类目与 CLC匹配依据分布
Cl 类号所对应的主题词,输入西方书目库检索对
4.2 匹配依据在各学科内的分布
应的 DDC类号,经过统计运算,最后确定匹 配
类目。 从阁3看出,其匹配依据分布总体呈现出一致
依据书目记录的匹配,受书目数据库书目数 性特点,只有个别匹配依据有小的差别。 图3 明显
量和标引质量影响很大,因此要选择认可度较高的 表明,DDC和 CLC的映射过程中类目语义匹配存
在一定的规律。 便于在语义相似度分析时通过限
图书馆书目库,或者映射人员采用多个书目数据库
的方式,并结合所检索类目的含义确定映射关系. 定一个阈值,以检验其匹配的准确度。 另外.在匹
通过书目记录匹配的类目在 DDC理学类目中占 配的过程中有时一种参考依据不能准确地界定匹
31.87%,其中 broadMatch 、narrowMatch 、exactMatch 配类型,可以临时给定一个 relatedMatch,然后将该
分别占 52.61%、41.49%、5.90%。 类目进入下一个匹配环节,进一步确定两类目的内
涵和外延的关系,对匹配类型进行核准和修订。
4 映射结果讨论
4.3 直接映射应用于计算机映射的探讨
依据以上分析,分类法的类名、主题词、注释、
《中图法》( CLC) 和 DDC 映 射 中使 用了
DD勉、CM5,其中 DDC理学类目共计 2304 条. 语义关系都是类目的组成部分,共同规定了类目的
具体内涵和外延。 计算机匹配时应设定这些因素
CLC涉及 0类和 P类,共计4639条类目。 通过逐
个类目的匹配,实现了一对一,一对二和一对多的 的优先度和权重值:类名直接解释类目,因此最具