Page 107 - 《中国图书馆学报》2013年第1期

P. 107

询的语言学结果在统计学上的意义。使用选择优还有很多学者基于图论研究自动分类方法，
先性可以确定查询里的未知类别和歧义词汇可能这些研究均基于一个共同的假设：具有相似点击模
的类别。 He等‘431 也对查询主题分类进行了探讨，式的查询可能属于同一类目，利用已知类别的查询
用查询结果中的某些词项代表查询构建高维空间，可以推导新查询的类别。比如，b等[ 661使用二维
并借助点击信息将查询间的语义关系作为回归因图（bipartite graph）、Szummer[671 使用马尔科夫随机
素运用到学习系统中，而实验结果也证明了该方法行走（markov random walks）、Zhu等[j81 使用标签传
的有效性。播（label propagation）、Zhou等‘圳使用局部和全局
另外一些学者尝试在不给定分类类目的情况一致性学习（learning with local and global consisten—
下，通过借用外部资源来自动识别用户意图。如 cy）、Belkin等‘10】使用流行正规化（manifold regular-
Hu等‘621 利用外部资源即 Wikipedia来识别用户的 ization）对查询分类做了方法论研究。
意图.该方法较其他方法的不同之处在于：不需要一般而言人T分类的准确率较高，却面临投
大量的人工标注集来训练分类器，减少了劳动力的资大的问题，自动分类借助机器学习虽然可以处理
投入。该方法的核心思想为：先人工标注每个意图大规模数据.但是分类的准确性较差，如果仅使用
的种子查询，然后通过挖掘 Wikipedia的结构为ar. 一种方法.分类结果可能不理想，因此有学者尝试
ticle和 category生成一定的意图概率，再将输入的对各种分类方法进行组合，来得到新的分类方法获
查询映射到 Wikipedia的概念中，根据一定算法来取各自的优点。比如，Beitzel 等‘7。1 讨论了人工分
识别该查询的意图。 Yoon等‘631认为可以使用与类、监督分类和规则分类三种独立方法在查询主题
查询相关的提问识别用户意图.提出借用外部资源识别上的效果，结果表明：将三种方法结合起来会
Yahoo Answens获得与查询相关的提问和类别来执得到更佳的分类效果。
行分类任务。 Zaragoza'641使用聚簇手段从查询中
产生类目.该方法虽然能保证充足的查询量，但是 4 数据集与评价方法
单个查询的特征仍然不足。于是，Beeferman等0651
用“会话数据”聚类代替查询聚类。数据集是查询意图分类研究尤其是自动分类

表 2 数据集来源及优缺点

102 103 104 105 106 107 108 109 110 111 112