Page 107 - 《中国图书馆学报》2013年第1期
P. 107
询的语言学结果在统计学上的意义。 使用选择优 还有很多学者基于图论研究自动分类方法,
先性可以确定查询里的未知类别和歧义词汇可能 这些研究均基于一个共同的假设:具有相似点击模
的类别。 He等‘431 也对查询主题分类进行了探讨, 式的查询可能属于同一类目,利用已知类别的查询
用查询结果中的某些词项代表查询构建高维空间, 可以推导新查询的类别。 比如,b等[ 661使用二维
并借助点击信息将查询间的语义关系作为回归因 图(bipartite graph) 、Szummer[671 使用马尔科夫随机
素运用到学习系统中,而实验结果也证明了该方法 行走(markov random walks) 、Zhu等[j81 使用标签传
的有效性。 播(label propagation) 、Zhou等‘圳使用局部和全局
另外一些学者尝试在不给定分类类目的情况 一致性学习(learning with local and global consisten—
下,通过借用外部资源来自动识别用户意图。 如 cy) 、Belkin等‘10】 使用流行正规化(manifold regular-
Hu等‘621 利用外部资源即 Wikipedia来识别用户的 ization)对查询分类做了方法论研究。
意图.该方法较其他方法的不同之处在于:不需要 一般而言人T分类的准确率较高,却面临投
大量的人工标注集来训练分类器,减少了劳动力的 资大的问题,自动分类借助机器学习虽然可以处理
投入。 该方法的核心思想为:先人工标注每个意图 大规模数据.但是分类的准确性较差,如果仅使用
的种子查询,然后通过挖掘 Wikipedia的结构为ar. 一种方法.分类结果可能不理想,因此有学者尝试
ticle和 category生成一定的意图概率,再将输入的 对各种分类方法进行组合,来得到新的分类方法获
查询映射到 Wikipedia的概念中,根据一定算法来 取各自的优点。 比如,Beitzel 等‘7。1 讨论了人工分
识别该查询的意图。 Yoon等‘631认为可以使用与 类、监督分类和规则分类三种独立方法在查询主题
查询相关的提问识别用户意图.提出借用外部资源 识别上的效果,结果表明:将三种方法结合起来会
Yahoo Answens获得与查询相关的提问和类别来执 得到更佳的分类效果。
行分类任务。 Zaragoza'641使用聚簇手段从查询中
产生类目.该方法虽然能保证充足的查询量,但是 4 数据集与评价方法
单个查询的特征仍然不足。 于是,Beeferman等0651
用“会话数据”聚类代替查询聚类。 数据集是查询意图分类研究尤其是自动分类
表 2 数据集来源及优缺点