Page 107 - 《中国图书馆学报》2013年第1期
P. 107

询的语言学结果在统计学上的意义。 使用选择优                     还有很多学者基于图论研究自动分类方法,
          先性可以确定查询里的未知类别和歧义词汇可能                  这些研究均基于一个共同的假设:具有相似点击模
          的类别。 He等‘431 也对查询主题分类进行了探讨,            式的查询可能属于同一类目,利用已知类别的查询
          用查询结果中的某些词项代表查询构建高维空间,                 可以推导新查询的类别。 比如,b等[ 661使用二维
          并借助点击信息将查询间的语义关系作为回归因                  图(bipartite graph) 、Szummer[671 使用马尔科夫随机
          素运用到学习系统中,而实验结果也证明了该方法                 行走(markov random walks) 、Zhu等[j81 使用标签传
          的有效性。                                  播(label propagation) 、Zhou等‘圳使用局部和全局
             另外一些学者尝试在不给定分类类目的情况                 一致性学习(learning with local and global consisten—
          下,通过借用外部资源来自动识别用户意图。 如                 cy) 、Belkin等‘10】 使用流行正规化(manifold regular-
          Hu等‘621 利用外部资源即 Wikipedia来识别用户的        ization)对查询分类做了方法论研究。
          意图.该方法较其他方法的不同之处在于:不需要                     一般而言人T分类的准确率较高,却面临投
          大量的人工标注集来训练分类器,减少了劳动力的                  资大的问题,自动分类借助机器学习虽然可以处理
          投入。 该方法的核心思想为:先人工标注每个意图                 大规模数据.但是分类的准确性较差,如果仅使用
          的种子查询,然后通过挖掘 Wikipedia的结构为ar.           一种方法.分类结果可能不理想,因此有学者尝试
          ticle和 category生成一定的意图概率,再将输入的          对各种分类方法进行组合,来得到新的分类方法获
          查询映射到 Wikipedia的概念中,根据一定算法来             取各自的优点。 比如,Beitzel 等‘7。1 讨论了人工分
          识别该查询的意图。 Yoon等‘631认为可以使用与              类、监督分类和规则分类三种独立方法在查询主题
          查询相关的提问识别用户意图.提出借用外部资源                  识别上的效果,结果表明:将三种方法结合起来会
          Yahoo Answens获得与查询相关的提问和类别来执            得到更佳的分类效果。
          行分类任务。 Zaragoza'641使用聚簇手段从查询中
          产生类目.该方法虽然能保证充足的查询量,但是                  4 数据集与评价方法
          单个查询的特征仍然不足。 于是,Beeferman等0651
          用“会话数据”聚类代替查询聚类。                           数据集是查询意图分类研究尤其是自动分类

                                      表 2 数据集来源及优缺点
   102   103   104   105   106   107   108   109   110   111   112