Page 106 - 《中国图书馆学报》2013年第1期
P. 106

基于这个前提,多位学者做了研究工作。 Lee等‘51              查询上的有效性。 对查询意图自动分类的探讨.始
          统计得到导航类查询的平均点击次数小于 1.5,信                于 Kang等Ij1 ,他们基于主页类查询和话题类查询
          息类的则较大。 Liu等 ‘ ’31 根据 Sogou搜索引擎日        在各种特征上的分布差异提出了分布差异算法.并
          志里查询的点击情况提出两个假设:在执行导航类                  验证了该方法的有效性。 Lee等‘51 认为 Kang等的
          检索时,用户倾向于进行为数不多的点击.这些被                  分类特征有效性不够,选取了其他特征验证了分布
          点击的结果往往是靠前的检索结果,并提出了 N                  差异算法在分类上的有效性。 Liu等‘531则使用典
          个点击满意度(nCS) 和前 N个结果满意度(nRS)             型决策树算法将 nCS、nRS和点击分布三种特征结
          指标。 Yuan等‘381 基于同样的假设提出了点击熵             合起来执行分类任务,得到了比 Lee更好的分类效
          (click ent∞opy) 和域名点击熵( domain click entro.  果。 另一方面,Mendoza[481 首次尝试基于用户日
          py) 。 Ashkan等‘121 发现商业类查询的广告点击率         志,分别利用 SVM与 PLSA对查询意图进行归类:
          较大,如果查询为商业导航 类点击热度更高。                   Ashkan等‘ ”3 使用 Matlab建立 SVM和核方法执行
          Brenes等 ‘541 通过分析查询日志中的点击数据提出           自动分类功能;Yuan[38 0 和吴‘8 3 同样借助 SVM验证
          了三类导航类查询特征.cPopular(被点次数最多的             了新分类特征的有效性。 Gravano等‘ 22 3 使用机器
          URL占该查询所有被点 URL的比例) 、cDistinct(被        学习识别查询的地理属性,该研究表明数据的稀
          点的不同 URL个数占所有被点 URL个数的比例)               疏性会严重影响分类效果,要想获得满意的分类
          和cSession( 只包括查询 q的Session占所有包含查        结果应该借助外部资源,比如用户反馈和辅助数
          询 q的 Session的比例)。 Mendoza等061 同样认为      据库去拓展查询特征。 除查询外,Nettleton等‘571
          查询(或文档) 中的词及点击次数是分析用户意图                 利用自组织图将用户 Session分为信息、导航和事
          的有力工具。                                  务类。
              虽然有大量学者对查询意图分类特征进行了                    在信息类即查询主题的自动分类方面.国内外
          研究,但是人工分类主要使用查询表达式方面的特                  也有一些相关成就,如 2005 KDD Cup参赛者
          征.自动分类则多借助查询结果中的锚文本链接和                  Shen'581 、Kardkovacs'591和 Vogel'60 3 等使用不同算法
          用户的点击行为。                                证明了映射传递的有效性,即先将查询映射到中间
                                                  类目,然后再将查询从中间类目映射到目标类目。
          3 查询意图分类方法                              但是该方法存在两个潜在缺陷:第一,只要目标类
                                                  目的结构发生变化.第二次映射的分类器就需要再
              对查询意图分类的探讨始于人工分类。 最初,               训练.而在实际应用中,目标类目取决于服务供应
          Broder[21 就是通过用户调查和日志分析将查询人             商的需求和网络内容的分布,因而该方法不够灵
          工划分为三类.Rose等‘31 使用日志分析人为地扩              活;第二,使用 0DP作为中间类目造价很高。 于
          展了Bnoder的思想。 Steven等‘551让 AOL编辑人员       是.Shen等‘611对该方法做了改进,引入查询分类算
          将查询分为18个主题类目。 Law等 ‘561考虑到对查            法,先建立离线模式的中间分类器,然后在线使用
          询意图进行人工标注费时费力.于是采用人工计算                 该分类器通过中间分类法将查询映射到目标类目
          方法,构建一个大众喜欢的在线游戏,让用户以一                 中。 Broder等‘401提出基于伪相关反馈对查询主题
          种玩游戏的方式来完成数据标注,其标注方式不是                  进行分类,根据检索结果的类目决定查询类目。
          从传统的根据查询标注其意图类别,而是给定意图                 Steven[551 利用查询简短的特点,将选择优先性用于
          类别.标注出可能包含的查询。                         查询主题分类。 选择优先性原本是语言学中的方
             因为人工分类在低频查询面前分类效果欠                  法,描述词语在句子中的搭配情况,比如动词“吃”
          佳,于是有学者提出了自动分类的思想,在一定程                 后面经常跟的是食物的名字。 这种方法相对于把
          度上理解大规模查询日志的属性.提高系统在单个                 查询作为文档分类的方法来说.更倾向于去理解查
   101   102   103   104   105   106   107   108   109   110   111