Page 106 - 《中国图书馆学报》2013年第1期

P. 106

基于这个前提，多位学者做了研究工作。 Lee等‘51 查询上的有效性。对查询意图自动分类的探讨.始
统计得到导航类查询的平均点击次数小于 1.5，信于 Kang等Ij1 ，他们基于主页类查询和话题类查询
息类的则较大。 Liu等 ‘ ’31 根据 Sogou搜索引擎日在各种特征上的分布差异提出了分布差异算法.并
志里查询的点击情况提出两个假设：在执行导航类验证了该方法的有效性。 Lee等‘51 认为 Kang等的
检索时，用户倾向于进行为数不多的点击.这些被分类特征有效性不够，选取了其他特征验证了分布
点击的结果往往是靠前的检索结果，并提出了 N 差异算法在分类上的有效性。 Liu等‘531则使用典
个点击满意度（nCS）和前 N个结果满意度（nRS）型决策树算法将 nCS、nRS和点击分布三种特征结
指标。 Yuan等‘381 基于同样的假设提出了点击熵合起来执行分类任务，得到了比 Lee更好的分类效
（click ent∞opy）和域名点击熵（ domain click entro. 果。另一方面，Mendoza[481 首次尝试基于用户日
py）。 Ashkan等‘121 发现商业类查询的广告点击率志，分别利用 SVM与 PLSA对查询意图进行归类：
较大，如果查询为商业导航类点击热度更高。 Ashkan等‘ ”3 使用 Matlab建立 SVM和核方法执行
Brenes等 ‘541 通过分析查询日志中的点击数据提出自动分类功能；Yuan[38 0 和吴‘8 3 同样借助 SVM验证
了三类导航类查询特征.cPopular（被点次数最多的了新分类特征的有效性。 Gravano等‘ 22 3 使用机器
URL占该查询所有被点 URL的比例）、cDistinct（被学习识别查询的地理属性，该研究表明数据的稀
点的不同 URL个数占所有被点 URL个数的比例）疏性会严重影响分类效果，要想获得满意的分类
和cSession（只包括查询 q的Session占所有包含查结果应该借助外部资源，比如用户反馈和辅助数
询 q的 Session的比例）。 Mendoza等061 同样认为据库去拓展查询特征。除查询外，Nettleton等‘571
查询（或文档）中的词及点击次数是分析用户意图利用自组织图将用户 Session分为信息、导航和事
的有力工具。务类。
虽然有大量学者对查询意图分类特征进行了在信息类即查询主题的自动分类方面.国内外
研究，但是人工分类主要使用查询表达式方面的特也有一些相关成就，如 2005 KDD Cup参赛者
征.自动分类则多借助查询结果中的锚文本链接和 Shen'581 、Kardkovacs'591和 Vogel'60 3 等使用不同算法
用户的点击行为。证明了映射传递的有效性，即先将查询映射到中间
类目，然后再将查询从中间类目映射到目标类目。
3 查询意图分类方法但是该方法存在两个潜在缺陷：第一，只要目标类
目的结构发生变化.第二次映射的分类器就需要再
对查询意图分类的探讨始于人工分类。最初，训练.而在实际应用中，目标类目取决于服务供应
Broder[21 就是通过用户调查和日志分析将查询人商的需求和网络内容的分布，因而该方法不够灵
工划分为三类.Rose等‘31 使用日志分析人为地扩活；第二，使用 0DP作为中间类目造价很高。于
展了Bnoder的思想。 Steven等‘551让 AOL编辑人员是.Shen等‘611对该方法做了改进，引入查询分类算
将查询分为18个主题类目。 Law等 ‘561考虑到对查法，先建立离线模式的中间分类器，然后在线使用
询意图进行人工标注费时费力.于是采用人工计算该分类器通过中间分类法将查询映射到目标类目
方法，构建一个大众喜欢的在线游戏，让用户以一中。 Broder等‘401提出基于伪相关反馈对查询主题
种玩游戏的方式来完成数据标注，其标注方式不是进行分类，根据检索结果的类目决定查询类目。
从传统的根据查询标注其意图类别，而是给定意图 Steven[551 利用查询简短的特点，将选择优先性用于
类别.标注出可能包含的查询。查询主题分类。选择优先性原本是语言学中的方
因为人工分类在低频查询面前分类效果欠法，描述词语在句子中的搭配情况，比如动词“吃”
佳，于是有学者提出了自动分类的思想，在一定程后面经常跟的是食物的名字。这种方法相对于把
度上理解大规模查询日志的属性.提高系统在单个查询作为文档分类的方法来说.更倾向于去理解查

101 102 103 104 105 106 107 108 109 110 111