Page 106 - 《中国图书馆学报》2013年第1期
P. 106
基于这个前提,多位学者做了研究工作。 Lee等‘51 查询上的有效性。 对查询意图自动分类的探讨.始
统计得到导航类查询的平均点击次数小于 1.5,信 于 Kang等Ij1 ,他们基于主页类查询和话题类查询
息类的则较大。 Liu等 ‘ ’31 根据 Sogou搜索引擎日 在各种特征上的分布差异提出了分布差异算法.并
志里查询的点击情况提出两个假设:在执行导航类 验证了该方法的有效性。 Lee等‘51 认为 Kang等的
检索时,用户倾向于进行为数不多的点击.这些被 分类特征有效性不够,选取了其他特征验证了分布
点击的结果往往是靠前的检索结果,并提出了 N 差异算法在分类上的有效性。 Liu等‘531则使用典
个点击满意度(nCS) 和前 N个结果满意度(nRS) 型决策树算法将 nCS、nRS和点击分布三种特征结
指标。 Yuan等‘381 基于同样的假设提出了点击熵 合起来执行分类任务,得到了比 Lee更好的分类效
(click ent∞opy) 和域名点击熵( domain click entro. 果。 另一方面,Mendoza[481 首次尝试基于用户日
py) 。 Ashkan等‘121 发现商业类查询的广告点击率 志,分别利用 SVM与 PLSA对查询意图进行归类:
较大,如果查询为商业导航 类点击热度更高。 Ashkan等‘ ”3 使用 Matlab建立 SVM和核方法执行
Brenes等 ‘541 通过分析查询日志中的点击数据提出 自动分类功能;Yuan[38 0 和吴‘8 3 同样借助 SVM验证
了三类导航类查询特征.cPopular(被点次数最多的 了新分类特征的有效性。 Gravano等‘ 22 3 使用机器
URL占该查询所有被点 URL的比例) 、cDistinct(被 学习识别查询的地理属性,该研究表明数据的稀
点的不同 URL个数占所有被点 URL个数的比例) 疏性会严重影响分类效果,要想获得满意的分类
和cSession( 只包括查询 q的Session占所有包含查 结果应该借助外部资源,比如用户反馈和辅助数
询 q的 Session的比例)。 Mendoza等061 同样认为 据库去拓展查询特征。 除查询外,Nettleton等‘571
查询(或文档) 中的词及点击次数是分析用户意图 利用自组织图将用户 Session分为信息、导航和事
的有力工具。 务类。
虽然有大量学者对查询意图分类特征进行了 在信息类即查询主题的自动分类方面.国内外
研究,但是人工分类主要使用查询表达式方面的特 也有一些相关成就,如 2005 KDD Cup参赛者
征.自动分类则多借助查询结果中的锚文本链接和 Shen'581 、Kardkovacs'591和 Vogel'60 3 等使用不同算法
用户的点击行为。 证明了映射传递的有效性,即先将查询映射到中间
类目,然后再将查询从中间类目映射到目标类目。
3 查询意图分类方法 但是该方法存在两个潜在缺陷:第一,只要目标类
目的结构发生变化.第二次映射的分类器就需要再
对查询意图分类的探讨始于人工分类。 最初, 训练.而在实际应用中,目标类目取决于服务供应
Broder[21 就是通过用户调查和日志分析将查询人 商的需求和网络内容的分布,因而该方法不够灵
工划分为三类.Rose等‘31 使用日志分析人为地扩 活;第二,使用 0DP作为中间类目造价很高。 于
展了Bnoder的思想。 Steven等‘551让 AOL编辑人员 是.Shen等‘611对该方法做了改进,引入查询分类算
将查询分为18个主题类目。 Law等 ‘561考虑到对查 法,先建立离线模式的中间分类器,然后在线使用
询意图进行人工标注费时费力.于是采用人工计算 该分类器通过中间分类法将查询映射到目标类目
方法,构建一个大众喜欢的在线游戏,让用户以一 中。 Broder等‘401提出基于伪相关反馈对查询主题
种玩游戏的方式来完成数据标注,其标注方式不是 进行分类,根据检索结果的类目决定查询类目。
从传统的根据查询标注其意图类别,而是给定意图 Steven[551 利用查询简短的特点,将选择优先性用于
类别.标注出可能包含的查询。 查询主题分类。 选择优先性原本是语言学中的方
因为人工分类在低频查询面前分类效果欠 法,描述词语在句子中的搭配情况,比如动词“吃”
佳,于是有学者提出了自动分类的思想,在一定程 后面经常跟的是食物的名字。 这种方法相对于把
度上理解大规模查询日志的属性.提高系统在单个 查询作为文档分类的方法来说.更倾向于去理解查