Page 105 - 《中国图书馆学报》2013年第1期
P. 105
不强.因而不能有效识别用户的查询类型。 一般而 系统设计人员对查询的理解,并不能真正代表用户
言.导航类查询的结果页是少量权威网页,大多数 的查询意图.因而用户行为成为分析查询意图最有
用户会选择链接到相同网站,因而结果页中锚文本 力的助手。 用户行为是指用户检索过程中表现出
分布的偏斜度(skewness) 较大。 基于此,Lee'51 和 来的行为.是用户检索目标的显性表达,是最能体
Yuan[381 做了相关工作。 Lee提出了锚一链接(An. 现用户查询意图的特征。 学界对用户行为的研究
chor —link)分布特征,并绘制了导航类和信息类的 主要集中在三个方面:用户交互行为、用户点击行
锚一链接分布图形.证实了上述假设。 Yuan引入 为和语境变化。 用户交互行为旨在捕获用户在结
了链接熵(Link Entropy)和网站熵(Site Entropy)来 果页中的行为事件,是识别用户查询意图和个性化
定量计算查询属于导航类和信息类的概率,当用户 检索的重要途径。 早在2008年,Buscher等‘461 就验
使用锚文本作为查询时,可能是想查找权威网页, 证了目光追踪识别查询意图的有效性,但是这种方
为导航类查询,两个熵值都较小,当熵值较大时,查 式需要昂贵的设备投入,没能在学界引起共鸣。 近
询很有可能是信息类查询。 Dai等 I'91 提出根据结 年来.学者们开始注重用户鼠标活动及目光停留时
果页中广告的多少来判断查询是否具有商业意图, 间的研究.停留时间越长表明用户对查询结果越满
并指出商业类查询的结果页比较稳定。 意‘471 .Guo等‘131 进一步量化了满意度时间,认为停
在对查询主题进行分类方面,现在主流的研 留时间超过 30秒为满意,不足 15 秒为不满意。
究方法是先对查询结果分类,再将查询划分到这些 Mendoza等 0481 发现用户花在导航类查询上的时间
类目中。 Broder等‘401 认为根据某篇检索出的文档 比信息类少。 Muller等0 491 对鼠标活动做了详细研
可以确定查询主题,但这仅仅适用于非模糊查询。 究,认为如果用户在做第一次选择时迟疑很久,那
为了解决这一问题,Song等‘41 3 提出借助文档可同 么第二次选择和第一次选择会非常相关;如果用户
时属于多个类别的思想识别模糊查询:如果某查询 将鼠标移动到空白区域,可能对查询结果不满意或
的检索结果涉及多个话题,该查询很有可能是模糊 者对结果比较犹豫。 语境变化旨在捕获查询提交
查询。 Chang等‘421 借助查询片段,使用概率推理模 情况。 一些学者在这方面进行了探索.如 Jansen
型,识别用户可能的查询意图,认为在查询片段中 等[ ∞一511在对大量查询日志分析的基础上发现.在
出现概率最大的目标为用户的查询意图。 Nguyen 执行导航类查询时.用户只浏览第一页的查询结
等‘181提出根据目标答案在结果页中出现的频率识 果,只进行一次会话,无视相关查询;在执行信息类
别权威敏感查询。 He等‘431 根据查询结果中的示 查询时则会频繁提交查询.会话次数较多,较关注
意动词、URL信息和标题等来识别用户的意图。 系统建议的相关查询。 Huang等‘!。1研究发现用户
Radlinski等‘441 基于 TREC Web Track查询集,根据 在不满意查找结果时会提交更多查询,或者选择使
查询日志中每个查询的修改和点击情况来识别查 用高级检索,在结果页上花费的时间增加.倾向提
询意图,但是该方法只能识别出与用户意图相关的 交更复杂的检索表达式。 Huntingon等[471 发现如
词.未能定位到真正的查询意图。 Vallet等‘45】 通过 果用户使用单个检索词,仅执行一次查询,那么用
对查询结果中的实体类别进行排序来识别用户意 户并没有明确的查找意图,只希望寻找一些简单的
图。 Dai等‘391 认为专业搜索引擎检索结果能满足 相关内容.若用户使用较长的检索表达.则他很有
用户的特定信息需求,可以通过对来自不同搜索引 可能会执行额外的查询以获得更精确的信息。
擎的查询结果进行过滤 、选择和排序来识别用户 用户点击行为旨在捕获查询结果点击的类型
意图。 和属性,是导航类和信息类查询分类的重要参考依
据。 一般意义上,用户使用导航类查询是想寻找少
2.3 基于用户行为的特征选取 量权威网页.因而这些网页被点击的概率很大.点
结果页是系统自动呈现给用户的,表达的是 击分布图形坡度较大,而信息类查询却正好相反。