Page 105 - 《中国图书馆学报》2013年第1期
P. 105

不强.因而不能有效识别用户的查询类型。 一般而                 系统设计人员对查询的理解,并不能真正代表用户
          言.导航类查询的结果页是少量权威网页,大多数                 的查询意图.因而用户行为成为分析查询意图最有
          用户会选择链接到相同网站,因而结果页中锚文本                  力的助手。 用户行为是指用户检索过程中表现出
          分布的偏斜度(skewness) 较大。 基于此,Lee'51 和       来的行为.是用户检索目标的显性表达,是最能体
          Yuan[381 做了相关工作。 Lee提出了锚一链接(An.         现用户查询意图的特征。 学界对用户行为的研究
          chor —link)分布特征,并绘制了导航类和信息类的            主要集中在三个方面:用户交互行为、用户点击行
          锚一链接分布图形.证实了上述假设。 Yuan引入                为和语境变化。 用户交互行为旨在捕获用户在结
          了链接熵(Link Entropy)和网站熵(Site Entropy)来   果页中的行为事件,是识别用户查询意图和个性化
          定量计算查询属于导航类和信息类的概率,当用户                  检索的重要途径。 早在2008年,Buscher等‘461 就验
          使用锚文本作为查询时,可能是想查找权威网页,                  证了目光追踪识别查询意图的有效性,但是这种方
          为导航类查询,两个熵值都较小,当熵值较大时,查                 式需要昂贵的设备投入,没能在学界引起共鸣。 近
          询很有可能是信息类查询。 Dai等 I'91 提出根据结            年来.学者们开始注重用户鼠标活动及目光停留时
          果页中广告的多少来判断查询是否具有商业意图,                  间的研究.停留时间越长表明用户对查询结果越满
          并指出商业类查询的结果页比较稳定。                       意‘471 .Guo等‘131 进一步量化了满意度时间,认为停
              在对查询主题进行分类方面,现在主流的研                 留时间超过 30秒为满意,不足 15 秒为不满意。
          究方法是先对查询结果分类,再将查询划分到这些                  Mendoza等 0481 发现用户花在导航类查询上的时间
          类目中。 Broder等‘401 认为根据某篇检索出的文档           比信息类少。 Muller等0 491 对鼠标活动做了详细研
          可以确定查询主题,但这仅仅适用于非模糊查询。                  究,认为如果用户在做第一次选择时迟疑很久,那
          为了解决这一问题,Song等‘41 3 提出借助文档可同            么第二次选择和第一次选择会非常相关;如果用户
          时属于多个类别的思想识别模糊查询:如果某查询                  将鼠标移动到空白区域,可能对查询结果不满意或
          的检索结果涉及多个话题,该查询很有可能是模糊                  者对结果比较犹豫。 语境变化旨在捕获查询提交
          查询。 Chang等‘421 借助查询片段,使用概率推理模           情况。 一些学者在这方面进行了探索.如 Jansen
          型,识别用户可能的查询意图,认为在查询片段中                  等[ ∞一511在对大量查询日志分析的基础上发现.在
          出现概率最大的目标为用户的查询意图。 Nguyen               执行导航类查询时.用户只浏览第一页的查询结
          等‘181提出根据目标答案在结果页中出现的频率识                果,只进行一次会话,无视相关查询;在执行信息类
          别权威敏感查询。 He等‘431 根据查询结果中的示              查询时则会频繁提交查询.会话次数较多,较关注
          意动词、URL信息和标题等来识别用户的意图。                  系统建议的相关查询。 Huang等‘!。1研究发现用户
          Radlinski等‘441 基于 TREC Web Track查询集,根据  在不满意查找结果时会提交更多查询,或者选择使
          查询日志中每个查询的修改和点击情况来识别查                   用高级检索,在结果页上花费的时间增加.倾向提
          询意图,但是该方法只能识别出与用户意图相关的                  交更复杂的检索表达式。 Huntingon等[471 发现如
          词.未能定位到真正的查询意图。 Vallet等‘45】 通过          果用户使用单个检索词,仅执行一次查询,那么用
          对查询结果中的实体类别进行排序来识别用户意                   户并没有明确的查找意图,只希望寻找一些简单的
          图。 Dai等‘391 认为专业搜索引擎检索结果能满足             相关内容.若用户使用较长的检索表达.则他很有
          用户的特定信息需求,可以通过对来自不同搜索引                  可能会执行额外的查询以获得更精确的信息。
          擎的查询结果进行过滤 、选择和排序来识别用户                     用户点击行为旨在捕获查询结果点击的类型
          意图。                                     和属性,是导航类和信息类查询分类的重要参考依
                                                  据。 一般意义上,用户使用导航类查询是想寻找少
          2.3 基于用户行为的特征选取                         量权威网页.因而这些网页被点击的概率很大.点
              结果页是系统自动呈现给用户的,表达的是                 击分布图形坡度较大,而信息类查询却正好相反。
   100   101   102   103   104   105   106   107   108   109   110