Page 104 - 《中国图书馆学报》2013年第1期
P. 104
通过对 Excite搜索引擎日志进行分析,发现查询中 是在小段时间内非常流行.尤其对某类查询特别适
包含的词汇数量平均在 2.4个左右。 因此,查询意 用,比如新闻类。 Nguyen等‘ 181 指出如果某查询既
图特征识别研究需要解决如何从简单的查询中获 可能和时间、空间名称一起出现,又可能单独出现,
取充分和足够的特征问题.以便用这些特征来代表 这种查询属于时间、地理敏感型。 Gravano等㈦发
查询。 张森等0250将特征获取方法分为两类。 第一 现全局查询通常不包含地名.局域查询一般都包含
类为事先方法.这种方法在查询被提交给搜索引擎 地名。 Jones等‘24 3 认为参考用户的查询语言可了
以前,利用查询本身的特征来表示查询,比如表示 解查询的地理属性,但是只限于大范围的国家层
特定需求的特征词汇、词与词之间的关系、词性以 面。 Lee等‘33 3认为识别地理属性最简单的方法是
及词的选择优先性(Selectional Preference) 、在语料 在地名字典里面匹配查询中的地理名词.然而这种
库中的统计信息等;第二类为事后方法,这种方法 方法只适用于查询显性包含地名并且地名没有歧
利用查询被提交给搜索引擎以后的相关数据来获 义的情况。 于是,Nguyen' 181提出借助外部词汇数
取查询特征.比如搜索引擎查询日志里相关查询的 据库对歧义查询进行消歧。 Jones等‘34 3 从所有样
统计信息、搜索引擎针对该查询返回的检索结果 本查询中统计话题的地理距离,对一些常用话题的
等。 本文在文献[26] 的基础上,进一步梳理了查询 距离做排名,并认为电影院、日托、医院等相关或相
意图分类特征的研究成果,并将其分为如下三类。 似查询均有距离限制,属于局域查询。 Smith等 ‘351
认为如果查询同时含有人名和地名.比如“中山公
2.1 基于查询表达式的特征选取 园”,该查询属于地理查询的范畴,如果仅含有人
一般而言,查询词是用户经过思考后提交的, 名.是对人物的查找,不具有地理属性。 Lau等‘36]
是用户查询目标的最好表达,对查询表达式进行分 认为用户查询的长度代表了对所查找信息的重视
析有助于识别用户的查询意图,Rose等0 31甚至认 程度,查询越长,所查找的信息也越专业。 从以上
为仅仅借助查询词本身就能识别查询中的潜在意 研究可知.基于查询表达式的特征提取主要关注用
图。 Bernard等‘27I使用各类( 导航、事务、信息)查 户的查询词和查询长度。
询的一组启发式特征来区分查询,总结出含有公
司、业务、组织、人名等顶级域名的查询为导航类, 2.2 基于检索结果的特征选取
含有“obtain” 、“download” “entertainment”等术语的 通常情况下,查询无法提供足够的特征信息,
查询为事务类,含有“way to” 、“how to”等词汇的查 并且不一定能真实反映用户的信息需求,所以仅仅
询为信息类查询。 Belkin等【 28] 通过统计分析得出 依靠查询表达对查询意图进行分类效果并不理想,
词长为2以下的查询很可能是导航类查询,词长大 为了解决这个问题,多位学者提出借助外部知识,
于2的查询属于信息类查询的概率较大。 Nguyen 尤其是检索结果进行查询分类。 该方法基于如下
等[181 在分析查询日志后总结出:查询出现频次越 假设:搜索引擎针对特定查询检索出的最靠前的一
大,该查询越可能是导航类查询,是对权威信息的 系列检索结果与查询相关。 Kang等‘ 1 1 提出根据查
查找。 Duan等‘291 将用户意图分为导航类和非导 询词在检索结果中文档、标题和锚文本中的出现方
航类.认为与名词共现的动词能表达其意图,再利 式来识别用户的查询类型,并提出了锚使用率、查
用动词一名词(verb—noun)之间的依存关系识别非 询词分布和词间依赖三个特征,认为导航类查询的
导航类查询中的子类。 Truran等‘301 认为如果查询 检索词在结果页的锚文本中出现概率较大,在网站
表达中含有价格、购买、出售等字样或直接是对商 主页中出现次数较多.词与词间的依赖性较强。 在
业类网站比如“淘宝网”的查询,该查询具有商业 此文的基础上,文献f37] 对其进行了扩展,利用锚
意图。 Chien[31 3 和 G”uhl[321 对查询的时间敏感度进 文本链接类型来识别用户意图,其中包括事务类意
行了分析,发现了一个普遍存在的现象,即查询总 图。 虽然以上两种方法假设合理,但是可操作性并