第3章 搜索引擎性能评价
搜索引擎的性能评价是性能改进的重要环节。
“实验”、“评价”、“改进”三者间的关系如下图所示。
搜索引擎系统评价
? 客观、公平、全面。
? 借鉴信息检索的Cranfield评价体系,结合互联网应用特点,总结出了一些评
价方案。
3.1 搜索引擎评价与 Cranfield 评价体系
搜索引擎评价的角度
? 商业市场角度:通过用户使用调查,获取评价数据,形成市场调查、行业发
展、市场监测报告;
? 学术研究角度,基于信息检索评价技术框架的搜索引擎性能评价。
信息检索评价
? 检索效果(Effectiveness)、效率 (Efficiency);
? 信息检索系统评价主要针对检索效果(Effectiveness)而非效率 (Efficiency);
对搜索引擎系统的评价,也主要针对检索效果(Effectiveness)。 相关研究
? 1955年,Kent提出了“准确率/召回率”的信息检索评价框架;
? 20世纪50年代末到60年代,英国Cranfield工程建立了基于查询样例集、
正确答案集、语料库的评测方案。其评价方法一般称为Cranfield方法框架。
1
Cranfield体系的三个环节:
? 查询样例集合确定:抽取最能表示用户信息需求的一部分查询样例,构建一
个规模恰当的集合;
? 正确答案集合标注:针对查询样例集合,在语料库中寻找对应的答案; ? 将查询样例集合、语料库输入检索系统,系统反馈检索结果,利用评价指标
对检索系统结果和正确答案的接近程度进行评价,给出用数值表示的评价结果。
Cranfield体系的四个因素:
? 语料库集合; ? 查询样例集合; ? 正确答案集合; ? 评价指标。
使用Cranfield评价体系评价搜索引擎
? 不需准备专门的语料库集合;
? 对搜索引擎系统,语料库集合就是万维网数据的全体; ? 搜索引擎可利用网页抓取子系统自行获取万维网数据。 ? 需要构建查询样例集合、正确答案集合、评价指标。
3.2 查询样例集合构建
定义:查询样例集合是评价搜索引擎性能时,模拟用户实际需求提出的查询(query)集合。
查询样例集合构建的三原则:
真实性、代表性、信息需求表述的完整性。
1 查询样例集合构建的真实性
构建查询样例集合时采用真实的搜索引擎用户查询
? 反映用户的真实信息需求;
2
? 保证评价的结果与用户的真实感受相吻合。
国内外的信息检索系统评测,重视查询样例集合真实性
? 文本信息检索会议(TREC)采用微软 Live 或 Yahoo !等搜索引擎提供的真
实查询样例;
? 北京大学网络中心组织的搜索引擎与网络信息挖掘(SEWM )评测也采用了
来自天网搜索引擎的真实查询样例。
获取真实的搜索引擎用户日志有困难,解决办法
? 通过搜索引擎公开发布的用户行为日志样例来获取真实查询; ? 借助搜索引擎提供的热门查询展示服务来获取真实的用户查询。
http://top.http://www.cmpx.com.cn// 具有足够的代表性吗?
2 查询样例集合构建的代表性
代表性是指构建的查询样例集合要能够反映用户群体的查询偏好
? 人力、物力资源的限制,构建的查询样例集合规模不能太大 ? 如何用少量的查询样例集合代表大多数用户的查询偏好? ? 需分析搜索引擎用户查询频率的分布情况。
搜索引擎处理的用户查询数目十分庞大
3
? 2003年,谷歌每日处理的查询请求数达到2.5 亿个。
? 本书作者对某中文搜索引擎网站一个月内的部分查询日志进行了分析,结果
表明,这部分查询日志的查询请求数达到了10多亿个。
这些数量庞大的查询请求并非两两不同,而是集中在若干个查询上。
? 作者分析的搜索引擎查询日志中,“百度”这一查询的查询请求次数就达18
万次以上。
? 观察查询频率的分布时发现,查询频率最高的一部分查询集中了大多数的用
户查询请求。
? 查询日志涉及的独立查询数共1500万个,查询频度最高的10000个查询
就集中了超过56%的用户查询请求。
? 说明搜索引擎查询频度的分布符合“二八定律”。
用户查询频率的分布规律的存在:
? 使用高频查询样例集合代表大多数用户的查询请求; ? “搜索风云榜”的存在,使得既具有合理性,也具有可行性。
缺点:查询样例集合构建没顾及查询频度低的用户查询。
最好,既控制好样例集合的规模,又保证各种查询频度的用户查询数据能够被采样到。
4
3 查询样例集合构建中信息需求表述的完整性
搜索引擎交互方式“关键词查询+选择性浏览”特点、原因
? 用户用简单的关键词作为查询提交给搜索引擎; ? 用户希望少用键盘输人、多用鼠标点击进行交互;
? 80%的英文用户,95%以上的中文用户不用“高级查询”功能; ? 查询所包含的平均词数为 3.11个
? 搜索引擎不是反馈检索目标页面,而是可能的检索目标页面列表;
难以通过简单的关键词准确的理解用户的查询意图,只能将有可能满足用户需求的结果集合以列表的形式返回,无法提供准确的检索目标。
? 用户浏览列表,选择满足信息需求的内容、浏览。
搜索引擎用户信息需求的类别:
导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面资源。
“清华大学本科招生网”: “导航类”信息需求
信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信息。
“手足口病症状”: “信息类”信息需求。
事务类:用户检索时没有确定的检索目标页面,目的是查找与某个特定需求相关的资源。
“潜伏在线观看”: “事务类”信息需求
例:同一个“魔兽争霸”查询请求,三种可能性都存在。 问题:
5