? 同一个查询请求,有可能信息需求却截然不同。 ? 这对搜索引擎处理用户查询造成了很大的困难;
? 对构建查询样例集合的过程设置了障碍。如果没有确定用户的信息需求,则
无法准确地确定用户的查询目标页面。
解决的办法:
( l)尽量选取信息需求描述得比较明确的用户查询。
? “清华大学本科招生网”:是明确的“导航类”信息需求; ? “潜伏在线观看”:是明确的“事务类”信息需求; ? “手足口病症状”:是“信息类”信息需求。
但应在满足“真实性”和“代表性”的前提下进行。
(2)对查询样例集合的信息需求类别加以规定。 TREC :
Home Page Finding(主页查找)、 Named Page Finding(命名网页查找)子任务是针对“导航类”信息需求设定的评测任务;
Topic Distillation(主题提取)子任务则是针对“信息类”需求而设定的评测任务。
国内的 SEWM 评测也沿袭了这一评测体系,将评测任务分为主题提取和导航搜索两个子任务。
( 3) 可以对每个查询的信息需求给予详细的描述。
构建查询样例集合时,不仅可以列出查询文本,而且还可以撰写对应查询的信息需求描述,以便在进行后续的目标页面集合构建时有章可循。
根据研究,导航类、信息类、事务类信息需求在用户使用搜索引擎行为中的比例约为 20%、50%、30%,查询样例集合中相应信息需求样例的比例要符合这个比例关系。
6
3.3 正确答案集合构建
定义:正确答案集合就是对应查询样例集合的目标页面集合。
Cranfield 评测方法中,正确答案是依照查询样例从语料库集合中标注出满足查询样例信息需求的文档(或网页)。
查询样例 网页
对搜索引擎的性评价任务,语料库集合为全体万维网数据。 2002年,Web有100亿静态页面、1500亿动态页面。
TREC统计,在800万文档集合上,针对1个查询样例的正确答案评判,需9个人月。
那么对100亿静态页面进行针对一个查询样例的标注,需要一千个人年。
TREC的“结果池过滤技术”( pooling technology)
(l)根据数据规模的大小,选择适当的查询结果集合规模N。
(2)对于某个查询样例Q,使用不同的待评测系统(T1,T2,…,Tn)对大规模文档集合进行检索,并分别得出各自的查询结果集合(RC1,RC2,…,RCn) ,其中| RCi |= N , ( i = 1,2,…,n)。
(3)构建结果池, pool = RC1 ∪RC2∪ …∪RCn。
(4)对上述结果池中的结果进行标注,其中符合查询样例Q的信息需求的集合即为Q的正确答案集合。
3.4 搜索引擎评价指标
7
传统信息检索系统的评价指标为“准确率/召回率”(“查准率/查全率”)。
定义如下两个文档集合:
Retrieved集合,待评测检索系统处理查询样例后返回的结果集合。 Relevant集合,正确答案集合。
准确率( Precision ,查准率)定义为:
准确率衡量的是检索系统所返回的结果列表中正确答案的比例
召回率(Recall ,查全率)定义为:
召回率衡量的是正确答案集合中有多大比例的答案在检索系统返回的结果列表中。
检索系统的准确率、召回率同时都高:
? 大部分正确答案被检索系统找到; ? 返回的结果列表中非正确答案较少。
提高准确率与提高召回率,存在一定矛盾:
8
搜索引擎性能评价中常用的评价指标。 1. 前n选精度( Precision at n , P@n )
搜索引擎返回的结果序列前n位结果中正确答案的比例。
例: P@10=0.4 表示在搜索引擎系统返回的前10篇结果文档中有4篇是正确答案。
由于导航类信息需求对应的正确答案唯一,因此 P @ n 指标通常用来评测信息类或者事务类查询的性能。
2. 前n选成功率( Success at n , S@n)
搜索引擎结果序列的前n篇结果文档中是否有正确答案。 例如
S @ 10=1 :前10个结果中有某个结果是正确答案,可以满足用户需求。 S @ 10 =0:前10个结果中没有正确答案。 不存在 S@10的数值既不为1,也不为0的情况。
3 首现正确答案排序倒数(Reciprocal Rank of First Correct Answer , RR)
定义:首现正确答案排序倒数(RR)是指检索系统返回的结果序列中第一个满足用户需求文档出现序号的倒数。
RR=1表示检索系统返回的结果中,第一个结果就满足用户需求。 RR通常用来评价导航类信息需求的性能,因为这类信息需求对应的查询样例只要有一个正确答案就可以满足用户需求。
9
例:
下图的三个结果序列,正确答案出现的数目,以及除排名最靠前的正确答案之外的正确答案在结果序列中的排序都是一致的,其差别只在于首次出现的正确答案的结果排序。
“首现正确答案排序”分别为 1、2、3 ,其对应的“首现正确答案排序倒数”分别为1、0.5、0.33。
4. 平均准确率(Average Precision , AP)
定义:平均准确率(AP)是指检索系统返回每一个正确答案文档时准确度的平均值
10