首页 | 官方网站   微博 | 高级检索  
     

基于查询词出现的相关度改进
引用本文:赵东生,单栋栋,闫宏飞.基于查询词出现的相关度改进[J].情报学报,2011,30(4).
作者姓名:赵东生  单栋栋  闫宏飞
作者单位:北京大学信息科学技术学院,北京,100871
基金项目:教育部科技发展中心“网络时代的科技论文快速共享研究”项目(2008107); 国家自然科学基金(70903008,60933004); 863课题(2007AA01Z154,2009AA01Z143); CNGI搜索引擎项目(CNGI2008-122)支持
摘    要:对信息检索系统返回结果相关度的改进,一直是信息检索领域重要的研究内容。本文首先引入查询词出现信息的概念,随后给出了查询词出现权重的形式化表示,进而将其与BM25模型结合起来。对于查询词出现权重的计算,本文采用了两种方法,即线性加权方法和因数加权方法。我们通过在GOV2数据集上的实验发现,无论哪种方法,通过加入查询词出现权重,都可以有效的改进检索结果的相关度。实验显示,对于TREC 2005的查询,MAP值的改进达到15.78%,p@10的改进达到3468%。本文所描述的方法已经应用到TREC 2009的WebTrack中。

关 键 词:信息检索  词出现  相关度改进  

Improving Retrieval Relevance by Term Occurrence
Zhao Dongsheng,Shan Dongdong,Yan Hongfei.Improving Retrieval Relevance by Term Occurrence[J].Journal of the China Society for Scientific andTechnical Information,2011,30(4).
Authors:Zhao Dongsheng  Shan Dongdong  Yan Hongfei
Affiliation:Zhao Dongsheng,Shan Dongdong and Yan Hongfei (School of Electronics Engineering and Computer Science,Peking University,Beijing 100871)
Abstract:Considerable research effort has been expended to improve the effectiveness of information retrieval systems.In this paper,we take advantage of information of term occurrence,present formula to compute the weight of term occurrence,and combined it with the BM25 model.To integrate weight of term occurrence into the BM25 model,we use two methods,namely,the linear weighting and the factor weighting.Through GOV2 experimental data set we found that, regardless of which method,by adding weights of query term occu...
Keywords:information retrieval  term occurrence  relevance improvement  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号