首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于关键字的XML信息检索反馈技术的研究   总被引:1,自引:0,他引:1  
信息检索中,反馈技术能很大程度上提高信息检索的准确率.提出了一种基于XML信息检索的相关反馈技术,根据用户反馈的相关文档,重构一个"主题+结构+内容"的查询表达式.该方法通过主题、结构、内容3个方面进行扩展,得到最终的查询表达式,尽可能完整地表达用户的查询意图.利用TopX 2. 0平台,在Wikipedia 2009数据集上的实验证明,该方法使得扩展后的平均查准率比扩展前在pre@10上提高了41% ,在pre@20上提高了39.5%.  相似文献   

2.
基于权重查询词的XML结构查询扩展   总被引:9,自引:0,他引:9  
万常选  鲁远 《软件学报》2008,19(10):2611-2619
文本文档信息检索中检索质量不高的一个主要原因是用户难以提出准确的描述查询意图的查询表达式. 而XML文档除了具有文本文档的内容特征外,还具有结构特征,导致用户更难以提出准确的查询表达式.为了解决这一问题,提出一种基于相关反馈的查询扩展方法,可以帮助用户构建满足查询意图的"内容 结构"的查询表达式.该方法首先进行查询词扩展,找到最能代表用户查询意图的权重扩展查询词;然后在扩展查询词的基础上进行结构查询扩展;最终形成完整的"内容 结构"的查询扩展表达式.实验结果表明,与未进行查询扩展相比,扩展后prec@10和prec@20的平均准确率提高30%以上.  相似文献   

3.
查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。  相似文献   

4.
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面.与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展.提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息.结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案.基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量.  相似文献   

5.
查询扩展技术是提高信息检索查准率和查全率的有效手段。文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较。  相似文献   

6.
《计算机科学与探索》2016,(12):1673-1682
伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。  相似文献   

7.
信息检索中的相关反馈技术综述*   总被引:4,自引:1,他引:3  
论述了信息检索中的向量空间模型、概率模型以及语言模型中所采用的相关反馈技术。其中主要介绍检索词的权重调整、查询扩展、文档相关反馈,以及语言模型中的查询语言模型和文档语言模型的调整。针对最近反馈方面的最新成果——基于term的反馈技术进行了探讨,指出了相关反馈在今后研究的方向,即提供个性化的如分层反馈和利用日志进行反馈,并讨论了相关反馈技术对检索性能的影响。  相似文献   

8.
提出了一个基于语义索引词的语义网信息检索模型(Semantic Information Retrieval,SIR),解决了在传统的基于关键字的信息检索中只能从句法上对关键字进行分析,无法根据信息资源中的语义关系进行检索的问题。  相似文献   

9.
针对现有查询扩展存在的缺陷,将完全加权关联规则挖掘技术应用于查询扩展,提出新的查询扩展模型和扩展词权重的计算方法;提出基于完全加权关联规则挖掘的局部反馈查询扩展算法。该算法能自动从初检的前列文档中挖掘与原查询相关的完全加权关联规则,从规则中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,与现有查询扩展算法比较,该查询扩展算法的检索性能得到很好的改善和提高。  相似文献   

10.
随着Internet的迅猛发展和XML的广泛应用,XML信息检索已成为网络检索技术的研究热点.本文对基于文档划分的XML信息检索技术进行了研究,利用XML的结构和语义信息,提出了一种能够针对具体的查询自行界定适于检索的信息单元的检索方法,来减少系统运行的计算开销,提高XML信息的检索速度.  相似文献   

11.
针对现有信息检索系统难以按查询需求处理检索文档的问题,提出了一种基于相关反馈的信息检索模型,分析了查询词分解,推导了相关反馈机制和正规化过程,并进一步阐述了文档提取方法。提出的模型通过相关反馈和查询词扩展,克服了传统方法无法计算文档与查询词之间的相似度问题,并能有效地处理检索文档。仿真结果证明了该模型的有效性和可行性。  相似文献   

12.
In this paper we present context matching, a novel context-based technique for the ad-hoc retrieval of web documents. The aim of the technique is to dynamically generate a measure of document term significance during retrieval that can be used as a substitute or co-contributor of the term frequency measure. Unlike term frequency, which relies on a term occurring multiple times in a document to be considered significant, context matching is based on the notion that if a term in a given document occurs in that document in the context of the query, then that term is deemed to be significant. Context matching has the ability to potentially determine a term to be significant even if it occurs only once in a document. Vice versa, it also has the ability to determine a term to be insignificant, even if occurs frequently within a document. We show how expanded terms generated by a typical query expansion technique can be used effectively as query context for context matching. The technique is ideally suited to the nature of web information retrieval and we show how context matching significantly improves retrieval accuracy through experimental results on TREC web benchmark data.  相似文献   

13.
相关反馈技术被有效的应用于基于内容的图像检索.传统的相关反馈未能充分利用检索的历史信息.为了进一步提高检索的效率与准确性,提出一种基于历史检索信息学习的相关反馈检索方法.该方法将每次检索的结果作为历史检索信息保存.进行新的检索时,判断当前查询图像与历史检索信息的语义相关性,预测检索结果,以期减少相关反馈次数.对包含80 00幅图像的图像库实验表明,与传统相关反馈技术相比,该方法明显的改善了检索性能.  相似文献   

14.
随着电子商务的快速发展和用户在线评论数据的迅速增加,产品评论检索面临更多的挑战。一方面,产品评论从更为主观的角度为产品的特性提供描述;另一方面,产品评论的数据特性要求对传统检索方法进行相应的修正,以解决数据稀疏和词项权重单一等问题。在产品评论检索的任务下,引入词项相关度的概念,针对传统检索方法主题词项稀疏和词项权重缺少先验的问题,进行基于语义的查询扩展。同时,将词项相关度融入到一个高性能的检索框架中。一系列评测实验表明,该方法可以提高产品评论检索的准确率与质量,更好地提升评论的参考价值。  相似文献   

15.
基于语义的Web信息检索   总被引:1,自引:0,他引:1  
语义万维网的研究逐渐引起了知识表示、逻辑编程、信息系统集成和开发等各个领域的广泛关注。文中概述了语义万维网的概念、技术框架,并且对含有自由文本和丰富语义标记的网络文档资源的三种语义检索系统原型进行了深入分析。最后,提出了设计Web语义检索系统应该满足的条件,可以基于它来设计语义检索系统框架。  相似文献   

16.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

17.
一种基于局部共现的查询扩展方法   总被引:16,自引:2,他引:16  
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local Context Analysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。  相似文献   

18.
医学图像数据库的不断庞大使得医学图像检索成为研究热点。文章根据胸片图像的特点,提出了一种结合图像纹理、形状和语义信息的胸片图像检索方法。同时,还将相关反馈技术融合到算法中。据此,实现了一个图像检索原型系统,依据所设计的评价实验,将不同实验的检索结果进行了比较和分析。实验证明,该文提出的方法具有良好的检索效果。  相似文献   

19.
余宏  万常选 《计算机工程》2010,36(1):85-86,90
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

20.
余宏  万常选 《计算机工程》2010,36(1):85-86,9
针对XML文档的半结构化特点,提出一种建模XML检索结果片段的新思路,设计综合内容和结构语义信息度量相应文档相似性的方法,给出一种适应检索结果聚类应用需求的动态均值软聚类算法。实验表明,面向XML的检索结果聚类方法聚类效果优于传统方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号