首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
在传统的检索模型中,文档与查询的匹配计算主要考虑词项的统计特征,如词频、逆文档频率和文档长度,近年来的研究表明应用查询词项匹配在文档中的位置信息可以提高查询结果的准确性。如何更好地刻画查询词在文档中的位置信息并建模,是研究提高检索效果的问题之一。该文在结合语义的位置语言模型(SPLM)的基础上进一步考虑了词的邻近信息,并给出了用狄利克雷先验分布来计算邻近度的平滑策略,提出了结合邻近度的位置语言检索模型。在标准数据上的实验结果表明,提出的检索模型在性能上要优于结合语义的位置语言模型。  相似文献   

2.
以RDF结构为基础的数据网的发展中,高效数据检索成为关键问题之一。形式化查询语言(如SPARQL)因其语法的复杂性及查询本体的相关性阻碍其效用的发挥,迫切需要新的方法或工具实现以自然语言为基础(如关键字检索)的检索。形式化查询语言是检索这类结构化数据的有效方式,用户习惯自然语言为基础的检索方式。因而如何自动将关键词为基础的检索方式转换成以形式化查询为基础的检索方式是实现数据网的重要一环。关联数据的自然语言查询方法自动将自然语言查询转换成SPARQL查询,提高系统的有效性和效率。文中在抽象转换度量模型的基础上,以本体为基础构建查询语义图及实现语义消歧,构建SPARQL查询。实验结果表明,该方法具有更高的召回率、精度及更低的时间消耗。  相似文献   

3.
机器学习的查询扩展在博客检索中的应用   总被引:1,自引:0,他引:1  
该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习,能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任何扩展技术的基准系统,该方法提高了MAP指标33.1%。  相似文献   

4.
XML文档包含有内容和结构,除了可以进行纯内容(CO)检索外,还可以进行内容和结构(CAS)检索.提出了一种新的CAS检索方法,这种方法以内容检索为主,结构匹配为辅,结构约束主要影响结点的计分,而不是答案结点的选择.这种方法分3步进行:首先,一个CAS查询被分解为若干个查询片段;然后处理每个查询片段;最后,将每个查询片段得到的部分查询结果综合起来,得到最终的查询结果.提出了一种新的计分方案,它首先计算一个查询结果在每个查询片段上的得分,然后将这些得分总和起来得到最终得分.提出的计分方法根据检索结果内容和结构两方面的相关性计分,更符合用户查询意图和查询语义.大量的实验结果验证了提出方法的有效性.  相似文献   

5.
基于空间和属性数据的联合索引技术   总被引:1,自引:0,他引:1       下载免费PDF全文
传统联合查询通常需要空间数据库对2个索引进行检索,通过集合运算得到最终结果,运算效率较低。针对该缺陷,提出基于空间和属性数据的联合索引技术,在索引目录项中加入属性数据提高联合检索速度。实验结果表明,该技术对于属性与空间位置有较高相关度的数据,具有较高查询效率。  相似文献   

6.
仲兆满  李存华  刘宗田  戴红伟 《软件学报》2013,24(10):2366-2378
针对用户获取事件类信息的需求,在分析Web 新闻特征、事件多要素检索特点的基础上,研究了面向Web 新闻的事件多要素检索方法.首先,提出了面向Web 新闻的事件多要素检索模型;然后,使用BNF(Backus-Naur form)形式化定义了事件多要素查询项;最后,结合事件的动作要素、Web 新闻标题的重要性及事件项与约束项之间的距离,提出了事件查询项与文档相关性的计算方法.设置了16 个事件多要素查询项,基于Baidu 搜索引擎对P@n 指标进行了实验分析,所提方法得到的平均P@10 结果为0.87,平均P@20 结果为0.83.对16 个事件查询主题,通过人工标注语料的方法对F-measure 指标进行了实验分析,所提方法得到的平均F-measure 为0.74.结果表明,所提方法对事件多要素的检索较为有效.  相似文献   

7.
一、问题的提出 近年来,许多图书馆纷纷上网,允许读者通过互联网查询其书目信息。一般的方法是:登录到某个图书馆网站,进入检索页面,输入检索点之后,提交表单并等待检索结果,然后此图书馆网站通过后台(即服务器端)的检索程序(如CGI程序、ASP程序、PHP程序等)从书目数据库中检索相关数据,  相似文献   

8.
查询扩展是提高检索效率的有效方法.但是许多查询扩展方法中扩展词的选择没有充分考虑词项之间以及词项与文档之间的相关性,这样可能在查询扩展时加入太多不相关信息降低检索的性能.通过对文档间相关性和词间相关性的计算,把文档和词关联起来构建Markov网络检索模型,然后根据词项子空间和文档子空间的映射关系提取词团,将提取的词团信息用于查询扩展,使得查询扩展的内容更为相关.实验表明:基于文档团依赖的Markov检索模型能有效地提高检索效果.  相似文献   

9.
《计算机科学与探索》2016,(12):1673-1682
伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。  相似文献   

10.
已有研究表明,时间是影响信息检索特别是微博检索的重要因素.现有的代表性工作是将时间信息作为文档先验融入统计语言检索模型,目前主要有跟查询无关和跟查询有关两种做法.这两种做法得到的模型均基于"时间越新文档越重要"这个简单假设.然而,对实际数据集进行分析发现,大多数微博查询的大部分相关文档并没有出现在最新时刻,因此上述假设并不成立.文中从这一点出发,定义这些相关文档集中出现的高峰点为热门时刻(Hot Time),并提出新假设"越靠近热门时刻,文档越重要".基于该假设,文中提出了基于热门时刻的4个系列模型(HTLMs).在此基础上,将查询无关模型看作是文档的背景时间信息而将查询有关模型看作是文档的独立时间信息,由此引入平滑思想提出混合的时间模型(MTLM).基于TREC Microblog数据的实验结果表明,HTLM模型优于现有的工作,而混合模型项对于单一模型会有进一步的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号