首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
黄名选  朱丽娜 《控制与决策》2020,35(11):2787-2796
提出一种面向查询扩展的基于评价框架SRCSAC(support-relevancy-chi-square analysis-confidence)的加权关联规则挖掘算法,给出跨语言查询译后扩展模型和新的扩展词权值计算方法,并提出基于SRCSAC框架挖掘的跨语言查询译后扩展算法.该算法采用支持度-关联度框架和新的剪枝策略挖掘有效频繁项集,通过卡方分析-置信度框架从有效频繁项集中提取加权关联规则,根据扩展模型从关联规则中获取优质扩展词,实现跨语言译后扩展.实验结果表明:所提算法能有效遏制查询主题漂移和词不匹配问题;与基准检索比较,其前件扩展、后件扩展和混合扩展的MAP最低平均增幅分别为86.85%、86.04%和86.00%;与对比方法比较,其长查询检索的MAP最低平均增幅分别可达12.23%、9.06%和12.6%,都高于短查询检索的增幅;与后件扩展算法比较,前件扩展和混合扩展的MAP最高增幅可达5.5%;置信度有助于提升前件扩展和混合扩展算法的检索性能,关联度有利于后件扩展算法检索性能的提高,支持度和关联度对后件扩展算法的短查询检索更有效.  相似文献   

2.
首先提出矩阵加权项集支持度计算方法,给出面向跨语言查询扩展的矩阵加权关联模式挖掘算法.然后提出基于矩阵加权关联规则挖掘的跨语言查询译后扩展算法.借助机器翻译进行首次跨语言检索,得到前列初检文档,并经用户相关性判断后得到相关反馈文档.通过计算支持度从相关反馈文档中挖掘含有原查询词的矩阵加权频繁项集,通过置信度-兴趣度评价框架从频繁项集中提取含有原查询词的关联规则,将规则的后件或前件作为扩展词,利用规则的置信度和兴趣度衡量扩展词的重要性,完成跨语言查询译后扩展.在NTCIR-5 CLIR标准测试集上的实验表明,文中算法可以有效提升跨语言查询扩展性能,有利于长查询的跨语言检索,译后后件扩展性能优于前件.  相似文献   

3.
查询扩展作为查询优化的重要组成部分,对改善信息检索系统的性能起到了至关重要的作用.传统的伪相关反馈查询扩展方法虽然在一定程度上提高了检索性能,但选择的扩展词中会包含一部分与原查询不相关的词语,这对检索性能的提升产生了不利影响.提出了一种基于分类模型的查询扩展方法,该算法综合候选扩展词的统计信息和多种特征,采用朴素贝叶斯分类模型对初次得到的候选扩展词进行再次分类选择,进一步去除与查询词相关性小的扩展词.在TREC 2013数据集上的实验结果表明,提出的查询扩展方法能够有效提高用户查询的查准率和查全率.  相似文献   

4.
混合P2P环境下有效的查询扩展及其搜索算法   总被引:6,自引:0,他引:6  
张骞  张霞  刘积仁  孙雨  文学志  刘铮 《软件学报》2006,17(4):782-793
查询扩展是解决信息获取领域中用词歧义性问题的关键技术,并被广泛应用于搜索引擎中,获得了巨大的成功.然而,由于P2P(peer-to-peer)系统是一个分散的、动态的系统,在P2P环境下进行有效的查询扩展具有一定的挑战性.首先,利用查询与文档的关联关系构建了LEM(local expansion method)查询扩展方法;然后,基于查询与文档用词的直接关联,提出了HEM(history_based expansion method)查询扩展方法.在此基础上,提出了一种基于查询扩展的混合P2P环境下的搜索算法.实验及分析结果表明,查询扩展及其搜索算法能够极大地提高搜索的效果.  相似文献   

5.
刘德高  李晓宇 《计算机应用》2013,33(7):1964-1968
针对增量式监测算法(IMA)的冗余搜索问题,提出一种基于IMA改进的移动对象连续k近邻(Continuous k Nearest Neighbor, CkNN)查询处理新算法。采用增量式查询处理机制;利用距离相近的查询其查询结果大部分相同这一特性,在以查询点为中心进行网络扩展之前,首先执行一个预处理过程,分析相近的其他查询的扩展树,并重用其中的有效部分,从而避免了对道路网的盲目扩展;且在节点的网络扩展中,通过应用具有相同扩展方向的其他查询的扩展结果,不仅减少了对道路网的重复扩展,还节省了计算代价。实验结果表明,所提算法同传统算法相比较, 缩短了查询响应时间,提高了运行效率,并且适用于不同类型的k近邻查询。  相似文献   

6.
Querying source code is an essential aspect of a variety of software engineering tasks such as program understanding, reverse engineering, program structure analysis and program flow analysis. In this paper, we present and demonstrate the use of an algebraic source code query technique that blends expressive power with query compactness. The query framework of Source Code Algebra (SCA) permits users to express complex source code queries and views as algebraic expressions. Queries are expressed on an extensible, object-oriented database that stores program source code. The SCA algebraic approach offers multiple benefits such as an applicative query language, high expressive power, seamless handling of structural and flow information, clean formalism and potential for query optimization. We present a case study where SCA expressions are used to query a program in terms of program organization, resource flow, control flow, metrics and syntactic structure. Our experience with an SCA-based prototype query processor indicates that an algebraic approach to source code queries combines the benefits of expressive power and compact query formulation  相似文献   

7.
研究了采用网络距离的道路网上移动对象连续多范围查询处理技术。设计了道路网、移动对象和查询数据在内存中存储的数据模型。基于该数据模型提出了两种道路网上的移动对象连续多范围查询处理算法。其中,增量式范围查询算法(incremental range query algorithm,IRQA)通过使用扩张树和影响列表结构减少查询的重新计算;组范围查询算法(group range query algorithm,GRQA)利用同一路径上多查询的结果具有相关性这一特点减少查询的重新计算。实验结果表明GRQA算法在查询分布比较集中时性能较优,IRQA算法在查询均匀分布时性能较优,此外,两种算法均优于重新计算所有查询结果的原始算法。  相似文献   

8.
李岩  张博文  郝红卫 《计算机应用》2016,36(9):2526-2530
针对传统查询扩展方法在专业领域中扩展词与原始查询之间缺乏语义关联的问题,提出一种基于语义向量表示的查询扩展方法。首先,构建了一个语义向量表示模型,通过对语料库中词的上下文语义进行学习,得到词的语义向量表示;其次,根据词语义向量表示,计算词之间的语义相似度;然后,选取与查询中词汇的语义最相似的词作为查询的扩展词,扩展原始查询语句;最后,基于提出的查询扩展方法构建了生物医学文档检索系统,针对基于维基百科或WordNet的传统查询扩展方法和BioASQ 2014—2015参加竞赛的系统进行对比实验和显著性差异指标分析。实验结果表明,基于语义向量表示查询扩展的检索方法所得到结果优于传统查询扩展方法的结果,平均准确率至少提高了1个百分点,在与竞赛系统的对比中,系统的效果均有显著性提高。  相似文献   

9.
顾逸圣  曾国荪 《计算机应用》2017,37(10):2958-2963
针对在编写软件、复用源代码的过程中仅依靠关键词无法精准搜索到适用源代码的问题,提出一种将语法和语义结合的源代码精准搜索方法。首先依据源代码语法语义的客观和唯一性,增加语法结构和"输入/输出"语义作为用户录入请求的一部分,并规范了具体的请求格式;然后在此基础上分别设计源代码语法匹配算法、"输入/输出"语义匹配算法、关键词兼容匹配,以及源代码搜索结果可信度计算算法;最后综合上述算法实现对源代码的精准搜索。测试结果表明:与单纯的关键词搜索相比,提出的方法对搜索的平均排序倒数(MRR)有超过62%的提升,有助于实现源代码的精准搜索。  相似文献   

10.
One of the key difficulties for users in information retrieval is to formulate appropriate queries to submit to the search engine. In this paper, we propose an approach to enrich the user’s queries by additional context. We used the Language Model to build the query context, which is composed of the most similar queries to the query to expand and their top-ranked documents. Then, we applied a query expansion approach based on the query context and the Latent Semantic Analyses method. Using a web test collection, we tested our approach on short and long queries. We varied the number of recommended queries and the number of expansion terms to specify the appropriate parameters for the proposed approach. Experimental results show that the proposed approach improves the effectiveness of the information retrieval system by 19.23 % for short queries and 52.94 % for long queries according to the retrieval results using the original users’ queries.  相似文献   

11.
查询扩展可以有效地消除查询歧义,提高信息检索的准确率和召回率.通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并在此基础上提出一种从关联查询中提取查询扩展词的查询扩展方法.同时,还提出一种查询歧义的判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计.通过对查询歧义的度量来动态调整扩展词的长度,提高查询扩展模型的灵活性和适应能力.  相似文献   

12.
针对信息检索中存在的词不匹配问题,提出一种基于频繁项集和相关性的局部反馈查询扩展算法。设计查询扩展模型和扩展词权重计算方法,从前列n篇初检文档中,挖掘同时含有查询词项、非查询词项的频繁项集,在该频繁项集中提取非查询词项作为候选扩展词,计算每个候选扩展词与整个查询的相关性,并根据该相关性得到最终的扩展词,以此实现查询扩展。实验结果表明,该算法能有效提高信息检索的性能。  相似文献   

13.
Query expansion by mining user logs   总被引:9,自引:0,他引:9  
Queries to search engines on the Web are usually short. They do not provide sufficient information for an effective selection of relevant documents. Previous research has proposed the utilization of query expansion to deal with this problem. However, expansion terms are usually determined on term co-occurrences within documents. In this study, we propose a new method for query expansion based on user interactions recorded in user logs. The central idea is to extract correlations between query terms and document terms by analyzing user logs. These correlations are then used to select high-quality expansion terms for new queries. Compared to previous query expansion methods, ours takes advantage of the user judgments implied in user logs. The experimental results show that the log-based query expansion method can produce much better results than both the classical search method and the other query expansion methods.  相似文献   

14.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-tj挖掘的局部反馈查询扩展算法。该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→-tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展。算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理。实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能。  相似文献   

15.
将Copulas理论引入文本特征词关联模式挖掘,提出融合Copulas理论和关联规则挖掘的查询扩展算法.从初检文档集中提取前列n篇文档构建伪相关反馈文档集或用户相关反馈文档集,利用基于Copulas理论的支持度和置信度对相关反馈文档集挖掘含有原查询词项的特征词频繁项集和关联规则模式,从这些规则模式中提取扩展词,实现查询扩展.在NTCIR-5 CLIR中英文本语料上的实验表明,文中算法可有效遏制查询主题漂移和词不匹配问题,改善信息检索性能,提升扩展词质量,减少无效扩展词.  相似文献   

16.
An adaptive learning automata-based ranking function discovery algorithm   总被引:1,自引:0,他引:1  
Due to the massive amount of heterogeneous information on the web, insufficient and vague user queries, and use of the same query by different users for different aims, the information retrieval process deals with a huge amount of uncertainty and doubt. Under such circumstances, designing an efficient retrieval function and ranking algorithm by which the most relevant results are provided is of the greatest importance. In this paper, a learning automata-based ranking function discovery algorithm in which different sources of information are combined is proposed. In this method, the learning automaton is used to adjust the portion of the final ranking that is assigned to each source of evidence based on the user feedback. All sources of information are first given the same importance. The proportion of a given source increases, if the documents provided by this source are reviewed by the user and decreases otherwise. As the proposed algorithm proceeds, the probability of appearance of each source in the final ranking gets proportional to its relevance to the user queries. Several simulation experiments are conducted on well-known data collections and query types to show the performance of the proposed algorithm. The obtained results demonstrate that the proposed algorithm outperforms several existing methods in terms of precision at position n, mean average precision, and normalized discount cumulative gain.  相似文献   

17.
18.
周红芳  冯博琴 《计算机工程》2007,33(18):40-41,4
从语义相关性角度分析超链归纳主题搜索(HITS)算法,发现其产生主题漂移的原因在于页面被投影到错误的语义基上,提出了一种基于模糊集的主题提取和层次发现算法(FSTH),通过用户日志扩展查询词,构造符合用户需要的个性化根集和基础集合,达到防止主题漂移的目的。FSTH采用模糊集划分方法,层次地发现与用户查询相关的主题页面集合,利用HITS算法分别计算每个主题页面集合中页面的权威值,返回与查询相关的其他主题权威页面。在14个查询上的实验结果表明,与HITS算法相比,FSTH算法不仅可以减少7%~53%的主题漂移率,而且可以发现与查询相关的多个主题.  相似文献   

19.
查询扩展是提高检索效果的有效方法,传统的查询扩展方法大都以单个查询词的相关性来扩展查询词,没有充分考虑词项之间、文档之间以及查询之间的相关性,使得扩展效果不佳。针对此问题,该文首先通过分别构造词项子空间和文档子空间的Markov网络,用于提取出最大词团和最大文档团,然后根据词团与文档团的映射关系将词团分为文档依赖和非文档依赖词团,并构建基于文档团依赖的Markov网络检索模型做初次检索,从返回的检索结果集合中构造出查询子空间的Markov网络,用于提取出最大查询团,最后,采用迭代的方法计算文档与查询的相关概率,并构建出最终的基于迭代方法的多层Markov网络信息检索模型。实验结果表明 该文的模型能较好地提高检索效果。  相似文献   

20.
基于用户日志的查询扩展统计模型   总被引:24,自引:0,他引:24       下载免费PDF全文
崔航  文继荣  李敏强 《软件学报》2003,14(9):1593-1599
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号