首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 175 毫秒
1.
面向查询的文本摘要是自动文摘中的一个特殊领域,可以根据用户个性化的查询需求,从原始文档或文档集中提取有价值的摘要信息。目前,该技术已经在面向查询的搜索引擎、智能化信息检索、问答系统等领域得到广泛应用,并受到越来越多的关注。文章基于面向查询的文本摘要任务的典型技术框架,从查询理解、文档处理和信息组织三个方面对其国内外研究方法的现状进行对比和分析,对不同业务场景的应用进行了举例,归纳了面向查询的文本摘要面临的挑战及发展趋势。  相似文献   

2.
为了满足用户的个性化需求,提供尽可能丰富、实用、方便的文摘结果,该文设计了面向查询的多文档自动文摘的多种摘要模式。在将查询返回的文档集合表示为以文本、段落为节点的双层复杂网络结构以发现子主题的基础上,除传统的摘要模式外,该文又设计了概括摘要、局部摘要、全局摘要和详细摘要这四种摘要模式,并给出了各种摘要的生成方法。支持用户以主题为线索自主漫游,按照一定的逻辑顺序浏览信息。  相似文献   

3.
文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个主题中抽取句子生成摘要。实验结果表明生成的摘要冗余少,信息全面。  相似文献   

4.
.基于用户查询扩展的自动摘要技术*   总被引:1,自引:0,他引:1  
提出了一种新的文档自动摘要方法,利用非负矩阵分解算法将原始文档表示为若干语义特征向量的线性组合,通过相似性计算来确定与用户查询高度相关的语义特征向量,抽取在该向量上具有较大投影系数的句子作为摘要,在此过程中,多次采用相关反馈技术对用户查询进行扩展优化。实验表明,该方法所得摘要在突出文档主题的同时,体现了用户的需求和兴趣,有效改善了信息检索的效率。  相似文献   

5.
专利检索是专利挖掘任务的重要前置子任务,而查询扩展对于提高专利检索方法的准确率和召回率有重要作用.专利文档具有高频率的非标准技术术语以及创造词的特点,传统的查询扩展方法并没有考虑这一特点,会导致专利检索子任务难以获取用户完整的查询意图;此外,在专利查询扩展过程中不可避免地会引入噪声词,出现主题漂移现象,导致查询召回率降...  相似文献   

6.
伪反馈一直以来都被认为是一种有效的查询扩展技术.但是近来的研究表明传统的伪反馈容易带来主题漂移并因此而影响检索性能.如何确定相关文档以及如何从相关文档中挑选有用的扩展词项是伪反馈中两个重要的方面.与传统查询扩展不同,XML查询扩展不仅需要内容扩展还需要考虑结构扩展.提出了一个解决框架,利用聚类和词组抽取技术来查找相关文档和选择有用的扩展信息.结合XML的语义特征,提出了一种全新的基于层次信息的文档相似性度量方案.基于此,将初始检索结果聚类,获得与查询请求最为相关的文档簇,然后在文档簇中抽取词组,找到符合用户查询意图的扩展查询词组,并在扩展查询词组的基础上进行结构扩展,最终形成完整的"内容+结构"的查询扩展表达式.IEEE CS实验数据上的实验结果表明,结合了聚类和抽取技术的XML伪反馈查询扩展方法能有效地降低主题漂移现象,获得更好的检索质量.  相似文献   

7.
针对现有大多数面向查询的多文档抽取式摘要方法通常是将句子的内容显著性及查询相关性分开计算的,且对向量表示的建模不充分的问题,提出一种基于层级BiGRU+Attention的面向查询的新闻多文档抽取式摘要方法.首先,通过训练层级BiGRU+Attention神经网络模型,获得具有丰富上下文语义信息的句子、文档向量表示;并在此过程中通过双线性变换注意力机制,使得文档向量表示不仅具有反映文档深层主旨信息的基本特性,还融入句子与用户查询的相关性信息,然后利用句向量与其进行相似度计算获得相应的句子重要性得分;其次,由句子重要性得分、句子中包含的关键词特征、句子的长度特征以及句子的时序权重系数加权组合得到最终的句子综合特征权重得分;最后,利用MMR算法来选择摘要句.实验结果表明,与其他方法相比本文提出的方法能在一定程度上提高面向查询的多文档抽取式摘要的质量,具有一定的有效性及优越性.  相似文献   

8.
文档检索是问答式检索系统的重要组成部分,它提供了整个系统进行答案抽取等后续处理的基础.查询扩展是一种能有效地改进文档检索性能的常用方法.FDUQA在检索模块中结合自然语言处理技术,引入了查询扩展功能.实验证明,通过在开放领域问答系统的检索模块中加入查询扩展,文档检索的首位正确率提高了11.6%,返回文档集的整体质量有了明显的提高,提高了系统的整体性能.  相似文献   

9.
混合P2P环境下有效的查询扩展及其搜索算法   总被引:6,自引:0,他引:6  
张骞  张霞  刘积仁  孙雨  文学志  刘铮 《软件学报》2006,17(4):782-793
查询扩展是解决信息获取领域中用词歧义性问题的关键技术,并被广泛应用于搜索引擎中,获得了巨大的成功.然而,由于P2P(peer-to-peer)系统是一个分散的、动态的系统,在P2P环境下进行有效的查询扩展具有一定的挑战性.首先,利用查询与文档的关联关系构建了LEM(local expansion method)查询扩展方法;然后,基于查询与文档用词的直接关联,提出了HEM(history_based expansion method)查询扩展方法.在此基础上,提出了一种基于查询扩展的混合P2P环境下的搜索算法.实验及分析结果表明,查询扩展及其搜索算法能够极大地提高搜索的效果.  相似文献   

10.
《计算机科学与探索》2016,(12):1673-1682
伪反馈(pseudo relevance feedback,PRF)一直以来都被认为是一种有效的查询扩展技术。然而传统的伪反馈容易带来主题漂移,从而影响检索性能。如何确定高质量的相关文档集,以及如何从相关文档集中挑选有用的扩展词项,是解决伪反馈中查询主题漂移的两个重要方面。对此,针对XML(extensible markup language)文档,提出了一个解决框架:一方面,研究了XML伪反馈文档查找方法,在充分考虑XML内容和结构特征的前提下,提出了基于检索结果聚类和两阶段排序模型相结合的高质量XML伪相关文档查找技术;另一方面,针对CO(content only)查询,对词项扩展进行了研究,提出了带结构语义的词项权值计算方法。一系列的相关实验数据表明,所提的XML伪反馈查询扩展方法能有效地减少查询主题漂移现象,获得更好的检索质量。  相似文献   

11.
Most existing research on applying the matrix factorization approaches to query-focused multi-document summarization (Q-MDS) explores either soft/hard clustering or low rank approximation methods. We employ a different kind of matrix factorization method, namely weighted archetypal analysis (wAA) to Q-MDS. In query-focused summarization, given a graph representation of a set of sentences weighted by similarity to the given query, positively and/or negatively salient sentences are values on the weighted data set boundary. We choose to use wAA to compute these extreme values, archetypes, and hence to estimate the importance of sentences in target documents set. We investigate the impact of using the multi-element graph model for query focused summarization via wAA. We conducted experiments on the data of document understanding conference (DUC) 2005 and 2006. Experimental results evidence the improvement of the proposed approach over other closely related methods and many of state-of-the-art systems.  相似文献   

12.
以关键词抽取为核心的文摘句选择策略   总被引:3,自引:0,他引:3  
针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。  相似文献   

13.
In text summarization, relevance and coverage are two main criteria that decide the quality of a summary. In this paper, we propose a new multi-document summarization approach SumCR via sentence extraction. A novel feature called Exemplar is introduced to help to simultaneously deal with these two concerns during sentence ranking. Unlike conventional ways where the relevance value of each sentence is calculated based on the whole collection of sentences, the Exemplar value of each sentence in SumCR is obtained within a subset of similar sentences. A fuzzy medoid-based clustering approach is used to produce sentence clusters or subsets where each of them corresponds to a subtopic of the related topic. Such kind of subtopic-based feature captures the relevance of each sentence within different subtopics and thus enhances the chance of SumCR to produce a summary with a wider coverage and less redundancy. Another feature we incorporate in SumCR is Position, i.e., the position of each sentence appeared in the corresponding document. The final score of each sentence is a combination of the subtopic-level feature Exemplar and the document-level feature Position. Experimental studies on DUC benchmark data show the good performance of SumCR and its potential in summarization tasks.  相似文献   

14.
Multi-document summarization via submodularity   总被引:1,自引:1,他引:0  
Multi-document summarization is becoming an important issue in the Information Retrieval community. It aims to distill the most important information from a set of documents to generate a compressed summary. Given a set of documents as input, most of existing multi-document summarization approaches utilize different sentence selection techniques to extract a set of sentences from the document set as the summary. The submodularity hidden in the term coverage and the textual-unit similarity motivates us to incorporate this property into our solution to multi-document summarization tasks. In this paper, we propose a new principled and versatile framework for different multi-document summarization tasks using submodular functions (Nemhauser et al. in Math. Prog. 14(1):265?C294, 1978) based on the term coverage and the textual-unit similarity which can be efficiently optimized through the improved greedy algorithm. We show that four known summarization tasks, including generic, query-focused, update, and comparative summarization, can be modeled as different variations derived from the proposed framework. Experiments on benchmark summarization data sets (e.g., DUC04-06, TAC08, TDT2 corpora) are conducted to demonstrate the efficacy and effectiveness of our proposed framework for the general multi-document summarization tasks.  相似文献   

15.
Topic‐focused multidocument summarization has been a challenging task because the created summary is required to be biased to the given topic or query. Existing methods consider the given topic as a single coarse unit, and then directly incorporate the relevance between each sentence and the single topic into the sentence evaluation process. However, the given topic is usually not well defined and it consists of a few explicit or implicit subtopics. In this study, the related subtopics are discovered from the topic's narrative text or document set through topic analysis techniques. Then, the sentence relationships against each subtopic are considered as an individual modality and the multimodality manifold‐ranking method is proposed to evaluate and rank sentences by fusing the multiple modalities. Experimental results on the DUC benchmark data sets show the promising results of our proposed methods.  相似文献   

16.
陈飞  刘奕群  张敏  马少平 《软件学报》2015,26(12):3130-3139
多样化检索结果的评测通常假设一个查询词包含多个权重各不相同的用户子意图,并在此假设的基础上对检索结果进行评测.虽然大多数已经存在的多样化检索评测方法利用了这些特性对检索结果进行评测,但在评测过程中,它们都忽略了查询子意图的类型信息;而不同类型的查询子意图对信息需求具有不同的特点.首先,通过引入衰减函数对这种特点进行描述,进而对用户子意图的分类方法进行抽象;在此基础上,提出了利用查询子意图类型信息进行多样化检索结果评测的框架,该框架定义了利用查询子意图类型信息进行多样化检索评测的方法应该具有的结构;然后,讨论了在用信息类和导航类作为子意图分类方法的前提下,其对应的衰减函数的形式;最后,在TREC与NTCIR测试集上的实验结果表明了所提出方法的有效性.  相似文献   

17.
基于局部主题关键句抽取的自动文摘方法   总被引:2,自引:1,他引:1       下载免费PDF全文
徐超  王萌  何婷婷  张勇 《计算机工程》2008,34(22):49-51
自动文摘是语言信息处理中的重要环节。该文提出一种基于局部主题关键句抽取的中文自动文摘方法。通过层次分割的方法对文档进行主题分割,从各个局部主题单元中抽取一定数量的句子作为文章的文摘句。通过事先对文档进行语义分析,有效地避免了数据冗余和容易忽略分布较小的主题等问题。实验结果表明了该方法的有效性。  相似文献   

18.
时序摘要是按照时间顺序生成摘要, 对话题的演化发展进行概括. 已有的相关研究忽视或者不能准确发现句子中隐含的子话题信息. 针对该问题, 本文建立了一种新的主题模型, 即词语对狄利克雷过程, 并提出了一种基于该模型的时序摘要生成方法. 首先通过模型推理得到句子的子话题分布; 然后利用该分布计算句子的相关度和新颖度; 最后按时间顺序抽取与话题相关且新颖度高的句子组成时序摘要. 实验结果表明, 本文方法较目前的代表性研究方法生成了更高质量的时序摘要.  相似文献   

19.
Inferring query intent is significant in information retrieval tasks. Query subtopic mining aims to find possible subtopics for a given query to represent potential intents. Subtopic mining is challenging due to the nature of short queries. Learning distributed representations or sequences of words has been developed recently and quickly, making great impacts on many fields. It is still not clear whether distributed representations are effective in alleviating the challenges of query subtopic mining. In this paper, we exploit and compare the main semantic composition of distributed representations for query subtopic mining. Specifically, we focus on two types of distributed representations: paragraph vector which represents word sequences with an arbitrary length directly, and word vector composition. We thoroughly investigate the impacts of semantic composition strategies and the types of data for learning distributed representations. Experiments were conducted on a public dataset offered by the National Institute of Informatics Testbeds and Community for Information Access Research. The empirical results show that distributed semantic representations can achieve outstanding performance for query subtopic mining, compared with traditional semantic representations. More insights are reported as well.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号