首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 157 毫秒
1.
一种篇章结构指导的中文Web文档自动摘要方法   总被引:29,自引:0,他引:29  
“摘要”、“关键词”是对文档内容提供简要概括的元数据,在Web信息检索中起着重要作用。针对Web信息检索的需求和Web文档的特点,采用拟人思维,提出了一种以篇章结构为指导的自动摘要方法。该方法对段落之间的内容语义关系进行分析,进而划分出文档的主题层次,得到文档的篇章结构;在篇章结构的指导下,使用统计方法和启发式规则来提取文档的关键词、关键句,生成文档的摘要。在实验评估中,该方法取得了令人满意的摘要质量和速度。  相似文献   

2.
抽取式自动文摘研究抽取文档中最能代表文档核心内容的句子作为摘要,篇章主次关系分析则是从篇章结构方面分析出篇章的主要内容和次要内容,因此,篇章主次关系分析和抽取式自动文摘存在较大关联,篇章主次关系可指导摘要的抽取。该文提出了一种基于篇章主次关系的单文档抽取式摘要方法,该方法基于神经网络模型构建了一个篇章主次关系和文本摘要联合学习的模型。该模型在考虑词组、短语等语义信息的基础上同时考虑了篇章的主次关系等结构信息,最终基于篇章内容的整体优化抽取出最能代表文档核心内容的句子作为摘要。实验结果表明,与当前主流的单文档抽取式摘要方法相比,该方法在ROUGE评价指标上有显著提高。  相似文献   

3.
基于语义的单文档自动摘要算法   总被引:1,自引:0,他引:1  
章芝青 《计算机应用》2010,30(6):1673-1675
单文档自动摘要的目的是在原始的文本中通过摘取、提炼主要信息,提供一篇简洁全面的摘要。自动摘要的主流方法是通过统计和机器学习的技术从文本中直接提取出句子,而单文档由于篇章有限,统计的方法无效。针对此问题,提出了基于语义的单文本自动摘要方法。该方法首先将文档划分为句子,然后计算每一对句子的语义相似度,通过运用改进型K-Medoids聚类算法将相似的句子归类,在每一类中选出最具代表性的句子,最后将句子组成文档摘要。实验结果表明,通过融合语义信息,该方法提高了摘要的质量。  相似文献   

4.
多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息,因此研究多文档自动摘要技术具有很重要的意义.本文提出了一种上下文敏感的基于词频统计的多文档自动摘要生成方案.该方案利用高频词的重要作用统计高频词信息,同时具备上下文敏感的特性.它具有简单易行,运行速度快,效果好等特点.实验结果证明,取得了很好的ROUGE成绩.  相似文献   

5.
为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一.相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点.目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息.为此,文中针对科技论文的特点,提出了一种基于"单词-章节-文档"层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息.除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获上下文信息.实验结果表明,提出的模型可有效提高生成文摘在ROUGE评测方法上的各项指标性能.  相似文献   

6.
为科技论文生成自动摘要,这能够帮助作者更快撰写摘要,是自动文摘的研究内容之一.相比于常见的新闻文档,科技论文具有文档结构性强、逻辑关系明确等特点.目前,主流的编码-解码的生成式文摘模型主要考虑文档的序列化信息,很少深入探究文档的篇章结构信息.为此,文中针对科技论文的特点,提出了一种基于"单词-章节-文档"层次结构的自动摘要模型,利用单词与章节的关联作用增强文本结构的层次性和层级之间的交互性,从而筛选出科技论文的关键信息.除此之外,该模型还扩充了一个上下文门控单元,旨在更新优化上下文向量,从而能更全面地捕获上下文信息.实验结果表明,提出的模型可有效提高生成文摘在ROUGE评测方法上的各项指标性能.  相似文献   

7.
随着信息快速增长,如何从大量文档中提取摘要信息成为自然语言处理一个重要的研究方向。文章提出了一种不依赖于任何训练集和自然语言本身信息的自动摘要方法,该方法利用改进后的PageRank公式和HITS公式对文档所有句子打分排序,选取得分高的句子作为摘要。实验证明,该方法简单易行,具有高效性,良好的效果以及扩展性。  相似文献   

8.
尽管抽取式自动文摘方法是目前自动文摘领域的主流方法,并且取得了长足的进步,但抽取式自动文摘形成的摘要由于缺乏句子之间的合理指代或篇章结构,使得文摘缺乏连贯性而影响可读性。为提高自动摘要的可读性,该文尝试将篇章修辞结构信息应用于中文自动文摘。首先,基于汉语篇章修辞结构抽取摘要,然后使用基于LSTM的方法对文本连贯性进行建模,并使用该模型对文摘的连贯性做出评价。实验结果表明: 在摘要抽取方面,基于篇章修辞结构的自动文摘相比于传统的抽取方法具有更好的ROUGE评价值;在使用基于LSTM连贯性模型评价摘要连贯性方面,篇章结构信息在自动抽取文摘时可以很好地提炼出文章的主旨,同时使摘要具有更好的结果。  相似文献   

9.
基于主题划分的网页自动摘要   总被引:4,自引:0,他引:4  
陈志敏  沈洁  林颖  周峰 《计算机应用》2006,26(3):641-0644
提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。  相似文献   

10.
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。  相似文献   

11.
为解决传统生成式模型在生成摘要的过程中会忽略关键词信息为摘要提供的重要线索, 导致关键词信息的丢失, 生成的摘要不能很好地契合原文信息, 文章提出了一种以指针生成网络为骨架融合BERT预训练模型和关键词信息的摘要生成方法. 首先, 结合TextRank算法与基于注意力机制的序列模型进行关键词的提取, 使得生成的关键词能够包含更多的原文信息. 其次, 将关键词注意力加入到指针生成网络的注意力机制里, 引导摘要的生成. 此外, 我们使用双指针拷贝机制来替代指针生成网络的拷贝机制, 提高拷贝机制的覆盖率. 在LCSTS数据集上的结果表明, 所设计的模型能够包含更多的关键信息, 提高了摘要生成的准确性和可读性.  相似文献   

12.
自动文本摘要是继信息检索之后信息或知识获取的一个重要步骤,对高质量的文档文摘十分重要。该文提出以句子为基本抽取单位,以位置和标题关键词为句子的加权特征,对句子基于潜语义聚类,提出语义结构的摘要方法。同时给出了较为客观和有效的摘要评价方法。实验表明了该方法的有效性。  相似文献   

13.
基于篇章多级依存结构的自动文摘研究   总被引:17,自引:0,他引:17  
自动文摘是自然语言处理领域的一项重要的研究内容,其研究目的是探索人类从自然语言篇章中获得取信息,提炼信息的思维机制,并在此基础上开发出能够自动编写文献摘要的软件,从面提高信息检索、传播的效率。  相似文献   

14.
李伯涵  李红莲 《计算机应用研究》2021,38(11):3289-3292,3358
针对生成式文本摘要中模型对文本语义了解不够充分以及生成摘要缺乏关键信息的问题,提出一种融合关键词的中文摘要生成模型KBPM(Key-BERT-Pen model).首先使用TextRank方法将文本中关键词抽取出来,然后将抽取出的关键词与原文一起经过BERT预训练模型得到更加精确的上下文表示,最终将得到的词向量输入到带有双重注意力机制的指针模型中,指针模型从词汇表或原文中取出词汇来生成最终的摘要.实验结果表明,KBPM模型能够生成可读性更好、ROUGE分数更高的文本摘要.通过对比分析也验证了KBPM模型有效解决了生成摘要中缺乏关键信息的问题.  相似文献   

15.
结合注意力机制的序列到序列模型在生成式文本摘要的研究中已取得了广泛应用,但基于该模型的摘要生成技术依然存在信息编码不充分、生成的摘要偏离主题的问题,对此提出了一种结合主题信息聚类编码的文本摘要生成模型TICTS(theme information clustering coding text summarization)。将传统的抽取式文本摘要方法与基于深度学习的生成式文本摘要方法相结合,使用基于词向量的聚类算法进行主题信息提取,利用余弦相似度计算输入文本与所提取关键信息的主题相关性,将其作为主题编码的权重以修正注意力机制,在序列到序列模型的基础上结合主题信息与注意力机制生成摘要。模型在LCSTS数据集上进行实验,以ROUGE为评价标准,实验结果相对于基线模型在ROUGE-1的得分上提高了1.1,ROUGE-2提高了1.3,ROUGE-L提高了1.1。实验证明结合主题信息聚类编码的摘要模型生成的摘要更切合主题,摘要质量有所提高。  相似文献   

16.
采用了一种综合的文本自动摘要方法来抽取出涵盖范围广、冗余信息少、最能反映文本中心思想的文本摘要.该方法充分考虑文本中的词频、标题、句子位置、线索词、提示性短语、句子相似度等特征因素,构建了一个综合的特征加权函数,运用数学回归模型对语料进行训练,去除冗余句子信息,提取关键句生成摘要.实验评估表明了该方法的可行性、有效性以及在摘要质量方面的优越性.  相似文献   

17.
基于规则和统计的中文自动文摘系统   总被引:6,自引:2,他引:6  
自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法。在篇章结构分析里,我们提出了基于连续段落相似度的主题划分算法,使生成的文摘更具内容全面性与结构平衡性。同时结合了若干规则对生成的文摘初稿进行可读性加工处理,使最终生成的文摘更具可读性。最后提出了一种新的文摘评价方法(F-new-measure)对系统进行测试。系统测试表明该方法在不同文摘压缩率时,评价值均较为稳定。  相似文献   

18.
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;提出一种基于关键短语的重排序机制,利用源文本中抽取的关键短语对集束搜索生成的候选序列进行重新排序,以减小其与源文本语义上的距离;对文本进行子词单元提取,利用更细粒度的单元对文本进行表示。该方法在不同长度的摘要数据集上进行实验,均取得了良好的效果。  相似文献   

19.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。  相似文献   

20.
本文提出了一种结合文法推断和HMM进行信息提取的方法。首先将待提取的原始文本转换为相应有意义的一个小的抽象符号集合,然后通过使用文法推断(GI)获取一个合适的HMM拓扑结构,最后利用所得的HMM拓扑结构,使用经典的Viterbi算法提取出用户感兴趣的信息。实验结果表明,针对半结构化文档,该方法在某些领域能够有效地提高提取的精确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号