首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息.对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank).通过Word2 Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要.实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好.  相似文献   

2.
经典的TextRank算法在文档的自动摘要提取时往往只考虑了句子节点间的相似性,而忽略了文档的篇章结构及句子的上下文信息。针对这些问题,结合中文文本的结构特点,提出一种改进后的iTextRank算法,通过将标题、段落、特殊句子、句子位置和长度等信息引入到TextRank网络图的构造中,给出改进后的句子相似度计算方法及权重调整因子,并将其应用于中文文本的自动摘要提取,同时分析了算法的时间复杂度。最后,实验证明iTextRank比经典的TextRank方法具有更高的准确率和更低的召回率。  相似文献   

3.
随着互联网的发展, 如何快速地从海量新闻中获取核心信息, 减少浏览负担, 是信息部门目前急需解决的问题. 现有的TextRank及其改进算法在新闻摘要抽取任务中, 考虑文本特征不全面. 在摘要句选择时, 只考虑到摘要的冗余度, 忽略了摘要的多样性及可读性. 针对上述问题, 本文提出了融合多特征的文本自动摘要方法MF-TextRank(multi-feature TextRank). 根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵, 使句子权重计算更准确. 采用MMR算法更新句子权重, 通过集束搜索得到候选摘要集, 在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出. 实验结果表明, MF-TextRank算法在摘要抽取任务中摘要Rouge得分优于现有改进的TexRank算法, 有效提高了摘要抽取的准确性.  相似文献   

4.
现有中文自动文本摘要方法主要是利用文本自身信息,其缺陷是不能充分利用词语之间的语义相关等信息。鉴于此,提出了一种改进的中文文本摘要方法。此方法将外部语料库信息用词向量的形式融入到TextRank算法中,通过TextRank与word2vec的结合,把句子中每个词语映射到高维词库形成句向量。充分考虑了句子之间的相似度、关键词的覆盖率和句子与标题的相似度等因素,以此计算句子之间的影响权重,并选取排序最靠前的句子重新排序作为文本的摘要。实验结果表明,此方法在本文数据集中取得了较好的效果,自动提取中文摘要的效果比原方法好。  相似文献   

5.
传统TextRank算法在生成摘要时只考虑句子间的相似度,忽略了文章本身间的相似度,且生成的摘要往往包含重复的信息表达。为此,提出一种基于共现关键词的TextRank算法,用word2vec模型将文章表示为句向量,考虑到文章的类别,将该类文章的共现关键词作为参数参与句子权值的迭代计算,然后,通过句子长度、关键词数量等信息对迭代得到的句子权重加以修正。实验结果表明,所提算法能够提高生成摘要的全面性和准确性。同时,所提算法使用MMR对抽取得到的摘要进行去除冗余处理,改善了摘要的重复表达情况。  相似文献   

6.
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。  相似文献   

7.
关键短语的抽取在文本聚类、分类、检索等方面有着重要的作用。利用经典的TF-IDF算法来提高文本关键短语抽取的质量。通过对TF-IDF算法的研究,发现TF-IDF可以综合利用单个文本信息和文本集合信息抽取文本关键词。在此基础上,提出一种综合TF-IDF、TextRank、统计学知识抽取关键短语的方法和利用候选关键短语逆向文档频率排序的方法。该方法在TextRank基础上,通过TF-IDF引入词的文本集合信息计算词之间权重得到词的得分。然后利用统计学知识从上一步选出词组成的短语筛选出候选关键短语。最后利用逆向文档频率的思想对候选关键短语排序。实验证明,该模型相比于经典TextRank模型准确率提高了2%,召回率提高了4.5%,F-measure提高了3.4%。  相似文献   

8.
文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要。该文主要研究基于多文档的文本情感摘要问题, 重点针对网络上存在同一个产品的多个评论产生相应的摘要。首先,为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的中文多文档文本情感摘要语料库。其次,该文提出了一种基于情感信息的PageRank算法框架用于实现多文档文本情感摘要,该算法同时考虑了情感和主题相关两方面的信息。实验结果表明,该文采用的方法和已有的方法相比在ROUGE值上有显著提高。  相似文献   

9.
为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。  相似文献   

10.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

11.
考虑到不同句子对判断文档情感倾向的重要程度不同,因而区分文档的关键句和细节句将有助于提高情感分类的性能。同时,考虑到Title和上下文信息,提出了一种基于Title和加权TextRank抽取关键句的情感分析方法SKTT,实现了高效的情感分析。根据文档Title的情感权重计算Title贡献度,考虑到标点和语义规则对情感倾向的影响;根据加权TextRank算法思想,在文档正文中构建了一个情感句有向图来提取关键句;计算所有关键句的情感倾向进行情感分类。在4个领域上进行实验,实验结果表明,该SKTT方法性能明显优于Baseline,具有高效性。  相似文献   

12.
针对传统定密方式定密不严谨、定密尺度难以把握、经验难以积累等问题,提出基于改进的TextRank算法的计算机辅助定密方法,该方法通过定密规则的词性特点,将句向量分解为名词向量和非名词向量,构造基于词性的句向量,利用改进的TextRank算法对文档语句排序,获取在定密细则影响下的关键语句权重,计算文档密级分数,判断文档密级。实验结果表明,该方法比目前传统定密方式准确率有所提高。  相似文献   

13.
王剑  唐珊  黄于欣  余正涛 《计算机应用》2020,40(10):2845-2849
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。  相似文献   

14.
王剑  唐珊  黄于欣  余正涛 《计算机应用》2005,40(10):2845-2849
传统的观点句识别多利用句子内部的情感特征进行分类,而在跨语言的多文档观点句识别任务中,不同语言、不同文档的句子之间具有密切的关联,这些关联特征对于观点句识别有一定的支撑作用。因此,提出一种基于双向长短期记忆(Bi-LSTM)网络框架并融入句子关联特征的汉越双语多文档新闻观点句识别方法。首先提取汉越双语句子的情感要素和事件要素,构建句子关联图,并利用TextRank算法得到句子关联特征;然后基于双语词嵌入和Bi-LSTM将汉语和越语的新闻文本编码在同一个语义空间;最后联合考虑句子编码特征和关联特征进行观点句识别。理论分析和模拟结果表明,融入句子关联图能够有效地提升多文档观点句识别的准确率。  相似文献   

15.
提出一种基于特征词句子环境的文本分类方法,介绍了创建分类规则的文本句子信息模型,比较详细地给出训练算法和语句聚集算法.该算法依据训练文本集的特征词句子环境,获取识别文本主题类别的特征词集合.最后给出了分类器性能的测试结果.  相似文献   

16.
提高文摘自动生成的准确性,能够帮助人们快速有效地获取有价值的信息。本文根据政府公文结构性强的特点,提出一种基于句子权重和篇章结构的政府公文自动文摘算法,首先通过基于游标的截取字符分句算法,对文档中句子和词语信息进行精确统计,获得对文章内容和篇章结构的基本了解;在此基础上,提出基于篇章结构的词语权重和句子权重计算方法,并根据权重计算结果对句子进行权重排序;然后,根据生成摘要的规模,筛选出一定数量的候选文摘句子;最后,对候选文摘句子进行一定的后处理,输出文摘句。实验结果表明,与同类型自动文摘算法以及Word 2003提供的自动文摘工具相比,本文提出的自动文摘算法在准确率和召回率上都有较大提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号