首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 151 毫秒
1.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

2.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

3.
针对传统的电力主题词库特征自动提取方法存在特征提取不准确、召回率低的问题,提出基于信息熵模型的电力主题词库特征自动提取方法.利用信息熵模型,分别对基础词库、专业词库、停用词库与新词词库建设,配置不同类型文档;根据语义相似度获取词语之间匹配度,结合共现矩阵,计算词项间关联程度,并构建主题词关联网络;将数据挖掘与语义信息融...  相似文献   

4.
主题关键词信息融合的中文生成式自动摘要研究   总被引:2,自引:0,他引:2       下载免费PDF全文
随着大数据和人工智能技术的迅猛发展,传统自动文摘研究正朝着从抽取式摘要到生成式摘要的方向演化,从中达到生成更高质量的自然流畅的文摘的目的.近年来,深度学习技术逐渐被应用于生成式摘要研究中,其中基于注意力机制的序列到序列模型已成为应用最广泛的模型之一,尤其在句子级摘要生成任务(如新闻标题生成、句子压缩等)中取得了显著的效果.然而,现有基于神经网络的生成式摘要模型绝大多数将注意力均匀分配到文本的所有内容中,而对其中蕴含的重要主题信息并没有细致区分.鉴于此,本文提出了一种新的融入主题关键词信息的多注意力序列到序列模型,通过联合注意力机制将文本中主题下重要的一些关键词语的信息与文本语义信息综合起来实现对摘要的引导生成.在NLPCC 2017的中文单文档摘要评测数据集上的实验结果验证了所提方法的有效性和先进性.  相似文献   

5.
为了让计算机能够对中文文章提取摘要,提出一种中文摘要自动生成算法。该算法基于Gensim自然语言处理框架实现,并在原有的基础上做出了改进,算法主要分为两个阶段。关键句生成阶段,对中文语料进行预处理,并放入Gensim框架中的Word2vec模型进行训练,修改TextRank算法使其能够接受词向量的输入生成无向图从而找到关键句;摘要生成框架构建阶段,根据文章结构与Gensim框架中的LDA主题模型所提取的关键词,赋予句子不同的权值,将分数高的几个句子组合生成文章摘要。Rouge摘要评测结果表明,该算法生成的摘要能够包含文章关键信息,相比于其他自动文摘算法,句意通顺程度得到了提升。  相似文献   

6.
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法.  相似文献   

7.
针对中文文档摘要领域存在的缺少可靠数据集,有监督的摘要模型不成熟的问题,构建了一个规模超过20万篇的中文文档级别的摘要语料库(Chinese Document-level Extractive Summarization Dataset,CDESD),提出了一种有监督的文档级别抽取式摘要模型(Document Summ...  相似文献   

8.
LDA主题模型     
在自然语言处理领域,LDA主题模型是进行文本语义挖掘的一种统计模型,用来发现文档中的隐含主题,将词项空间表达的文档约简为主题空间的低维表达,实现信息检索、文本分类等。本文阐述了LDA模型的文档生成过程、LDA模型的图模型表示、基于LDA的扩展模型以及未来的研究趋势。  相似文献   

9.
主题模型LDA的多文档自动文摘   总被引:3,自引:0,他引:3  
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA (latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.  相似文献   

10.
软件文档及其程序代码之间的关联性或可追踪性分析是软件分析、理解的重要基础。探讨了软件的中文文档和程序代码中蕴含的主题及其相关性。针对软件文档的章节结构和词汇空间;以及程序代码结构、标识符命名空间、注释风格等方面的特点;在LDA模型的基础上提出了一种基于主题词的软件中文文档与代码间关联关系的分析方法。该方法依据词汇的香农信息提取文本段的主题词。实验结果表明;主题词分析方法与LSI模型分析方法相比在查全率和查准率上均有2%到5%的提高。  相似文献   

11.
一种基于文章主题和内容的自动摘要方法   总被引:8,自引:0,他引:8  
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。  相似文献   

12.
如何在数量巨大的Internet中快速准确搜索到符合要求的Web页是一个值得探讨的重要课题。构造一种能够根据句式和词频对Web文本自动模型,运用人工免疫算法使该模型具有较高的聚类精度和自发现能力,实验结果表明,该模型不仅能够有效对各类Web文本进行,保持较低的错误肯定率和错误否定率,还具有很强的自适应性和更新能力,在算法复杂度上也具备一定优势。  相似文献   

13.
随着对LDA模型的研究越来越深入,文本表示和挖掘能力进一步提高。话题是LDA模型中一个非常重要的概念,是特征集合的一个多项式概率分布。话题追踪是根据少数已知相关信息在未知报道流中追踪一个话题,找出与该话题相关的所有报道。把LDA模型用于话题追踪,目的有两个:(一)检验LDA话题对追踪话题的表示能力;(二)检验LDA模型在挖掘训练数据中的追踪话题时,LDA话题和追踪话题之间的关系。实验表明:相对于经典的向量空间模型和一元语言模型,以及专门针对追踪话题提出的事件模型,基于LDA模型的追踪性能更好,但由于粒度不同,LDA模型中的话题和追踪话题并没有直接的一一对应的关系,实现可定制话题的LDA模型是下一步工作的目标。  相似文献   

14.
基于信息熵构造判定树的数据挖掘算法的设计与实现   总被引:6,自引:0,他引:6  
该文讨论了信息量或熵构造判定树的数据挖掘算法,阐明了算法中如何处理高分枝属性、数据清理及剪枝等关键环节,并说明了具体实现方法。  相似文献   

15.
基于正文特征的网页正文信息提取方法   总被引:2,自引:0,他引:2  
利用正文字数多、标点符号多两个特征,提出一种基于正文特征的网页正文信息提取方法.谊方法利用HTML标签对网页内容进行分块,把具有正文特征的块保留,不具有正文特征的块舍弃,从而准确得到具有较高完整性的网页正文信息.实验结果证明该方法是有效的、通用的.  相似文献   

16.
基于信息熵的DNA免疫遗传算法   总被引:5,自引:0,他引:5  
郑建刚  王行愚 《计算机仿真》2006,23(6):163-165,208
针对标准遗传算法在优化应用中遇到的诸如局部搜索能力差、计算量大、对较大搜索空间适应能力差和早熟收敛等问题,该文通过将免疫算法引入到遗传算法中,利用免疫算法的免疫记忆、自我调节和多样性保持功能弥补其不足,提出了一种基于信息熵的DNA免疫遗传算法.该算法采用DNA链对抗体进行编码,利用信息熵来表示抗体间的亲和度及浓度,并提出了一种新的评估指标--聚合亲和度,有效地实现了抗体群的自我调节和多样性保持策略.最后,利用典型测试函数验证了本文方法的有效性.  相似文献   

17.
基于概念统计的英文自动文摘研究   总被引:6,自引:2,他引:6  
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。  相似文献   

18.
对信息熵理论进行了概述,提出了客观熵权(OEW)的概念,并给出了OEW的构造方法,进而建立了主成分投影(PCP)的综合决策模型,并在土地质量综合决策中进行了应用.结果表明,提出的方法是有效的、合理的.  相似文献   

19.
基于信息熵和聚类分析的评价模型   总被引:1,自引:0,他引:1  
建立一个基于信息熵和聚类分析的评价模型,由信息熵确定指标权重,并通过聚类分析进行综合评价。通过实例分析验证该模型的有效性。  相似文献   

20.
主题新闻信息门户系统的设计与实现   总被引:4,自引:0,他引:4       下载免费PDF全文
莫倩  刘书家 《计算机工程》2006,32(10):265-267
介绍了一个将主题追踪技术与信息门户技术相结合,实现个性化服务的主题新闻信息门户系统。系统能够根据用户设定的不同主题新闻策略,动态监测互联网新闻信息源,自动采集相关网站新闻信息,对相关主题进行实时动态追踪。描述了主题新闻信息门户系统的体系结构、主要功能和关键技术,并给出了应用实验结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号

京公网安备 11010802026262号