首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 796 毫秒
1.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

2.
基于加权信息论的突发事件新闻主题抽取方法   总被引:2,自引:0,他引:2  
在分析突发事件新闻文本特点的基础上,提出了一种基于加权信息论的主题抽取方法,与传统的方法相比,该方法既考虑了主题词在文本中所合统计信息,又考虑了突发事件新闻文本中主题词出现的位置特征.实验结果表明,采用该方法对突发事件新闻文本进行主题抽取具有较好的性能.  相似文献   

3.
三个层面的中文文本主题自动提取研究   总被引:8,自引:0,他引:8  
为适应Internet时代和大规模文献处理的需要,以中文文本为处理对象,研究了从主题词、主题概念和主题句三个不同层面自动抽取文本主题的方法,着重讨论了加权体系和一些经验值的获取方法。对新闻类文献做了实验,并简单进行了性能分析。  相似文献   

4.
基于WFC和MI的主题句提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
薛扣英  原盛  张心严 《计算机工程》2009,35(20):184-186
提出一种基于加权模糊聚类(WFC)和互信息(MI)的主题句提取方法,使主题句尽可能全面覆盖全文主题的同时,缩减自身的冗余,以提高摘要效率,采用加权模糊聚类的方法对文本句子进行分类,对在同一类中的句子使用比较互信息的方法进行排名处理,从而获得高质量的摘要。实验结果表明,与传统聚类方法比较,该方法的正确率提高约15%,可以达到约70%的精确度,并在阅读摘要时能够基本正确地获取文本信息。  相似文献   

5.
针对传统图模型方法进行文本摘要时只考虑统计特征或浅层次语义特征,缺乏对深层次主题语义特征的挖掘与利用,提出了融合主题特征后多维度度量的文本自动摘要方法MDSR(multi-dimension summarization rank)。首先利用LDA主题模型对文本主题语义信息进行挖掘,定义了主题重要度以衡量主题特征对句子重要程度的影响;然后结合主题特征、统计特征和句间相似度,改进了图模型节点的概率转移矩阵的构建方式;最后根据句子节点权重进行摘要的抽取与度量。实验结果显示,当主题特征、统计特征及句间相似度权重比例达到3:4:3时,MDSR方法的ROUGE评测值达到最佳,ROUGE-1、ROUGE-2、ROUGE-SU4值分别达到53.35%、35.18%和33.86%,优于对比方法,表明了融入主题特征后的文本摘要方法有效提高了摘要抽取的准确性。  相似文献   

6.
《软件》2017,(9):18-22
句子相似度的计算是自然语言处理领域中的重要研究课题,它在信息检索、文本挖掘、机器翻译等领域占有重要的作用。为提高汉泰双语新闻主题句相似度计算的准确率,本文根据汉泰双语新闻主题句的句式特点,提出了一种融合多特征的汉泰双语新闻主题句相似度计算方法。在选取词性、句法成分作为有效特征外,引入句子依存关系特征,并通过对不同的特征加不同的权重来调节各个特征对相似度计算的贡献,从而使计算结果达到最优。与基于词典的方法进行比较,实验结果表明,该方法使得准确率提高了5.9%。  相似文献   

7.
采用了一种综合的文本自动摘要方法来抽取出涵盖范围广、冗余信息少、最能反映文本中心思想的文本摘要.该方法充分考虑文本中的词频、标题、句子位置、线索词、提示性短语、句子相似度等特征因素,构建了一个综合的特征加权函数,运用数学回归模型对语料进行训练,去除冗余句子信息,提取关键句生成摘要.实验评估表明了该方法的可行性、有效性以及在摘要质量方面的优越性.  相似文献   

8.
中文文本情感主题句分析与提取研究   总被引:3,自引:0,他引:3  
樊娜  蔡皖东  赵煜  李慧贤 《计算机应用》2009,29(4):1171-1173
提出一种提取中文文本情感主题句子的方法。首先评估文本中语义概念的概括和归纳能力,确定文本主题概念。将包含主题概念的句子作为候选主题句子,计算各个候选句子的重要度,最终确定文本主题句。然后采用条件随机场模型,选取情感倾向特征和转移词特征训练模型,从文本主题句集合中提取情感主题句。实验证明,以提出的方法为基础进行文本情感分析,避免了与主题无关的句子对分析结果的影响,有效地提高了文本情感分析的准确率。  相似文献   

9.
针对传统的金融预测系统仅仅依靠股票价格和市场指数等定量数据而不能很好地满足实时性和高准确性的问题,提出一种基于加权关联规则和文本挖掘的新闻传播Agent实现方法。首先,利用中文知识与信息处理系统将每个新闻标题分离得到每个中文单词;然后,利用加权关联规则算法检测频繁出现在同一条新闻标题中的多个术语,并提取名词、动词和复合语;最后,根据新闻供给市场第一个交易日股票交易金融价格指数为提取的关键字分配权重,并根据新闻标题的权重值判断其对股票价格的影响程度。新闻标题特征数据库上的实验验证了该方法在金融新闻标题的实时信息发布应用中的可行性,实验结果表明,相比其他几种预测方法,该方法取得了更高的预测准确率和召回率。  相似文献   

10.
在传统基于关键词属性、情感属性和位置属性提取关键句的文本情感倾向性研究的基础上,提出一种融合全局特征和自身特征双窗口的加权TextRank关键句提取算法(WTTW算法),使用soft_voting对提取的关键句进行情感倾向性分析的方法。从全局特征出发通过关键词特征、位置特征、句子之间的相似度加权求和构建窗口为2的TextRank图模型,即将整个文本作为一个单元,设置长度为2的滑动窗口,从第一句至最后一句顺序进行滑动窗口建立图模型,迭代得到各句子的得分;再根据句子情感特征和标点特征对句子得分进行调整,得到关键句;使用soft_voting对提取的关键句进行情感倾向性分析。在四个不同领域进行实验,实验结果表明,该方法在各种评价指标下均显著优于baseline,具有高效性。  相似文献   

11.
卢玲  杨武  王远伦  雷子鉴  李莹 《计算机应用》2018,38(5):1272-1277
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。  相似文献   

12.
新闻文本情感旨在对带有情感信息的文本,通过提炼、浓缩而产生表达文本全局情感意见的情感,用以帮助人们快速获取文本的情感倾向和主旨内容。文章主要针对网络上的海量新闻文本,研究单文档的情感。首先,该方法对文本中的句子进行情感标注。其次,通过LexRank算法与情感信息计算句子相似度。最后,根据新闻标题的特殊性计算句子与标题的相似性,综合以上考虑得到情感。实验结果表明,相比于原有的LexRank算法,该文采用的方法能够更加有效的生成带有情感色彩并且最能表达文章主旨内容的情感。  相似文献   

13.
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。  相似文献   

14.
为了准确挖掘出同一主题的大量网络新闻的线索发展脉络,该文提出了一种基于条件随机场模型的网络新闻主题线索发掘方法。首先,根据新闻主题线索句的识别规则提取出相关特征,并应用到条件随机场模型中提取出主题线索句;然后,按照时间顺序构建原始线索链;最后,对语义相近的原始线索链进行合并处理,获得最终的新闻主题发展脉络。实验结果表明,该方法在主题线索句识别上有较好的效果,最终得到的主题线索脉络能够较清晰地展现新闻发展趋势。  相似文献   

15.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。  相似文献   

16.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

17.
杨威亚  余正涛  高盛祥  宋燃 《计算机应用》2021,41(10):2879-2884
针对汉越跨语言新闻话题发现任务中汉越平行语料稀缺,训练高质量的双语词嵌入较为困难,而且新闻文本一般较长导致双语词嵌入的方法难以很好地表征文本的问题,提出一种基于跨语言神经主题模型(CL-NTM)的汉越新闻话题发现方法,利用新闻的主题信息对新闻文本进行表征,将双语语义对齐转化为双语主题对齐任务。首先,针对汉语和越南语分别训练基于变分自编码器的神经主题模型,从而得到单语的主题抽象表征;然后,利用小规模的平行语料将双语主题映射到同一语义空间;最后,使用K-means方法对双语主题表征进行聚类,从而发现新闻事件簇的话题。实验结果表明,所提方法相较于面向中英文的隐狄利克雷分配主题改进模型(ICE-LDA)在Macro-F1值与主题一致性上分别提升了4个百分点与7个百分点,可见所提方法可有效提升新闻话题的聚类效果与话题可解释性。  相似文献   

18.
针对新闻文本领域,该文提出一种基于查询的自动文本摘要技术,更加有针对性地满足用户信息需求。根据句子的TF-IDF、与查询句的相似度等要素,计算句子权重,并根据句子指示的时间给定不同的时序权重系数,使得最近发生的新闻内容具有更高的权重,最后使用最大边界相关的方法选择摘要句。通过与基于TF-IDF、Text-Rank、LDA等六种方法的对比,该摘要方法ROUGE评测指标上优于其他方法。从结合评测结果及摘要示例可以看出,该文提出的方法可以有效地从新闻文档集中摘取核心信息,满足用户查询内容的信息需求。  相似文献   

19.
一种有效的新闻视频主题字幕检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种新的有效的新闻视频主题字幕检测方法。利用像素的空间量化亮度值计算局部帧差变化,以便检测新闻视频字幕的出现帧和消失帧,并建立4条规则来进一步区分主题字幕和非主题字幕,然后对同一主题字幕所在帧利用多帧结合的方法生成两个候选的主题字幕文字检测帧,选择其中之一进行文字区域的定位和提取;最后用投影法分割字符,并对投影法产生的错误分割字符的常见情况,提出相应的解决方法。实验结果表明了该方法的有效性。  相似文献   

20.
针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果;方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影,从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验,实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现,准确率最高分别为86.96%、86.17%、94.40%和93.73%,验证了所提方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号