首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 437 毫秒
1.
带有时间标志的演化式摘要是近年来提出的自然语言处理任务,其本质是多文档自动文摘,它的研究对象是互联网上连续报道的热点新闻文档。针对互联网新闻事件报道的动态演化、动态关联和信息重复等特点,该文提出了一种基于局部—全局主题关系的演化式摘要方法,该方法将新闻事件划分为多个不同的子主题,在考虑时间演化的基础上同时考虑子主题之间的主题演化,最后将新闻标题作为摘要输出。实验结果表明,该方法是有效的,并且在以新闻标题作为输入输出时,和当前主流的多文档摘要和演化摘要方法相比,在Rouge评价指标上有显著提高。  相似文献   

2.
篇章句间关系识别(Discourse Relation Recognition)是篇章分析的重要内容,该文对中文篇章句间关系识别任务进行初步探索,包括显式篇章句间关系识别与隐式篇章句间关系识别两类任务。针对显式篇章句间关系,我们提出基于关联词规则的方法进行识别,取得了很好的效果;针对隐式篇章句间关系,我们抽取词汇、句法、语义等特征,采用有指导模型进行识别。该文的分析和实验结果为后续研究提供了参考和基本对照系统。  相似文献   

3.
该文提出一种基于信息检索的无指导方法,用于推理隐式篇章片段之间的语义连接关系,如因果关系、转折关系等。该文基于Google搜索引擎,抽取在句子结构以及语义层面上均与原隐式片段相似的显式片段,通过分析和识别相关显式关系来间接推理隐式关系。主要包括以下三个模块 构建高质量查询关键词并抽取候选显式关系;结合三种隐式关系推理模型(相似度、置信度、关联度),综合考察查询关键词以及候选关系的质量;基于排序学习的方法,统计高质量候选关系中的类别分布以实现最终隐式关系的推理。该文采用Penn Discourse TreeBank 2.0篇章语料库,最终方法精确率达到54.3%,与有指导的方法相比,提高了约14.3%。  相似文献   

4.
针对目前航空安全事故因果关系分析一般采用基于概率和统计的方法,缺乏对事故发生过程的详细分析这一问题,提出通过因果关系抽取挖掘事故的因果发展过程。针对世界航空安全事故调查报告构成的文本数据集,将航空安全事故因果关系分为显式因果关系和隐式因果关系,其中显式因果关系抽取采用模式匹配的方法,抽取准确率达到87.72%;隐式因果关系抽取则采用改进的基于自注意力机制的双向长短期记忆网络方法,该方法在公共数据集和航空安全数据集上的F值较基准方法分别提高近6%和10%。在有效实现单一航空安全事故因果关系对的识别与抽取的基础上,生成了每个事故的因果关系图,为深入分析航空安全事故发生过程和情景重现提供数据与方法支持。  相似文献   

5.
针对LDA主题模型用于产品特征抽取中存在的问题,提出将句法分析和主题模型相结合的SA-LDA方法。首先基于句法分析对产品所在类别下的所有产品评论进行分析抽取显式特征,并聚类产生特征集和观点集,据此构建语料库。接着对待分析产品的每条评论,提取主观句并利用改进LDA模型对其主题进行学习,根据语料库构建must-link和cannot-link约束条件,在主题更新时对其进行约束和引导,每个主题对应一个特征类。实验表明,本文方法对显式特征和隐式特征都具有很好的实验效果,且相比传统的方法和其他改进方法在保证召回率的同时对准确率也有一定程度的提高。   相似文献   

6.
隐式句间关系识别是篇章句间关系识别任务中一个重要的问题。由于隐式句间关系的语料没有较好的特征,目前该任务的识别仍不能达到很好的效果。隐式句间关系的语句和显式句间关系的语句在语义等方面有着一定的联系,为了充分利用这两个任务之间的联系,该论文使用多任务学习的方法,并使用双向长短时记忆(Bi-LSTM)网络学习语句的相关特征;同时,为充分利用文本的特征,采用融合词嵌入的方法并引入先验知识。与其他基于哈工大的中文篇章级语义关系语料库的实验结果表明,该文方法的平均F1值为53%,提升约13%;平均召回率(Recall)为51%,提升约9%。  相似文献   

7.
在分析维吾尔语词性规则和语法特征的基础上,以维吾尔语评论性语句为研究语料,提出了一种基于Bootstrapping算法的意见挖掘关系抽取方法.在每一次迭代过程中,根据改进的评分公式选取最优模式抽取主题词-意见词对;迭代结束后,对于主题-意见词对为空的评论语句,使用最近匹配算法抽取主题-意见词对;用并联模式和否定模式对抽取的主题-意见词对进行扩展和修正.关系抽取的最终目标是为每一个评论性语句建立一个或多个二元组<主题词,意见词>,并使主题词和意见词一一对应.实验结果表明了该方法在关系抽取上的有效性.  相似文献   

8.
由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务.文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声.首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别.在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高.  相似文献   

9.
功能连接词是一种直接表述篇章单元内部语义关系、结构特性和语境发展趋势的词特征。借助功能连接词的这一优势,该文提出一种基于功能连接词的隐式篇章关系推理方法。该方法首先挖掘词级与短语级的功能连接词,划分功能连接词的篇章关系类别;其次,为每个功能连接词构建概念模型,借以描述由功能连接词连接的论元属性,并建立论元概念与篇章关系的映射体系;最后,利用统计策略识别待测论元的概念模型,并借助“概念—关系”映射体系,实现隐式篇章语义关系推理。实验结果显示,该文基于功能连接词构建概念模型的推理方法,相较于现有的基于监督学习的分类方法,系统性能获得显著提升。  相似文献   

10.
传统的情感分析研究通过分析, 确定词语、句子或篇章的情感, 但忽略了情感表达的主题。针对这一不足, 该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见词, 确定意见陈述的范围, 并将识别结果传递给第二层模型, 将其作为重要特征之一, 用于陈述级情感分析。细粒度意见挖掘中情感分析的目标是构建<意见陈述, 主题词, 意见词, 情感>四元组。该方法用于维吾尔语陈述级情感分析的准确率为77.41%, 召回率为78.51%, 证明了该方法在细粒度意见挖掘中情感分析任务上的有效性。  相似文献   

11.
李芳  何婷婷  宋乐 《计算机科学》2012,39(6):159-162
主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。  相似文献   

12.
在当今处于信息数量爆炸式增长的互联网时代,如何分析海量文本中的信息并从而提取出所蕴含的有利用价值的部分,是一个值得关注的问题。然而论坛语料作为网络语料,其结构和内容较一般语料相比更为复杂,文本也更加短小。该文提出的方法利用LDA模型对语料集进行建模,将话题从中抽取出来,根据生成的话题空间找到相应的话题支持文档,计算文档支持率作为话题强度;将话题强度反映在时间轴上,得到话题的强度趋势;通过在不同时间段上对语料重新建模,并结合全局话题,得到话题的内容演化路径。实验结果说明,上述方法是合理和有效的。  相似文献   

13.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

14.
目前许多观点挖掘方法挖掘粒度过大,导致反馈信息不足。为解决该问题,对标准LDA模型进行改进,提出主题情感联合最大熵LDA模型进行细粒度观点挖掘。首先,考虑到词的位置和语义信息,在传统LDA模型中加入最大熵组件来区分背景词、特征词和观点词,并对特征词和观点词进行局部和全局的划分;其次,在主题层和单词层之间加入情感层,实现词语级别的细粒度情感分析,并引入情感转移变量来处理情感从属关系,同时获取整篇评论和每个主题的情感极性,实验验证了所提模型和理论的有效性。  相似文献   

15.
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。  相似文献   

16.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。  相似文献   

17.
江浩  陈兴蜀杜敏 《计算机应用》2013,33(11):3071-3075
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题,提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模,对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的K-means++算法进行聚类,最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0.75,聚类中心数设置为50时,可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。  相似文献   

18.
随着网络购物的发展,Web上产生了大量的商品评论文本数据,其中蕴含着丰富的评价知识。如何从这些海量评论文本中有效提取商品特征和情感词,进而获取特征级别的情感倾向,是进行商品评论细粒度情感分析的关键。本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relation constrained LDA),用来实现语义指导下LDA的细粒度主题词提取。由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性。通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果。  相似文献   

19.
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(down-stream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author &amp; reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling 方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号