首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 46 毫秒
1.
彭伟乐  武浩  徐立 《计算机应用》2021,41(z2):19-24
关键词语义敏感影响短文本选择关键词赋予合适权重.针对仅关注关键词是否完备没有考虑到混淆关键词会对分类造成消极影响的问题,提出一种降低混淆关键词权重实现关键词权重优化的模型.首先,基于词频?逆文件频率(TF-IDF)和混淆矩阵的原理选择文本中被定义的混淆关键词.然后,基于注意力机制构建文本表征,通过全连接层降维重构表征;训练重构的表征尽可能相似于原表征,从而选出能保留句子信息的关键词;将混淆关键词从提取的关键词里排除出去,将筛选后的关键词称为强关键词.最后,使用双向长短记忆网络?注意力机制(BiLSTM-Attention)经典模型作短文本多分类的基础模型.在此基础模型之上把强关键词整体做嵌入表示加入到BiLSTM-Attention模型中的注意力部分激活函数计算当中.与BiLSTM-Attention基础模型进行的实验结果表明,所提模型在Snippets公开数据集上,分类准确率提高0.41个百分点.  相似文献   

2.
3.
实体链接是加强语义理解和连接知识信息与文本的有效方法,但目前多数模型对上下文语境的精准理解受限于文本长度,面向短文本的实体链接任务存在实体边界识别错误和实体语义理解错误的问题。针对中文短文本的实体链接任务,构建基于局部注意力机制的实体链接模型。在实体消歧的过程中,通过对待消歧文本与实体的知识描述文本进行拼接,将短文本转换为长文本,同时引入局部注意力机制,缓解长距离依赖问题并强化局部的上下文信息。实验结果表明,相比于传统加入BIO标注方法的模型,该模型在CCKS2019和CCKS2020数据集上的F1值分别提升了4.41%和1.52%。  相似文献   

4.
短文本情感分析用于判断文本的情感极性,在商品评论、舆情监控等领域有重要应用。由于目前主流的基于词注意力机制的双向循环神经网络模型性能很大程度上依赖于分词的准确性,且注意力机制需较多的参数依赖,无法使模型更多的关注短文本的内部序列关系。针对上述问题,该文提出了基于字向量表示方法并结合Self-attention和BiLSTM的中文短文本情感分析算法。首先,对短文本进行字向量化表示,采用BiLSTM网络提取文本上下文关系特征,通过自注意力机制动态调整特征权重,Softmax分类器得到情感类别。在COAE 2014微博数据集和酒店评论数据集的实验结果表明,采用字向量文本表示方法较词向量更适合短文本,自注意力机制可以减少外部参数依赖,使模型能学到更多的文本自身关键特征,分类性能可分别提高1.15%和1.41%。  相似文献   

5.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2020,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

6.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2005,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

7.
关系抽取是信息抽取的核心任务,如何从海量的中文短文本中快速准确地抽取出重要的关系特征,成为中文短文本关系抽取任务的难点。针对这一问题,该文提出一种基于注意力机制的双向门控循环(Bidirectional Gated Recurrent Units, BiGRU)神经网络模型TFLS-BiGRU-ATT来对中文短文本中的关系特征进行抽取。首先,该模型使用所提出的文本定长选择(Text Fixed Length Selection, TFLS)策略对关系文本进行定长处理,然后利用双层BiGRU网络对定长文本进行关系特征提取,再通过所提出的注意力机制对关系特征进行权重的相应分配,最终对不同权重的特征信息进行实体间关系的抽取。基准实验的结果表明,TFLS-BiGRU-ATT模型在DuIE、COAE-2016-Task3、FinRE、SanWen四个具有不同特征的中文短文本数据集上获得的F1值分别达到93.62%、91.38%、49.35%、62.98%,显著优于对比模型。此外,还通过消融实验和定长选择实验进一步验证TFLS-BiGRU-ATT模型能够有效地提高中文短文本关...  相似文献   

8.
针对现有中文因果关系抽取方法对因果事件边界难以识别和文本特征表示不充分的问题,该文提出了一种基于外部词汇信息和注意力机制的中文因果关系抽取模型BiLSTM-TWAM+CRF。该模型使用SoftLexicon方法引入外部词汇信息构建词集,解决了因果事件边界难以识别的问题。通过构建的双路关注模块TWAM(Two Way Attention Module),实现了从局部和全局两个角度充分刻画文本特征。实验结果表明,与当前中文因果关系抽取模型相比较,该文所提方法表现出更优的抽取效果。  相似文献   

9.
在当今信息爆炸的互联网时代,社交平台上的短文本已经成为一种表达情感的流行方式,且其影响力日益增长。分析短文本的情感偏好,对了解公众舆论走向起到了重要作用。基于此,通过对短文本中比较常见的一种类型,即中英文混合的短文本进行情感分析,提出了基于BERT词向量和Bi-LSTM+Attention的神经网络模型,解决了此类短文本中的情感分析问题。  相似文献   

10.
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达.为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法.首先,该算...  相似文献   

11.
基于语义的关键词提取算法   总被引:2,自引:1,他引:2  
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中,在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思.为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法.与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能.在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较.在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高.在同领域的实验中,我们的算法的性能与Kea 算法的相近.我们的算法没有领域的限制性,因此具有更好的应用前景.  相似文献   

12.
目前关系抽取方法中,传统深度学习方法存在长距离依赖问题,并且未考虑模型输入与输出的相关性。针对以上问题,提出了一种将LSTM模型(Long Short-term memory)与注意力机制(Attention Mechanism)相结合的关系抽取方法。首先将文本信息向量化,提取文本局部特征;然后将文本局部特征导入双向LSTM模型中,通过注意力机制对LSTM模型的输入与输出之间的相关性进行重要度计算,根据重要度获取文本整体特征;最后将局部特征和整体特征进行特征融合,通过分类器输出分类结果。在SemEval-2010 Task 8语料库上的实验结果表明,该方法的准确率和稳定性较传统深度学习方法有进一步提高,为自动问答、信息检索以及本体学习等领域提供了方法支持。  相似文献   

13.
熊宽 《软件》2020,(6):171-176
大数据时代海量的文本数据蕴含着极大的科研价值,文本分类技术得到广泛的关注。文本分类在信息检索、自动问答等应用领域占据重要地位,是自然语言处理研究的关键技术之一。本文针对神经网络分类方法训练时间长性能仍可提高,提出一种嵌入式注意力机制模块(Eam),用来增强已有的文本分类神经网络模型。该模块将重点关注数据中什么是最有意义及哪里含有的信息量更为丰富,从而高效提取文本中有价值的信息区域加速模型收敛。本文以增强TextCNN、ImdbCNN为例,在公开数据集IMDB上证明Eam的有效性,同等参数配置情况下能够提升模型的准确率、召回率及F1值,较原模型能够更快收敛减少训练时间。  相似文献   

14.
任务中,带有直观主谓宾结构的摘要句语义完整性较强,但词性组合对该结构具有约束作用.为此文中提出基于词性软模板注意力机制的短文本自动摘要方法.首先对文本进行词性标记,将标记的词性序列视为文本的词性软模板,指导方法构造摘要句的结构规范,在编码端实现词性软模板的表征.再引入词性软模板注意力机制,增强对文中核心词性(如名词、动词等)的关注.最后在解码端联合词性软模板注意力与传统注意力,产生摘要句.在短文本摘要数据集上的实验验证文中方法的有效性.  相似文献   

15.
传统主题模型方法很大程度上依赖于词共现模式生成文档主题, 短文本由于缺乏足够的上下文信息导致的数据稀疏性成为传统主题模型在短文本上取得良好效果的瓶颈. 基于此, 本文提出一种基于语义增强的短文本主题模型, 算法将DMM (Dirichlet Multinomial Mixture)与词嵌入模型相结合, 通过训练全局词嵌...  相似文献   

16.
针对现有的基于图的关键词提取方法未能有效整合文本序列中词与词之间的潜在语义关系的问题,提出了一个融合词向量与位置信息的基于图的关键词提取算法EPRank。通过词向量表示模型学得目标文档中每个词的表示向量;将该反映词与词之间的潜在语义关系的词向量与位置特征相结合融合到PageRank评分模型中;选择几个排名靠前的单词或短语作为目标文档的关键词。实验结果表明,提出的EPRank方法在KDD和SIGIR两个数据集上的各项评估指标均高于5个现有的关键词提取方法。  相似文献   

17.
Human trajectory prediction is essential and promising in many related applications. This is challenging due to the uncertainty of human behaviors, which can be influenced not only by himself, but also by the surrounding environment. Recent works based on long-short term memory (LSTM) models have brought tremendous improvements on the task of trajectory prediction. However, most of them focus on the spatial influence of humans but ignore the temporal influence. In this paper, we propose a novel spatial-temporal attention (ST-Attention) model, which studies spatial and temporal affinities jointly. Specifically, we introduce an attention mechanism to extract temporal affinity, learning the importance for historical trajectory information at different time instants. To explore spatial affinity, a deep neural network is employed to measure different importance of the neighbors. Experimental results show that our method achieves competitive performance compared with state-of-the-art methods on publicly available datasets.   相似文献   

18.
针对短文本中固有的特征稀疏以及传统分类模型存在的“词汇鸿沟”等问题, 我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题, 并且引入传统文本分类模型中不具有的语义关系. 但进一步发现单纯利用 Word2Vec模型忽略了不同词性的词语对短文本的影响力, 因此引入词性改进特征权重计算方法, 将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重, 并结合 Word2Vec 词向量生成短文本向量, 最后利用SVM实现短文本分类. 在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.  相似文献   

19.
庞超  尹传环 《计算机科学》2018,45(1):144-147, 178
自动文本摘要是自然语言处理领域中一项重要的研究内容,根据实现方式的不同其分为摘录式和理解式,其中理解式文摘是基于不同的形式对原始文档的中心内容和概念的重新表示,生成的文摘中的词语无需与原始文档相同。提出了一种基于分类的理解式文摘模型。该模型将基于递归神经网络的编码-解码结构与分类结构相结合,并充分利用监督信息,从而获得更多的摘要特性;通过在编码-解码结构中使用注意力机制,模型能更精确地获取原文的中心内容。模型的两部分可以同时在大数据集下进行训练优化,训练过程简单且有效。所提模型表现出了优异的自动摘要性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号