首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
针对短文本信息量少导致隐藏的信息难以充分挖掘和深度学习模型易受干扰导致分类准确度下降的问题,提出一种融合对抗训练自注意力多层双向长短期记忆网络(Con-Att-BiLSTMs)短文本分类模型.将文本训练集按不同比例进行分类对抗训练,通过对抗训练提升模型的健壮性;利用多层双向长短期记忆网络对语义进行提取,利用自注意力机制...  相似文献   

2.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

3.
针对短文本缺乏上下文信息导致的语义模糊问题,构建一种融合知识图谱和注意力机制的神经网络模型。借助现有知识库获取短文本相关的概念集,以获得短文本相关先验知识,弥补短文本缺乏上下文信息的不足。将字符向量、词向量以及短文本的概念集作为模型的输入,运用编码器-解码器模型对短文本与概念集进行编码,利用注意力机制计算每个概念权重值,减小无关噪声概念对短文本分类的影响,在此基础上通过双向门控循环单元编码短文本输入序列,获取短文本分类特征,从而更准确地进行短文本分类。实验结果表明,该模型在AGNews、Ohsumed和TagMyNews短文本数据集上的准确率分别达到73.95%、40.69%和63.10%,具有较好的分类能力。  相似文献   

4.
由于短文本长度较短,在分类时会面临数据稀疏和语义模糊等问题.提出新型图卷积网络BTM_GCN,该网络利用双项主题模型(Biterm Topic Model,BTM)在短文本数据集上训练出固定数量的文档级潜在主题,并作为一种节点嵌入到文本异构图中,再与异构图中的文档节点进行连接,最后利用图卷积网络来捕获文档、词与主题节点...  相似文献   

5.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

6.
目前基于分层图注意力网络的单标签文本分类任务存在2方面不足:一是不能较好地对文本特征进行提取;二是很少有研究通过文本与标签之间的联系进一步凸显文本特征。针对这2个问题,提出一种融合标签信息的分层图注意力网络文本分类模型。该模型依据句子关键词与主题关联性构建邻接矩阵,然后使用词级图注意力网络获取句子的向量表示。该模型是以随机初始化的目标向量为基础,同时利用最大池化提取句子特定的目标向量,使得获取的句子向量具有更加明显的类别特征。在词级图注意力层之后使用句子级图注意力网络获取具有词权重信息的新文本表示,并通过池化层得到文本的特征信息。另一方面利用GloVe预训练词向量对所有文本标注的标签信息进行初始化向量表示,然后将其与文本的特征信息进行交互、融合,以减少原有特征损失,得到区别于不同文本的特征表示。在R52、R8、20NG、Ohsumed及MR 5个公开数据集上的实验结果表明,该模型的分类准确率明显优于其它主流基线模型的。  相似文献   

7.
分析目前的短文本分类算法没有综合考虑文本中隐含的依赖关系和局部关键信息这一问题,提出基于自注意力机制(self-attention mechanism)的堆叠双向长短时记忆网络(stack bidirectional long short term memory)模型(简称Att-BLSTMs)。利用stack Bi-LSTMs捕获上下文隐藏依赖关系,优化短文本特征稀疏的问题;利用自注意力机制加大对短文本中局部关键信息的注意力,优化文本表示。在公开AG-news网页新闻的语料和DBpedia分类数据集中,进行丰富的对比实验。实验结果表明,该模型将文本中隐含依赖关系与局部关键信息综合考虑后,有效提高了短文本分类的准确性。  相似文献   

8.
针对短文本内容简短、特征稀疏等特点,提出一种新的融合词语类别特征和语义的短文本分类方法。该方法采用改进的特征选择方法从短文本中选择最能代表类别特征的词语构造特征词典,同时结合利用隐含狄利克雷分布LDA主题模型从背景知识中选择最优主题形成新的短文本特征,在此基础上建立分类器进行分类。采用支持向量机SVM与k近邻法k-NN分类器对搜狗语料库数据集上的搜狐新闻标题内容进行分类,实验结果表明该方法对提高短文本分类的性能是有效的。  相似文献   

9.
10.
针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现档案的自动分类。实验结果表明,相比传统基于特征选择的短文本分类方法,该方法的分类错误率下降了24.2%,可有效改善系统性能。  相似文献   

11.
邓钰  李晓瑜  崔建  刘齐 《计算机应用》2021,41(11):3132-3138
随着社交网络的发展,对其包含的海量文本进行情感分析具有重要的社会价值。不同于普通文本分类,短文本情感分类需要挖掘隐含的情感语义特征,具有极大的难度和挑战性。为了能在更高的层次上得到短文本的情感语义特征,提出了一种多头注意力记忆网络(MAMN)用于短文本情感分类。首先,利用n元语法特征信息和有序神经元长短时记忆(ON-LSTM)网络对多头自注意力机制进行改进,以对文本上下文内联关系进行充分提取,使模型可以获得更丰富的文本特征信息。然后,利用多头注意力机制对多跳记忆网络的结构进行优化,使得在拓展模型深度的同时,挖掘更高层次的上下文内联情感语义关系。在电影评论集(MR)、斯坦福情感树(SST)-1和SST-2这三个不同的数据集上进行了大量实验。实验结果表明,与基于循环神经网络(RNN)和卷积神经网络(CNN)结构的基线模型以及一些最新成果相比,所提MAMN取得了较优的分类效果,验证了多跳结构对于性能改善的重要作用。  相似文献   

12.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2020,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

13.
组织病理学图像是鉴别乳腺癌的黄金标准,所以对乳腺癌组织病理学图像的自动、精确的分类具有重要的临床应用价值。为了提高乳腺组织病理图像的分类准确率,从而满足临床应用的需求,提出了一种融合空间和通道特征的高精度乳腺癌分类方法。该方法使用颜色归一化来处理病理图像并使用数据增强扩充数据集,基于卷积神经网络(CNN)模型DenseNet和压缩和激励网络(SENet)融合病理图像的空间特征信息和通道特征信息,并根据压缩-激励(SE)模块的插入位置和数量,设计了三种不同的BCSCNet模型,分别为BCSCNetⅠ、BCSCNetⅡ、BCSCNetⅢ。在乳腺癌癌组织病理图像数据集(BreaKHis)上展开实验。通过实验对比,先是验证了对图像进行颜色归一化和数据增强能提高乳腺的分类准确率,然后发现所设计的三种乳腺癌分类模型中精度最高为BCSCNetⅢ。实验结果表明,BCSCNetⅢ的二分类准确率在99.05%~99.89%,比乳腺癌组织病理学图像分类网络(BHCNet)提升了0.42个百分点;其多分类的准确率在93.06%~95.72%,比BHCNet提升了2.41个百分点。证明了BCSCNet能准确地对乳腺癌组织病理图像进行分类,同时也为计算机辅助乳腺癌诊断提供了可靠的理论支撑。  相似文献   

14.
卢玲  杨武  王远伦  雷子鉴  李莹 《计算机应用》2018,38(5):1272-1277
新闻文本常包含几十至几百条句子,因字符数多、包含较多与主题无关信息,影响分类性能。对此,提出了结合注意力机制的长文本分类方法。首先将文本的句子表示为段落向量,再构建段落向量与文本类别的神经网络注意力模型,用于计算句子的注意力,将句子注意力的均方差作为其对类别的贡献度,进行句子过滤,然后构建卷积神经网络(CNN)分类模型,分别将过滤后的文本及其注意力矩阵作为网络输入。模型用max pooling进行特征过滤,用随机dropout防止过拟合。实验在自然语言处理与中文计算(NLP&CC)评测2014的新闻分类数据集上进行。当过滤文本长度为过滤前文本的82.74%时,19类新闻的分类正确率为80.39%,比过滤前文本的分类正确率超出2.1%,表明结合注意力机制的句子过滤方法及分类模型,可在句子级信息过滤的同时提高长文本分类正确率。  相似文献   

15.
针对如何融合节点自身属性以及网络结构信息实现社交网络节点分类的问题,提出了一种基于图编码网络的社交网络节点分类算法。首先,每个节点向邻域节点传播其携带的信息;其次,每个节点通过神经网络挖掘其与邻域节点之间可能隐含的关系,并且将这些关系进行融合;最后,每个节点根据自身信息以及与邻域节点关系的信息提取更高层次的特征,作为节点的表示,并且根据该表示对节点进行分类。在微博数据集上,与经典的深度随机游走模型、逻辑回归算法有以及最近提出的图卷积网络算法相比,所提算法分类准确率均有大于8%的提升;在DBLP数据集上,与多层感知器相比分类准确率提升4.83%,与图卷积网络相比分类准确率提升0.91%。  相似文献   

16.
针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。  相似文献   

17.
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。  相似文献   

18.
针对传统的卷积神经网络(CNN)在进行情感分析任务时会忽略词的上下文语义以及CNN在最大池化操作时会丢失大量特征信息,从而限制模型的文本分类性能这两大问题,提出一种并行混合神经网络模型CA-BGA。首先,采用特征融合的方法在CNN的输出端融入双向门限循环单元(BiGRU)神经网络,通过融合句子的全局语义特征加强语义学习;然后,在CNN的卷积层和池化层之间以及BiGRU的输出端引入注意力机制,从而在保留较多特征信息的同时,降低噪声干扰;最后,基于以上两种改进策略构造出了并行混合神经网络模型。实验结果表明,提出的混合神经网络模型具有收敛速度快的特性,并且有效地提升了文本分类的F1值,在中文评论短文本情感分析任务上具有优良的性能。  相似文献   

19.
王煜  徐建民 《计算机应用》2005,40(12):3513-3519
通过分析网络新闻热点词的特点,提出了一种用于网络新闻热点识别的热点新词发现方法。首先,用改进FP-tree算法提取频繁出现的词串作为热点新词候选,删除新闻数据中非频繁1-词串,并利用1、2-非频繁词串切割新闻数据,从而删除新闻数据中的大量无用信息,大幅降低FP-tree复杂度;其次,根据二元逐点互信息(PMI)扩展成多元PMI,并引入热点词的时间特征形成时间逐点互信息(TPMI),用TPMI判定热点新词候选的内部结合度和时间性,剔除不合格的候选词;最后,采用邻接熵确定候选新词边界,从而筛选出热点新词。采集百度网络新闻的7 222条新闻标题作为数据集进行实验验证。在将半月内报道次数不低于8次的事件作为热点新闻且时间特征的调节系数为2时,采用TPMI可以正确识别51个热点词,丢失识别2个长时间热点词和2个低热度词,而采用不加入时间特征的多元PMI可正确识别全部热点词55个,但错误识别97个非热点词。分析可知所提的算法降低了FP-tree复杂度,从而减少了时间空间代价,实验结果表明判定热点新词时加入时间特征提高了热点新词识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号