首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
多标签文本分类问题是多标签分类的重要分支之一,现有的方法往往忽视了标签之间的关系,难以有效利用标签之间存在着的相关性,从而影响分类效果.基于此,本文提出一种融合BERT和图注意力网络的模型HBGA(hybrid BERT and graph attention):首先,利用BERT获得输入文本的上下文向量表示,然后用Bi-LSTM和胶囊网络分别提取文本全局特征和局部特征,通过特征融合方法构建文本特征向量,同时,通过图来建模标签之间的相关性,用图中的节点表示标签的词嵌入,通过图注意力网络将这些标签向量映射到一组相互依赖的分类器中,最后,将分类器应用到特征提取模块获得的文本特征进行端到端的训练,综合分类器和特征信息得到最终的预测结果.在Reuters-21578和AAPD两个数据集上面进行了对比实验,实验结果表明,本文模型在多标签文本分类任务上得到了有效的提升.  相似文献   

2.
王敏蕊  高曙  袁自勇  袁蕾 《计算机应用》2020,40(7):1884-1890
现实世界中,多标签文本比单标签文本具有更广泛的应用场景,但其输出空间的庞大给分类任务带来了更多的挑战。将多标签文本分类问题看作标签序列生成问题,把序列生成模型(SGM)应用于多标签文本分类领域,并针对该模型的顺序结构容易产生累积误差等不足,构建了基于动态路由(DR)的序列生成模型(DR-SGM)。该模型基于Encoder-Decoder模式:Encoder层中使用双向长短期记忆(Bi-LSTM)神经网络+Attention进行语义信息编码;Decoder层设计了一种基于动态路由的解码器结构,该结构在隐含层后添加了动态路由聚合层,利用路由参数的全局共享减弱了累积误差产生的影响。同时,动态路由能捕获文本中部分-部分、部分-整体的位置信息,并且通过优化动态路由算法进一步提高了语义聚合效果。将DR-SGM应用于多标签文本分类,实验结果表明,在RCV1-V2、AAPD和Slashdot数据集上,多标签文本分类效果得到了有效的提升。  相似文献   

3.
金融文本多标签分类算法可以根据用户需求在海量金融资讯中实现信息检索。为进一步提升金融文本标签识别能力,建模金融文本多标签分类中标签之间的相关性,提出基于图深度学习的金融文本多标签分类算法。图深度学习通过深度网络学习局部和全局的图结构特征,可以刻画节点之间的复杂关系。通过建模标签关联实现标签之间的知识迁移,是构造具有强泛化能力算法的关键。所提算法结合标签之间的关联信息,采用基于双向门控循环网络和标签注意力机制得到的新闻文本对应不同标签的特征表示,通过图神经网络学习标签之间的复杂依赖关系。在真实数据集上的实验结果表明,显式建模标签之间的相关性能够极大地增强模型的泛化能力,在尾部标签上的性能提升尤其显著,相比CAML、BIGRU-LWAN和ZACNN算法,该算法在所有标签和尾部标签的宏观F1值上最高提升3.1%和6.9%。  相似文献   

4.
为了使长短时记忆网络(Long Short-Term Memory,LSTM)更精确地提取句子较远的特征信息,提出一种融合顺序遗忘编码(Fixed-size Oradinally Forgetting Encoding,FOFE)结合循环神经网络的命名实体识别算法。利用FOFE可以保留任意长度句子信息的编码方式来增强LSTM对句子特征的提取能力。利用Bi-LSTM和FOFE编码分别对向量化表示的文本进行特征提取和编码表示。结合得到的两个特征向量,通过注意力机制对Bi-LSTM的输入与输出之间的相关性进行计算,最后利用条件随机场学习标签序列的约束。该算法分别在英文和中文两种语言的数据集中进行了对比实验,F1值分别达到了91.30和91.65,验证了该方法的有效性。  相似文献   

5.
选项多标签分类是高考文学类阅读理解选择题解答任务中的重要一环,对不同标签类型的选项调用不同的答题引擎,可以有效提高选择题答题准确率。由于选项类型复杂多样,一个选项可能有多个类别特征,将其看作多标签分类任务。传统多标签分类算法仅考虑到文本与标签间相关性,忽略了标签间相关性,且选项内部存在着强语义关联性,对最终的标签预测产生较大影响。为了充分利用选项内相关性,提出一种基于混合注意力的Seq2seq模型,同时考虑选项标签间相关性和选项内相关性。采用Bi-LSTM获得选项到标签的相互信息,利用多头自注意力获得选项内关联语义。为获取标签间语义相关性,使用标签嵌入方式进行隐式融合。在高考文学类阅读理解选择题数据集上的实验结果表明,对多种相关性建模能有效提升选项多标签分类精度。  相似文献   

6.
随着社交网络的兴起,文本数据不断增加,这使得自动化文本分类技术成为研究的热点。单个文本可能同时带有多个类别标签,该特点直接导致传统的二分类或多类别分类技术在多标签文本数据上性能不佳。针对这一不足,提出一种基于半监督杂质的子空间聚类分析算法SCA(subspace clustering analysis),该算法分析在多标签环境下每一对分类和标签之间存在的潜在相关性。并设计一种对分类文本数据更有效的多标签分类器。最后,实验对两个多标签文本集进行分析,结果表明该算法优于当前采用的其他文本分类方法。  相似文献   

7.
为提高自然语言处理任务中文本相似度检测的准确率,提出一种改进双向长短期记忆网络(Bi-LSTM)的文本相似度计算方法。将输入的句子转换成多个单词向量,通过Bi-LSTM提取出每个单词向量的最佳词特征,引入注意力机制,减小非关键因素的影响;采用多层相似加权对两个句子分别从词与词、句子与句子、词与句子3个层面进行多层比较,加权得到其最终的相似度;基于SMTeuroparl、MSRvid和MSRpar这3个数据集对所提方法的性能进行评估。实验结果表明,相比于其它方法,所提方法的文本相似度计算更佳,适用于处理复杂的长文本。  相似文献   

8.
肖琳  陈博理  黄鑫  刘华锋  景丽萍  于剑 《软件学报》2020,31(4):1079-1089
自大数据蓬勃发展以来,多标签分类一直是令人关注的重要问题,在现实生活中有许多实际应用,如文本分类、图像识别、视频注释、多媒体信息检索等.传统的多标签文本分类算法将标签视为没有语义信息的符号,然而,在许多情况下,文本的标签是具有特定语义的,标签的语义信息和文档的内容信息是有对应关系的,为了建立两者之间的联系并加以利用,提出了一种基于标签语义注意力的多标签文本分类(LAbel Semantic Attention Multi-label Classification,简称LASA)方法,依赖于文档的文本和对应的标签,在文档和标签之间共享单词表示.对于文档嵌入,使用双向长短时记忆(bi-directional long short-term memory,简称Bi-LSTM)获取每个单词的隐表示,通过使用标签语义注意力机制获得文档中每个单词的权重,从而考虑到每个单词对当前标签的重要性.另外,标签在语义空间里往往是相互关联的,使用标签的语义信息同时也考虑了标签的相关性.在标准多标签文本分类的数据集上得到的实验结果表明,所提出的方法能够有效地捕获重要的单词,并且其性能优于当前先进的多标签文本分类算法.  相似文献   

9.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

10.
陈鹏  李鸣  张宇  王志鹏 《测控技术》2022,41(7):17-22
提出了一种结合卷积神经网络和递归神经网络的有效的端到端场景文本识别方法。首先使用特征金字塔(FPN)提取图像的多尺度特征,然后将引入残差网络(ResNet)的深度双向递归网络(Bi-LSTM)对这些特征进行编码,获得文本序列特征,进而引入注意力机制(Attention)对文本序列特征进行解码达到识别效果。在ICDAR2013、ICDAR2015数据集实验验证了该算法的有效性,该方法不仅降低了训练难度,而且提升了网络的收敛速度,提高了文本识别准确率。该方法的有效性在ICDAR2013、ICDAR2015数据集上得到了充分验证。  相似文献   

11.
多标签分类算法已广泛应用于文本分类、图像识别、基因功能分类等领域,为了解决多标签分类算法较少考量标签之间的相关性等问题,提出一种基于标签相关性的多标签分类算法.首先对BP神经网络进行改进以适应多标签分类算法,然后对标签集分别使用皮尔逊相关系数和关联规则进行二阶、高阶相关性分析,最后将标签的相关性与改进的BP神经网络算法得到的概率做线性插值,得到样本属于某标签的最终概率.通过在4个真实数据集上利用5个多标签分类指标做对比实验,验证了提出的算法分类效果明显优于现有的多标签分类算法.  相似文献   

12.
近年来,多标签分类任务(MLC)受到了广泛关注。传统的情感预测被视为一种单标签的监督学习,而忽视了多种情感可能在同一实例中共存的问题。以往的多标签情感预测方法没有同时提取文本的局部特征和全局语义信息,或未考虑标签之间的相关性。基于此,该文提出了一种基于神经网络融合标签相关性的多标签情感预测模型(Label-CNNLSTMAttention,L-CLA),利用Word2Vec方法训练词向量,将CNN和LSTM相结合,通过CNN层挖掘文本更深层次的词语特征,通过LSTM层学习词语之间的长期依赖关系,利用Attention机制为情意词特征分配更高的权重。同时,用标签相关矩阵将标签特征向量补全后与文本特征共同作为分类器的输入,考察了标签之间的相关性。实验结果表明,L-CLA模型在重新标注后的NLP&CC2013数据集上拥有较好的分类效果。  相似文献   

13.
针对传统ML-KNN进行多标签文档分类时,忽略标签之间关联性的问题,笔者提出了一种基于改进的ML-KNN多标签微博短文本分类方法。该方法通过归一化互信息控制每对标签的相关性阈值。针对微博短文本的特征,在计算文本相似度时引入同义词词林进行语义特征扩展。通过数据集的实验测试,笔者所提方法在性能上优于传统的ML-KNN算法。  相似文献   

14.
目前大部分多标签文本分类算法忽视文本序列中不同词的重要程度、不同层次文本特征的影响,提出一种ATT-Capsule-BiLSTM模型,使用多头注意力机制(Multi-head Attention),结合胶囊网络(CapsuleNet)与双向长短期记忆网络(BiLSTM)方法。将文本序列向量化表示,在词向量的基础上通过多头注意力机制学习单词的权重分布。通过胶囊网络和BiLSTM分别提取局部空间信息和上下文时序信息的特征表示,通过平均融合后,由sigmoid分类器进行分类。在Reuters-21578和AAPD两个数据集上进行对比实验,实验结果表明,提出的联合模型在使用简单架构的情况下,达到了较好的性能,[F1]值分别达到了89.82%和67.48%。  相似文献   

15.
景丽  何婷婷 《计算机科学》2021,48(z2):170-175,190
文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域.针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi-LSTM and CNN,ABLCNN)相结合的文本分类模型.该模型首先利用特征项在类内、类间的分布关系和位置信息改进TF-IDF算法,突出特征项的重要性,并结合Word2vec工具训练的词向量对文本进行表示;然后使用ABLCNN提取文本特征,ABLCNN结合了注意力机制、长短期记忆网络和卷积神经网络的优点,既可以有重点地提取文本的上下文语义特征,又兼顾了局部语义特征;最后,将特征向量通过softmax函数进行文本分类.在THUCNews数据集和online_shopping_10_cats数据集上对基于改进TF-IDF和ABLCNN的文本分类模型进行实验,结果表明,所提模型在两个数据集上的准确率分别为97.38%和91.33%,高于其他文本分类模型.  相似文献   

16.
近年来,图神经网络模型因其对非欧氏数据的建模和对全局依赖关系的捕获能力而广泛应用于文本分类任务。现有的基于图卷积网络的分类模型中的构图方法存在消耗内存过大、难以适应新文本等问题。此外,现有研究中用于描述图节点间的全局依赖关系的方法并不完全适用于分类任务。为解决上述问题,该文设计并提出了基于概率分布的文本分类网络模型,以语料库中的词和标签为节点构建标签-词异构关系图,利用词语在各标签上的概率分布描述节点间的全局依赖关系,并通过图卷积操作进行文本表示学习。在5个公开的文本分类数据集上的实验表明,该文提出的模型在有效缩减图尺寸的同时,相比于其他文本分类网络模型取得了较为先进的结果。  相似文献   

17.
季玉文  陈哲 《软件工程》2023,(11):33-38
针对金融文本情感倾向模糊问题,设计了一种基于BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码技术)和Bi-LSTM(Bidirectional Long Short-Term Memory Network,双向长短时记忆网络)的金融文本情感分析模型,以BERT模型构建词向量,利用全词掩盖方法,能够更好地表达语义信息。为搭建金融文本数据集,提出一种基于深度学习模型的主题爬虫,利用BERT+Bi-GRU(双门控循环单元)判断网页内文本主题相关性,以文本分类结果计算网页的主题相关度。实验结果表明:本文所设计的情感分析模型在做情感分析任务时取得了87.1%的准确率,能有效分析文本情感倾向。  相似文献   

18.
传统的多标签文本分类算法在挖掘标签的关联信息和提取文本与标签之间的判别信息过程中存在不足,由此提出一种基于标签组合的预训练模型与多粒度融合注意力的多标签文本分类算法。通过标签组合的预训练模型训练得到具有标签关联性的文本编码器,使用门控融合策略融合预训练语言模型和词向量得到词嵌入表示,送入预训练编码器中生成基于标签语义的文本表征。通过自注意力和多层空洞卷积增强的标签注意力分别得到全局信息和细粒度语义信息,自适应融合后输入到多层感知机进行多标签预测。在特定威胁识别数据集和两个通用多标签文本分类数据集上的实验结果表明,提出的方法在能够有效捕捉标签与文本之间的关联信息,并在F1值、汉明损失和召回率上均取得了明显提升。  相似文献   

19.
现有基于神经网络的多标签文本分类研究方法存在两方面不足,一是不能全面提取文本信息特征,二是很少从图结构数据中挖掘全局标签之间的关联性。针对以上两个问题,提出融合卷积神经网络-自注意力机制(CNNSAM)与图注意力网络(GAT)的多标签文本分类模型(CS-GAT)。该模型利用多层卷积神经网络与自注意力机制充分提取文本局部与全局信息并进行融合,得到更为全面的特征向量表示;同时将不同文本标签之间的关联性转变为具有全局信息的边加权图,利用多层图注意力机制自动学习不同标签之间的关联程度,将其与文本上下文语义信息进行交互,获取具有文本语义联系的全局标签信息表示;使用自适应融合策略进一步提取两者特征信息,提高模型的泛化能力。在AAPD、RCV1-V2与EUR-Lex三个公开英文数据集上的实验结果表明,该模型所达到的多标签分类效果明显优于其他主流基线模型。  相似文献   

20.
海关商品HS编码分类是企业和个人进出口贸易的重要国际程序。HS编码分类可以看作是一个文本分类问题,即给定一段商品的描述,确定商品由HS编码表示的所属类别。然而,该任务比一般的文本分类任务更具挑战性,原因是商品描述文本具有特定的层次结构,同时商品描述文本展现出了两个层次上的序列特征,并且商品描述文本还存在关键信息分散且描述形式多样的特点。现有的文本分类方法无法综合考虑以上因素来捕获商品描述文本中的关键信息。对此,文中提出了一种融合文本序列和图信息的神经网络(Text Sequence and Graph Information combination Neural Network,TSGINN)模型,用于解决海关商品HS编码分类问题。TSGINN将HS编码分类问题定义为基于词共现网络的子图分类问题,通过图注意力网络建模非连续词之间的关联关系,同时利用分层的长短期记忆网络结合商品文本层次结构捕获多层次的序列信息。在真实海关商品数据集上进行了实验,结果表明TSGINN模型的HS编码分类效果优于其他分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号