首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对长文本在文本分类时提取语义关键特征难度大,分类效果差等问题,建立基于循环神经网络变体和卷积神经网络(BGRU-CNN)的混合模型,实现中文长文本的准确分类。首先,通过PV-DM模型将文本表示为句向量,并将其作为神经网络的输入;然后,建立BGRU-CNN模型,经双向门控循环单元(B-GRU)实现文本的序列信息表示,利用卷积神经网络(CNN)提取文本的关键特征,通过Softmax分类器实现文本的准确分类;最后,经SogouC和THUCNews中文语料集测试,文本分类准确率分别达到89. 87%和94. 65%。测试结果表明,循环层提取的文本序列特征通过卷积层得到了进一步优化,文本的分类性能得到了提高。  相似文献   

2.
针对文本中关键信息被忽略以及分类准确率不高的问题,提出一种加权word2vec的卷积神经网络(CNN)与ATT-BiGRU混合神经网络情感分析模型.由于word2vec生成的词向量无法突出文本关键词的作用,因此引入词频-逆文档频率(TF-IDF)算法计算词汇权重值.然后,将加权运算后的词向量输入CNN与ATT-BiGRU混合模型提取隐含特征.该模型通过卷积神经网络(CNN)和基于注意力机制的双向门限循环单元(ATT-BiGRU)分别提取文本特征,以此来提高文本的表示能力.多组实验对比结果表明,与其他算法相比较,该模型的分类准确率最高且耗费时间代价小.  相似文献   

3.
尽管长短期记忆网络(long short-term memory,LSTM)、卷积神经网络(convolutional neural network,CNN)及其结合体在文本分类任务中取得了很大的突破.但这类模型在对序列信息进行编码时,往往无法同时考虑当前时刻之前和之后的状态,从而导致最后分类效果不佳.此外,多版本预训练词向量比单个版本的预训练词向量包含更多的信息.因此提出了一种基于CNN的多通道特征表示文本分类模型(multi-channel feature representation text classification model based on CNN,MC-CNN).该模型首先通过两个不同的双向长短期记忆(bi-directional long short-term memory,Bi-LSTM)来对不同来源词向量所表示的文本序列进行正逆序上的特征提取,并以此形成多通道特征;然后利用多尺度卷积网络来进一步使得模型能够同时充分考虑到当前时刻之前以及之后的信息,从而更加有效地进行文本分类.MC-CNN在MR、SST-2、TREC、AG、Yelp_F、Yelp_P数据集上分别达到了81.6%、87.4%、98.6%、94.1%、65.9%、96.8%的准确率,实验结果表明本文模型MC-CNN在文本分类任务中具有优异的效果.  相似文献   

4.
为了解决中文电子病历文本分类的高维稀疏性、算法模型收敛速度较慢、分类效果不佳等问题,提出了一种基于注意力机制结合CNN-BiLSTM模型的病历文本分类模型.该模型首先使用word2vec工具进行词向量表示,利用多层卷积神经网络(convolutional neural networks,CNN)结构提取病历文本的局部特...  相似文献   

5.
基于循环结构的卷积神经网络文本分类方法   总被引:1,自引:0,他引:1  
现有卷积神经网络在文本分类性能上受到词向量窗口长度的影响,在研究卷积神经网络分类方法的基础上,提出一种基于循环结构的神经网络文本分类方法,该方法对文本进行单次正向及反向扫描,能够在学习单词表示时尽可能地捕获上下文信息,整体算法时间复杂度为O(n),是线性复杂度;该方法构建文本语义模型可以捕获长距离的依赖关系,使得词向量窗口长度对文本分类性能没有影响,对上下文更有效地建模。实验结果表明,该方法构建文本语义模型的准确率达到96.86%,召回率达到96.15%,F1值达到96.5%,性能优于传统文本分类算法和卷积神经网络方法。  相似文献   

6.
文本情绪多标签分类是一种细粒度的文本情感分析,通过挖掘文本中蕴含的多种情绪信息,为文本分配多种所属的情绪标签。文章提出一种基于标签特征的卷积神经网络(CNN)情绪多标签分类方法,首先利用word2vec模型对文本进行词向量表示,然后利用标签特征来强化文本情绪和标签之间的联系,将其融合于CNN模型中,用于对文本情绪进行深层次的表示和多标签分类。为了验证方法的有效性,选取了CLR和LPLO两个多标签分类方法作为基准方法,在NLPCC2014的中文微博情绪分析数据集进行比较实验。结果表明,使用标签特征的CNN模型,可以提升微博情绪的分类性能。  相似文献   

7.
目前的神经网络一般只将词粒度层面的词向量作为输入,忽略了语义层面的全局语义特征.针对此问题,提出了一种基于局部特征和全局特征融合的情感分类方法,以解决评论特征稀疏和主题聚焦性差的问题.对于局部特征,选择基于情感词典和BiLSTM神经网络模型提取基于词向量的文本特征.对于文本集的全局主题特征,采用神经主题模型提取文本主题特征,并将其作为全局特征来表示短文本信息.最终将基于局部加权词向量的文本特征和基于神经主题模型的文本主题特征进行拼接,并通过Softmax层输出,完成文本情感分类.结果表明:融合全局主题语义和局部加权词向量可以更加丰富神经网络的特征,从而有效地提高情感分类的准确率.  相似文献   

8.
陈可嘉  刘惠 《科学技术与工程》2021,21(29):12631-12637
针对文本分类中文本数据表示存在稀疏性、维度灾难、语义丢失的问题,提出一种基于单词表示的全局向量(global vectors for word representation, GloVe)模型和隐含狄利克雷分布(latent Dirichlet allocation, LDA)主题模型的文本表示改进方法。利用GloVe模型结合局部信息和全局词语共现的统计信息训练得到文本的稠密词向量,基于LDA主题模型生成文本隐含主题和相应的概率分布,构建文本向量以及基于概率信息的主题向量,并计算两者之间的相似性作为分类器的输入。实验结果表明,相比其他几种文本表示方法,改进方法在精确率、召回率和F_1值上均有所提高,基于GloVe和LDA的文本表示改进方法能有效提升文本分类器的性能。  相似文献   

9.
文本信息中存在的模糊性和不确定性在很大程度上影响文本情感观点的准确判定.为了提高文本情感分类准确率,提出基于混合特征云模型和支持向量机的多级文本情感分类算法.首先,将文本的TF-IDF权重特征和词性特征相结合,采用信息增益法选取特征的同时对特征降维;然后,在文档混合特征向量集上生成云向量模型,依据模型间的相似度筛选出相似度较大的R个文档,作为支持向量机的输入.实验结果表明,该算法具有良好的分类准确率,且系统的训练速度有显著的提高.  相似文献   

10.
针对传统词向量无法在上下文中表示词的多义性,以及先验的情感资源未能在神经网络中得到充分利用等问题,提出一种基于知识增强语义表示(Enhanced Representation through Knowledge Integration,ERNIE)和双重注意力机制(Dual Attention Mechanism, DAM)的微博情感分析模型ERNIE-DAM.首先利用现有的情感资源构建一个包含情感词、否定词和程度副词的情感资源库;其次采用BLSTM网络和全连接网络分别对文本和文本中包含的情感信息进行编码,不同的注意力机制分别用于提取文本和情感信息中的上下文关系特征和情感特征,并且均采用ERNIE预训练模型获取文本的动态特征表示;最后将上下文关系特征和情感特征进行拼接融合,获取最终的特征向量表示.实验结果表明,新模型在COAE2014和weibo_senti_100k数据集上的分类准确率分别达到了94.50%和98.23%,同时也验证了将情感资源运用到神经网络中的有效性.  相似文献   

11.
卷积神经网络(CNN)和循环神经网络(RNN)已经被证明在文本情感分析中是有效的文本表示模型。然而,CNN只考虑连续词之间的局部信息,忽略了词语之间长距离的上下文依赖信息,在前向传播的过程中池化操作会丢失一部分语义信息; RNN在文本长度较短的情况下相比CNN并没有展现应有的优势。本文通过融合CNN和基于注意力机制的双向长短期记忆(ATTBiLSTM)网络提取的特征,提高模型的文本表示能力,同时为了防止过拟合,采取dropout策略。在中科院谭松波博士整理的酒店评论数据集上进行实验,结果表明本文提出的模型相比基线模型可以提取出更丰富的特征,效果较基线模型有所提升。  相似文献   

12.
在少数民族语言信息处理领域,由于文本分类标注数据的稀缺,相关研究工作进展缓慢.为了充分利用有限的标注数据,更有效地挖掘出文本之间的关系,本文对藏文提出一种基于预训练模型和图卷积神经网络的长文本分类方法CINO-GCN.首先利用在实验数据集上经过微调的少数民族多语言预训练模型(Chinese Minority Pretrained Language Model, CINO)得到藏文长文本的初始文档向量和藏文音节向量.然后根据整个数据集范围的音节共现关系与音节和文档间的TF-IDF值来对藏文文本图进行建模.最后将文本图和结点特征一同输入至图卷积神经网络(graph convolutional networks, GCN)层,得到的文档表示经过Softmax得到分类结果.将该方法在公开的TNCC藏文新闻文本分类数据集上与当前几种主流的深度学习模型进行了多组对比实验,分类准确率达到73.51%,远优于其他基线模型;同时设计了消融实验验证模型各部分对分类结果的增益.实验结果表明,该文提出的模型能够结合预训练词向量和图神经网络的优势,显著提高藏文文本分类的准确率.  相似文献   

13.
基于正交投影的BiLSTM-CNN的情感特征抽取方法旨在从文本中获取带权重的中性词向量,得到具有更高区分度的情感特征,为文本情感分类提供有力的技术支持.传统的深度学习模型会忽略关键局部上下文信息中的特殊意义词,导致获取的情感特征不够丰富.针对这一问题,本文提出一种基于正交投影的BiLSTM-CNN情感特征抽取方法.首先,将中性词向量投影到情感极性词的正交空间中,得到加权中性词向量,同时通过CNN深度学习模型抽取文本关键语义;然后,利用BiLSTM-Attention模型和带权重的中性词向量,从提取出的关键语义中学习可增强句子情感的语义特征,使文本在情感分类时更具判别性.实验结果表明本文所提出的情感特征抽取方法可以获取更完整的情感特征,从而显著提高文本情感分类的准确率.  相似文献   

14.
为了提高模型在文本分类任务中的分类性能,针对图神经网络中存在的过度平滑问题,同时增强模型在处理文本特征与文本表示方面的能力,提出了一种基于多状态图神经网络的文本分类算法(multi-state graph neural network, MSGNN)。多状态图神经网络是利用网络层的多个历史状态信息对图神经网络进行强化,构建合理的文本图结构数据作为模型输入。在缓解网络层过度平滑问题的同时,结合2种改进后的不同类型的图神经网络来增强模型的特征提取与特征聚合能力。利用多头自注意力机制对文本关键词的挖掘与利用能力,从多个文本子空间来生成高质量的文本表示,进而完成文本分类。通过在几个公开的文本分类数据集上进行实验分析,相较于其他神经网络的文本分类算法,该方法取得了较好的分类准确率。  相似文献   

15.
现有的基于深度学习和神经网络的日志异常检测方法通常存在语义信息提取不完整、依赖日志序列构建和依赖日志解析器等问题.基于注意力机制多特征融合和文本情感分析技术,提出了一种日志异常检测方法 .该方法首先采用词嵌入方法将日志文本向量化以获取日志消息的词向量表示,接着将词向量输入到由双向门控循环单元网络和卷积神经网络组成的特征提取层中分别提取日志消息的上下文依赖特征和局部依赖特征,使用注意力机制分别加强两种特征中的关键信息,增强模型识别关键信息的能力.使用基于注意力机制的特征融合层为两种特征赋予不同权重并加权求和后输入由全连接层构成的输出层中,实现日志消息的情感极性分类,达到日志异常检测的目的 .在BGL公开数据集上的实验结果表明,该模型的分类准确率和F1值分别达到了96.36%和98.06%,与同类日志异常检测模型相比有不同程度的提升,从而证明了日志中的语义情感信息有助于异常检测效果的提升,并且经过实验证明了使用注意力机制的模型可以进一步提高文本情感分类效果,进而提升日志异常检测的准确率.  相似文献   

16.
为了提高卷积神经网络(CNN)的泛化性和鲁棒性,改善无人机航行时识别目标图像的精度,提出了一种CNN与概率神经网络(PNN)相结合的混合模型。利用CNN提取多层图像表示,使用PNN提取特征对图像进行分类以替代CNN内部的BP神经网络,采用均方差和降梯度法训练模型,通过将预处理的图像传输到CNN-PNN模型,对图像纹理和轮廓进行分类识别,并将此模型的仿真结果与卷积神经网络模型、卷积神经网络-支持向量机模型的结果进行对比。仿真结果表明,与其他两种模型相比,CNN-PNN模型具有更好的精准度,识别率高达96.30%。因此,CNN-PNN模型能够快速有效地识别图像,准确度和实时性较高,在图像识别等方面具有很好的应用前景。  相似文献   

17.
针对复杂多源的非结构化数据,提出一种数据标准化方法,在抽取信息的同时,能将不同来源的数据转换为统一的表示形式.首先,对文本进行词性标注等预处理,提取出需要进一步识别类型的实体;其次,使用语言表征模型对文本信息进行向量表示;最后,通过基于注意力机制的卷积神经网络对抽取出的实体进行分类,以适应不同应用场景的分类标准.实验结果验证了该模型的有效性.  相似文献   

18.
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。  相似文献   

19.
在对文本分类领域发展现状进行研究的基础上,提出了一种面向文本分类的深度置信网络特征提取方法,通过引入词向量模型和深度置信网络解决传统文本分类方法在文本表示及特征提取方面存在的语义缺失问题,实验结果表明,该方法在文本分类中有更高的准确率。  相似文献   

20.
在基于深度学习的文本情感分类研究领域中,目前传统的模型主要是序列结构,即采用单一的预训练词向量来表示文本从而作为神经网络的输入,然而使用某一种预训练的词向量会存在未登录词和词语语义学习不充分的问题。针对此问题,提出基于并行双向门控循环单元(gated recurrent unit,GRU)网络与自注意力机制的文本情感分类模型,利用两种词向量对文本进行表示并作为并行双向GRU网络的输入,通过上下两个通道分别对文本进行上下文信息的捕捉,得到表征向量,再依靠自注意力机制学习词语权重并加权,最后对两个通道的输出向量进行向量融合,作为输入进入全连接层判别情感倾向。将本文模型与多个传统模型在两个公共数据集上进行实验验证,结果表明本文模型在查准率、查全率、F1值和准确率等性能指标上相比于双向门控循环单元网络模型、双向长短时记忆网络模型和双向门控循环单元网络与自注意力机制的单通道网络模型均有所提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号