首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
短文本具有长度短、特征稀疏以及上下文依赖强等特点,传统方法对其直接进行分类精度有限。针对上述问题,提出了一种结合字符和词的双输入卷积神经网络模型CP-CNN。该模型通过加入一种用拼音序列表征字符级输入的方法,构建字符级和词级的双输入矩阵,并在采样层使用k-max采样方法,增强模型特征的表达能力。利用豆瓣电影评论数据集对该模型进行识别精度评估,实验结果表明,与传统分类模型和标准卷积神经网络模型相比,该模型可有效提高短文本分类效果。  相似文献   

2.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2005,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

3.
张小川  戴旭尧  刘璐  冯天硕 《计算机应用》2020,40(12):3485-3489
针对中文短文本缺乏上下文信息导致的语义模糊从而存在的特征稀疏问题,提出了一种融合卷积神经网络和多头自注意力机制(CNN-MHA)的文本分类模型。首先,借助现有的基于Transformer的双向编码器表示(BERT)预训练语言模型以字符级向量形式来格式化表示句子层面的短文本;然后,为降低噪声,采用多头自注意力机制(MHA)学习文本序列内部的词依赖关系并生成带有全局语义信息的隐藏层向量,再将隐藏层向量输入到卷积神经网络(CNN)中,从而生成文本分类特征向量;最后,为提升分类的优化效果,将卷积层的输出与BERT模型提取的句特征进行特征融合后输入到分类器里进行再分类。将CNN-MHA模型分别与TextCNN、BERT、TextRCNN模型进行对比,实验结果表明,改进模型在搜狐新闻数据集上的F1值表现和对比模型相比分别提高了3.99%、0.76%和2.89%,验证了改进模型的有效性。  相似文献   

4.
5.
随着信息技术的迅速发展,网络中产生了海量的中文短文本数据.利用中文短文本分类技术,在低信息量的数据中挖掘出有价值的信息是当前的一个研究热点.相比中文长文本,中文短文本具有字数少、歧义多以及信息不规范等特点,导致其文本特征难以提取与表达.为此,文中提出了一种基于混合字词特征深度神经网络模型的中文短文本分类算法.首先,该算...  相似文献   

6.
由于短文本具有长度短、特征稀疏以及上下文依赖性强等特点,传统方法对其直接进行分类精度有限。针对该问题,提出了一种基于字符级嵌入的卷积神经网络(CNN)和长短时记忆网络(LSTM)相结合的神经网络模型进行短文本的分类。该模型同时包括了高速公路网络(Highway networks)框架,用于缓解深度神经网络训练时的困难,提高分类的准确性。通过对几种数据集的测试,结果表明提出的模型在短文本分类任务中优于传统模型和其他基于CNN的分类模型。  相似文献   

7.
司法文书短文本的语义多样性和特征稀疏性等特点,对短文本多标签分类精度提出了很大的挑战,传统单一模型的分类算法已无法满足业务需求.为此,提出一种融合深度学习与堆叠模型的多标签分类方法.该方法将分类器划分成两个层次,第一层使用BERT、卷积神经网络、门限循环单元等深度学习方法作为基础分类器,每个基础分类器模型通过K折交叉验...  相似文献   

8.
本文以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类(Text Categorization)算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。  相似文献   

9.
文章以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考.实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求.  相似文献   

10.
论文结合了卷积神经网络(CNN)和递归神经网络(RNN)的优点,提出了一种CNN和LSTM的混合模型。首先,使用CNN获取文本句子的特征,并使用LSTM模型捕捉文本上下文的依赖关系。然后将这两部分生成的特征向量进行融合,形成一个新的特征向量,它兼有CNN和LSTM的优点。最后,采用softmax层进行最终分类。  相似文献   

11.
Various studies have demonstrated that convolutional neural networks (CNNs) can be directly applied to different levels of text embedding, such as character‐, word‐, or document‐levels. However, the effectiveness of different embeddings is limited in the reported result and there is a lack of clear guidance on some aspects of their use, including choosing the proper level of embedding and switching word semantics from one domain to another when appropriate. In this paper, we propose a new architecture of CNN based on multiple representations for text classification, by constructing multiple planes so that more information can be dumped into the networks, such as different parts of text obtained through named entity recognizer or part‐of‐speech tagging tools, different levels of text embedding, or contextual sentences. Various large‐scale, domain‐specific datasets are used to validate the proposed architecture. Tasks analyzed include ontology document classification, biomedical event categorization, and sentiment analysis, showing that multi‐representational CNNs, which learns to focus attention to specific representations of text, can obtain further gains in performance over state‐of‐the‐art deep neural network models.  相似文献   

12.
情感多分类标注对文本信息的敏感性远高于二分类问题。为了有效利用语义依赖距离和语义多层次进行情感多分类,提出一种多窗口多池化层的卷积神经网络模型。首先使用多窗口的卷积层提取上下文局部语义,然后通过多池化层降低特征维度,同时保留不同层次的语义,由多层次语义构成文本特征向量,最后送入全连接层完成多分类标注。采用斯坦福情感树库数据集验证所提模型的多分类标注效果。实验结果表明,在训练集含短语和未包含短语两种设定下,模型的短文本情感多分类正确率分别达到54.6%和43.5%。  相似文献   

13.
探究了基于卷积神经网络的句子级别的中文文本情感分类,模型以文本经过预处理后得到的词向量作为输入。传统的卷积神经网络是由线性卷积层、池化层和全连接层堆叠起来的,提出以跨通道卷积层替代传统线性卷积滤波器,对基本的卷积神经网络进行改进,提高网络的表达能力。实验表明,改进后的卷积神经网络在保证训练速度的情况下,识别率达到91.89%,优于传统的卷积神经网络,有较好的识别能力。  相似文献   

14.
不同于长文本,短文本信息量缺乏,在研究中通常难以获得丰富的语义特征并且难以提取完整的句法特征,因此短文本分类模型的分类效果有待提升.针对这个问题进行了研究,基于ResLCNN模型进行改进,引入神经主题模型,并融合多个神经网络输出特征进行分类.首先,通过神经主题模型提取主题来丰富短文本的信息;其次,将主题信息储存在记忆网络中,并与序列信息进行融合,丰富文本的表示;最后,将其输入具有残差结构的卷积神经网络以及双向GRU中,提取局部以及全局的语义特征,在特征融合之后进行分类.该模型在Google网页搜索公开数据集中取得了较高的准确率和F1值,表明了改进模型在短文本分类任务中的有效性.  相似文献   

15.
苏小英  陈家琪 《计算机工程与设计》2006,27(12):2169-2171,2206
总结了文本分类的若干统计特性,然后以间隔最大化原理为基本目标,直接利用支持向量机的分类原理对自动文本分类任务的机器学习本质进行了探索,从平均丈挡映射出发得到ADM-FSM原理模型,以定理的形式给出了对基于间隔最大化自动文本分类器泛化能力的估计,最后通过在标准测试数据集上的实验,验证了这些理论成果。  相似文献   

16.
尹春勇  章荪 《计算机应用》2005,40(9):2536-2542
针对文本情感分析中文本过短而导致的分类准确度低的问题,结合对抗学习和变分推断提出一种端到端的短文本情感分类模型。首先,使用谱规范化技术解决了判别器在训练过程中的震荡问题;然后,添加额外的分类模型来指导推断模型的更新;其次,使用对抗变分贝叶斯(AVB)模型提取短文本的主题特征;最后,使用三次注意力机制来融合主题特征与预训练词向量特征进行分类。通过在一个产品评论和两个微博数据集上的实验结果证明,所提模型较基于自注意力的双向长短期记忆网络(BiLSTM-SA)在分类准确度上分别提高了2.9、2.2和8.4个百分点。由此可见,该模型适用于挖掘社交短文本中的情感和观点信息,对舆情发现、用户反馈、质量监督和其他相关领域具有重要的意义。  相似文献   

17.
邹汉斌  雷红艳  张伟  陈芸  周霆 《计算机工程与设计》2006,27(6):1072-1073,1076
文本分类属于有指导的机器学习,而构造一个按照兴趣分类的分类器,需要做大量的预处理工作,来收集正负的训练样例,但负例的收集是非常困难的。提出了一个只有正例的基于支持向量机的学习模型。实验表明,该学习模型对多类文本分类的分类精度和速度都是非常理想。  相似文献   

18.
尹春勇  章荪 《计算机应用》2020,40(9):2536-2542
针对文本情感分析中文本过短而导致的分类准确度低的问题,结合对抗学习和变分推断提出一种端到端的短文本情感分类模型。首先,使用谱规范化技术解决了判别器在训练过程中的震荡问题;然后,添加额外的分类模型来指导推断模型的更新;其次,使用对抗变分贝叶斯(AVB)模型提取短文本的主题特征;最后,使用三次注意力机制来融合主题特征与预训练词向量特征进行分类。通过在一个产品评论和两个微博数据集上的实验结果证明,所提模型较基于自注意力的双向长短期记忆网络(BiLSTM-SA)在分类准确度上分别提高了2.9、2.2和8.4个百分点。由此可见,该模型适用于挖掘社交短文本中的情感和观点信息,对舆情发现、用户反馈、质量监督和其他相关领域具有重要的意义。  相似文献   

19.
卢健  马成贤  杨腾飞  周嫣然 《计算机应用研究》2020,37(6):1693-1696,1701
迄今为止,传统机器学习方法依赖人工提取特征,复杂度高;深度学习网络本身特征表达能力强,但模型可解释性弱导致关键特征信息丢失。为此,以网络层次结合的方式设计了CRNN并引入attention机制,提出一种Text-CRNN+attention模型用于文本分类。首先利用CNN处理局部特征的位置不变性,提取高效局部特征信息;然后在RNN进行序列特征建模时引入attention机制对每一时刻输出序列信息进行自动加权,减少关键特征的丢失,最后完成时间和空间上的特征提取。实验结果表明,提出的模型较其他模型准确率提升了2%~3%;在提取文本特征时,该模型既保证了数据的局部相关性又起到强化序列特征的有效组合能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号