首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 468 毫秒
1.
针对单一的卷积神经网络文本分类模型忽视词语在上下文的语义变化,未对影响文本分类效果的关键特征赋予更高权值的问题,提出了一种融合多重注意力机制的卷积神经网络文本分类模型.该模型将注意力机制分别嵌入卷积神经网络的卷积层前后,对影响文本分类效果的高维特征和低维特征进行权值的重新分配,优化特征提取过程,实现特征向量的精确分类.在池化层采用平均池化和最大池化相结合的方法,从而减少特征图的尺寸,避免过拟合现象的发生,最后使用softmax函数进行分类.本文在三个不同的中英文数据集上进行实验,同时设计注意力机制重要性对比实验,分析自注意力机制与CNN结合对文本分类效果提升的重要性,结果表明该分类模型有效地提高了分类的准确性.  相似文献   

2.
人工神经网络是一种有效的文本分类技术,但网络本身的不确定性使得很难找到合适的网络。本文提出粒子群优化算法优化神经网络,使得该网络在进化过程中自适应地调节其连接权重和网络结构。首先把文本集合表示为向量空间;然后使用信息增益算法选择特征项,使用特征项频率-倒排文档频率计算特征项权值;最后使用进化神经网络对中文文本进行自动分类。实验结果表明,与原BP神经网络相比,进化BP神经网络的分类效果更好。  相似文献   

3.
本文在对文本分类的问题,关键技术及系统结构进行介绍的基础上,详细阐述了一种利用带动力项的BP神经网络作为分类器的中文文本自动分类方法.该法采用归一化TFIDF算法对特征向量进行权值计算,并使用期望交叉熵统计方法对特征向量集进行精简.此外,我们在TanCorp12数据集上测试了特征项数目和训练次数对于分类器的宏平均和微平均性能的影响.  相似文献   

4.
为了提高卷积神经网络对图像分类的正确率,对网络结构进行研究,提出了多模型融合卷积神经网络。通过提取单个模型的输出特征向量,进行融合后得到新的输出特征向量,再搭建单层分类器进行图像分类,提高分类准确率。将单个模型与多模型融合的分类准确率进行比较,多模型融合卷积神经网络的分类准确率有所提高。分析了卷积神经网络最后一层全连接层的权值分布,发现同一模型在不同数据集上的权值分布曲线相似,分类效果好的网络模型其权值分布曲线更平缓。  相似文献   

5.
根据中文文本的特点,不仅考虑文本中词汇概率信息,还结合文本语义等多方面信息来计算文本特征项的权值,从而提出一种基于多重因子加权的特征项权值计算方法,并给出具体算法.通过与基于词频及基于TF-IDF的特征项权值计算方法的比较试验,证明文中提出的特征项权值计算方法能有效提高文本聚类的正确率.  相似文献   

6.
针对文本自动分类问题,提出一种基于概率型神经网络(PNN)和学习矢量量化(LVQ)相结合的文本分类算法,该方法借助TFIDF方法提取文本特征及特征值,形成文本分类特征向量,利用概率型神经网络构建分类模型,并利用LVQ学习算法对神经网络模型竞争层网络进行学习,使相应模式向量相互靠拢,远离其他模式,从而实现文本分类.实验结果表明,提出的该方法在文本分类中表现了很好的效果,不仅具有很好的分类准确率,还表现出很好的学习效率.  相似文献   

7.
基于文本表示的特征项权值计算方法   总被引:3,自引:0,他引:3  
文本表示中特征项的权值计算方法决定了文本特征的提取,在很大程度上影响了文本聚类的准确率。通过系统总结常用的几种特征项权值计算方法,并逐一比较分析和研究,提出了一种性能较好的计算方法——,多重因子加权的特征项权值计算方法,经实验证明该计算方法确实能够有效地提高文本聚类的准确性。  相似文献   

8.
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。  相似文献   

9.
政务热线承接了海量市民诉求,人工对工单分类耗时费力。现有工单分类方法大多基于机器学习或单一神经网络模型,难以有效理解上下文语义信息,且文本特征提取不全面。针对这一问题,本文提出一种融合RoBERTa和特征提取的政务热线工单分类方法。该方法首先通过基于RoBERTa预训练语言模型的语义编码层获取政务热线工单文本中的语义表征向量,然后通过由CNN-BiGRU-Self-Attention定义的特征提取层获取工单文本的局部特征和全局特征,并对全局特征进行处理以凸显重要性高的语义特征,最后将融合后的特征向量输入分类器来完成工单分类。实验结果表明,相较于其他基线分类方法,本文提出的方法能够取得更好的工单分类效果。  相似文献   

10.
《计算机科学与探索》2016,(9):1320-1331
海量网络信息的出现,使得提取文本信息情感观点成为研究的热点。针对文本情感分类中文本信息模糊及分类准确率低的问题,提出了一种基于Mixed-Fisher特征选择的文本云向量模型聚类算法。该算法首先分别计算文档中各个词性特征项的Fisher判别比,根据Fisher判别比越大特征向量判别性越强的Fisher准则,选择Fisher比值较大的前q个特征,并按照词性进行组合生成文档的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上构建文档的云向量模型,根据云向量模型间的差异度对模型进行聚类和合并。将该算法应用于文本情感观点的分类,选择核Fisher判别技术用于最终文本观点的判定。仿真实验结果表明,基于Mixed-Fisher特征的云向量聚类模型的分类准确率明显优于传统向量空间模型,从而验证了核Fisher判别技术的有效性。  相似文献   

11.
为了更好地表示文本语义信息,提高文本分类准确率,改进了特征权重计算方法,并融合特征向量与语义向量进行文本表示.首先基于文本复杂网络实现文本特征提取,接着利用网络节点统计特征改进TF-IDF得到特征向量,再基于LSTM抽取语义向量,最后将特征向量与语义向量相融合,使新的文本表示向量信息区分度更高.以网络新闻数据为实验对象的实验结果表明,改进特征权重计算方法,在特征向量中引入了语义和结构信息,并融合特征向量和语义向量,能进一步丰富文本信息,改善文本分类效果.  相似文献   

12.
从信息论的角度,提出了一种新的文本分类模型.该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题.从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明.根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础.  相似文献   

13.
在对中文文本进行分类的过程中,由于关键特征在整个文本中具有分布不均匀的特点,容易出现关键特征丢失的问题,降低了分类的准确性。针对这一问题,提出一种基于注意力机制的双通道文本分类模型。将输入文本通过词嵌入进行向量表示,利用Bi-LSTM通道提取文本中的上下文关联信息,利用CNN通道提取文本中连续词间的局部特征。在两个通道中均引入注意力机制进行全局权重分配,使模型能够进一步关注到文本中的关键词。在CNN通道中,将原始输入向量与各层CNN的输出向量进行选择性融合,从而实现特征重利用。在今日头条和THUCNews两个公开数据集上进行性能评估,实验结果表明,与其他分类模型相比,所提模型的分类准确率分别为97.59%、90.09%,具有更好的分类性能。  相似文献   

14.
中文短文本自身包含词汇个数少、描述信息能力弱,常用的文本分类方法对于短文本分类效果不理想。同时传统的文本分类方法在处理大规模文本分类时会出现向量维数很高的情况,造成算法效率低,而且一般用于长文本分类的特征选择方法都是基于数理统计的,忽略了文本中词项之间的语义关系。针对以上问题本文提出基于卡方特征选择和LDA主题模型的中文短文本分类方法,方法使用LDA主题模型的训练结果对传统特征选择方法进行特征扩展,以达到将数理信息和语义信息融入分类算法的目的。对比试验表明,这种方法提高了中文短文本分类效果。  相似文献   

15.
程玉胜  梁辉  王一宾  黎康 《计算机应用》2016,36(11):2963-2968
传统的文本分类多以空间向量模型为基础,采用层次分类树模型进行统计分析,该模型多数没有结合特征项语义信息,因此可能产生大量频繁语义模式,增加了分类路径。结合基本显露模式(eEP)在分类上的良好区分特性和基于最小期望风险代价的决策粗糙集模型,提出了一种阈值优化的文本语义分类算法TSCTO:在获取文档特征项频率分布表之后,首先利用粗糙集联合决策分布密度矩阵,计算最小阈值,提取满足一定阈值的高频词;然后结合语义分析与逆向文档频率方法获取基于语义类内文档频率的高频词;采用eEP分类方法获得最简模式;最后利用相似性公式和《知网》提供的语义相关度,计算文本相似性得分,利用三支决策理论对阈值进行选择。实验结果表明,TSCTO算法在文本分类的性能上有一定提升。  相似文献   

16.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。  相似文献   

17.
针对传统的卷积神经网络未能充分利用不同通道间的文本特征语义信息和关联信息,以及传统的词向量表示方法采用静态方式对文本信息进行提取,忽略了文本的位置信息,从而导致文本情感分类不准确的问题,提出了一种结合ALBERT(a lite BERT)和注意力特征分割融合网络(attention feature split fusion network,AFSFN)的中文短文本情感分类模型ALBERT-AFSFN。该模型利用ALBERT对文本进行词向量表示,提升词向量的表征能力;通过注意力特征分割融合网络将特征分割为两组,对两组不同通道的特征进行提取和融合,最大程度保留不同通道之间的语义关联信息;借助Softmax函数对中文短文本情感进行分类,得到文本的情感倾向。在三个公开数据集Chnsenticorp、waimai-10k和weibo-100k上的准确率分别达到了93.33%、88.98%和97.81%,F1值也分别达到了93.23%、88.47%和97.78%,结果表明提出的方法在中文短文本情感分析中能够达到更好的分类效果。  相似文献   

18.
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。基于向量空间的文本分类方法中,信息增益是一种有效的特征选择方法。本文改进信息增益的特征选择方法:降低负类对分类的贡献;改进特征项在类中的均匀程度对分类的贡献。实验结果表明,经过改进的信息增益的特征选择方法在分类效果上有显著的提高。  相似文献   

19.
针对文本自动分类问题,提出了一种基于模糊向量空间模型和径向基函数网络的分类方法.网络由输入层、隐层和输出层组成.输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来.该方法在特征提取时充分考虑了特征项在文档中的位置信息,构造出模糊特征向量,使自动分类更接近手工分类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号