首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
景丽  何婷婷 《计算机科学》2021,48(z2):170-175,190
文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域.针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi-LSTM and CNN,ABLCNN)相结合的文本分类模型.该模型首先利用特征项在类内、类间的分布关系和位置信息改进TF-IDF算法,突出特征项的重要性,并结合Word2vec工具训练的词向量对文本进行表示;然后使用ABLCNN提取文本特征,ABLCNN结合了注意力机制、长短期记忆网络和卷积神经网络的优点,既可以有重点地提取文本的上下文语义特征,又兼顾了局部语义特征;最后,将特征向量通过softmax函数进行文本分类.在THUCNews数据集和online_shopping_10_cats数据集上对基于改进TF-IDF和ABLCNN的文本分类模型进行实验,结果表明,所提模型在两个数据集上的准确率分别为97.38%和91.33%,高于其他文本分类模型.  相似文献   

2.
《软件》2019,(9):71-74
在文本分类领域,中文文本需要经过数据处理,将文档表达成计算机可以理解并处理的信息。本文采用TF-IDF作为文本表示方法,针对中文文章的多分类问题,对传统支持向量机进行改进,提出了一种基于特征选择的多类支持向量机分类方法。在中文文章数据集的对比实验结果表明,本文的方法在多分类性能上较优于其他模式识别方法。  相似文献   

3.
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。  相似文献   

4.
依据公安情报文本中不同位置的词条对区分文本类别的贡献显著不同的特点,引入位置权重系数,改进了经典的文本特征权重计算方法(TF-IDF),使文本的权重能够更加全面地反映文本的类别信息。根据公安情报分类系统的需求,设计了基于支持向量机(SVM)的公安情报分类系统,该系统不仅能够实现情报文本的自动分类,而且能够保留在情报文本分类的不同阶段语料的特征信息,为情报信息的进一步加工处理提供支持,同时系统中各模块间采用松耦合的方式衔接,提高了系统的适应性和灵活性。通过实验验证了系统设计的合理性和有效性。  相似文献   

5.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。  相似文献   

6.
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,该文考虑将一些网络评论进行情感分类,判断一篇评论是正面还是反面。文本分类的机器学习方法较多,该文采用支持向量机的方法进行分类。该文特点在于采用具有语意倾向的词并综合其词性作为特征项,采用TF-IDF的值作为特征项权值。实验表明,用这种方法对网上的一些评论进行分类可以达到一个高的准确率。  相似文献   

7.
为了更好地表示文本语义信息,提高文本分类准确率,改进了特征权重计算方法,并融合特征向量与语义向量进行文本表示.首先基于文本复杂网络实现文本特征提取,接着利用网络节点统计特征改进TF-IDF得到特征向量,再基于LSTM抽取语义向量,最后将特征向量与语义向量相融合,使新的文本表示向量信息区分度更高.以网络新闻数据为实验对象的实验结果表明,改进特征权重计算方法,在特征向量中引入了语义和结构信息,并融合特征向量和语义向量,能进一步丰富文本信息,改善文本分类效果.  相似文献   

8.
针对传统卡方统计量(CHI)方法在全局范围内进行特征选择时忽略词频信息问题,提出了一种改进的文本特征选择方法。通过引入特征分布相关性系数,选择局部出现的强相关性特征,并利用修正因子解决CHI方法的负相关困扰,从而提升语料集的分类指标。对网易新闻语料库和复旦大学中文语料库进行实验时,利用以上方法进行特征选择,使用改进后的词频—逆文本频率(TF-IDF)权重计算公式加权,分类器选择支持向量机(SVM)和朴素贝叶斯法。结果表明:改进的方法不仅在分类效果上有明显的提高,而且性能更加稳定。  相似文献   

9.
基于词频差异的特征选取及改进的TF-IDF公式   总被引:20,自引:2,他引:18  
罗欣  夏德麟  晏蒲柳 《计算机应用》2005,25(9):2031-2033
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。  相似文献   

10.
为了清理互联网与移动通信网络所带来的不良诈骗信息,使用文本分类技术来识别电信诈骗信息。采用中文分词技术(jieba)对数据样本的中文信息进行分词,用TF-IDF算法提取电信诈骗信息的特征,向量空间模型(VSM)构建文本内容的特征,选取朴素贝叶斯分类算法的伯努利模型和多项式模型,分别训练数据并对比测试得出各自对电信诈骗信息的识别效果评估。  相似文献   

11.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

12.
随着Internet技术的发展,万维网上的文档数目成指数级增长。在如此浩瀚的信息库中,用户很难找到自己所需要的信息,如何自动且高效地处理这些海量文档信息成为了目前重要的研究课题。文章通过对抽取到的数据集文档中的标题,超连接和标记等超文本信息,以及文档内容本身分别建立分类模型。然后根据神经网络集成各个分类模型得出判别结果,提出了一种基于元信息的超文本集成分类算法,该算法能更好的综合利用超文本的多元结构化信息。实验结果表明,相对于单独利用某种超文本结构信息进行分类的方法。基于元信息的超文本集成分类算法具有更好的分类性能。  相似文献   

13.
在当前的大数据时代,互联网上的博客、论坛产生了海量的主观性评论信息,这些评论信息表达了人们的各种情感色彩和情感倾向性。如果仅仅用人工的方法来对网络上海量的评论信息进行分类和处理实在是太难了,那么,如何高效地挖掘出网络上大量的具有褒贬倾向性观点的信息就成为目前亟待解决的问题,中文文本褒贬倾向性分类技术研究正是解决这一问题的一个方法。文章介绍了常用的文本特征选择算法,分析了文档频率和互信息算法的不足,通过对两个算法的对比和研究,结合文本特征与文本类型的相关度和文本褒贬特征的出现概率,提出了改进的文本特征选择算法(MIDF)。实验结果表明,MIDF算法对文本褒贬倾向性分类是有效的。  相似文献   

14.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

15.
方面级别情感分类是针对给定文本、分析其在给定方面所表达出的情感极性。现有的主流解决方案中,基于注意力机制的循环神经网络模型忽略了关键词邻近上下文信息的重要性,而结合卷积神经网络(Convolutional Neural Network,CNN)的多层模型不擅长捕捉句子级别的长距离依赖信息。因此,提出了一种基于截断循环神经网络(Disconnected Gated Recurrent Units,DGRU)和注意力机制的方面级别情感分类网络模型(Attention-Disconnected Gated Recurrent Units,ATT-DGRU)。DGRU网络综合了循环神经网络和CNN的优点,既能捕捉文本的长距离依赖语义信息,又可以很好地抽取关键短语的语义信息。注意力机制在推断方面情感极性时捕获每一个单词与给定方面的关联程度,同时生成一个情感权重向量用于可视化。ATT-DGRU模型在中文酒店评论数据集上进行ACSA任务,任务结果表明,其二分类、三分类准确率分别达到91.53%,86.61%;在SemEval2014-Restaurant数据集进行ATSA任务,任务结果表明,其二分类、三分类准确率分别可达90.06%,77.21%。  相似文献   

16.
随着互联网和信息技术的迅速发展,网络上用户的评论信息越来越多。利用计算机技术分析网络中大规模文本的情感倾向,在政府的舆情分析和企业的产品评价智能回馈等应用中有着非常巨大的发展前景。文中着重研究了选取不同的文本特征对文本情感倾向性分类精度的影响。实验中所研究的不同文本特征主要包括情感词、形容词、副词、语气词和标点符号等。实验结果表明,选取情感词、形容词、副词作为特征项对情感分类具有较好的效果,在此基础上添加语气词和标点特征可以有效地提高情感分类的精度。该研究成果可用于社会舆情分析、垃圾博客过滤、商品评论与推荐、影视评价等领域。  相似文献   

17.
一般细粒度图像分类只关注图像局部视觉信息,但在一些问题中图像局部的文本 信息对图像分类结果有直接帮助,通过提取图像文本语义信息可以进一步提升图像细分类效果。 我们综合考虑了图像视觉信息与图像局部文本信息,提出一个端到端的分类模型来解决细粒度 图像分类问题。一方面使用深度卷积神经网络获取图像视觉特征,另一方面依据提出的端到端 文本识别网络,提取图像的文本信息,再通过相关性计算模块合并视觉特征与文本特征,送入 分类网络。最终在公共数据集 Con-Text 上测试该方法在图像细分类中的结果,同时也在 SVT 数据集上验证端到端文本识别网络的能力,均较之前方法获得更好的效果。  相似文献   

18.
针对传统的中文文本分类在海量的互联网信息中难以胜任的现状,提出一种语句级的卷积神经网络中文新闻分类方案。通过信息提取算法从长短不一的新闻数据中提取固定大小的新闻摘要,压缩输入量的同时统一输入格式。信息提取时,通过对TF-IDF算法进行改进提升新闻摘要的质量,结合word2vec技术和卷积神经网络完成文本分类任务。与传统方法相比,词向量模型的引入弥补了传统词袋模型的缺陷,且语句的语义远比词的更加全面,使用语句进行分类更加可靠。通过实验对比验证了该方案具有较好的性能。  相似文献   

19.
基于IMS呈现的社交网络管理系统   总被引:1,自引:0,他引:1  
IMS(IP Multimedia Subsystem)作为下一代网络的核心网的标准架构,在IP多媒体应业务的开发方面,受到了越来越多的关注。本文在IMS呈现的基础上,实现了基于IMS呈现的社交网络管理系统(Social Network Management System based on the IMS Presence),它丰富了传统电信IMS呈现的业务能力,将手机地址本扩展为社交网络,丰富了好友间互操作,扩展了群组聊天。本文从业务角度出发,分析了IMS呈现的可扩展性,设计了基于IMS呈现的社交管理系统的架构和功能实体,详细阐述了系统功能实现的关键点,并实现了系统与媒体的接口,最后以单个用户操作、一对一好友操作和群组操作为例,具体实现了相应的功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号