首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对短文本中固有的特征稀疏以及传统分类模型存在的“词汇鸿沟”等问题, 我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题, 并且引入传统文本分类模型中不具有的语义关系. 但进一步发现单纯利用 Word2Vec模型忽略了不同词性的词语对短文本的影响力, 因此引入词性改进特征权重计算方法, 将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重, 并结合 Word2Vec 词向量生成短文本向量, 最后利用SVM实现短文本分类. 在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性.  相似文献   

2.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

3.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

4.
目前深度学习技术被广泛应用于文本情感分类中,现有研究采用的网络模型输入单一,未能全面表示文本中的情感信息特征,同时也未充分考虑与待分类文本关联性更强更有意义的文本特征,以致分类器无法学习到更多隐含特征,针对上述问题提出一种融合情感增强与注意力的文本情感分析模型.该模型首先通过构造关键因子将情感信息词及其分类贡献度嵌入T...  相似文献   

5.
基于多特征融合的汉语情感分类研究*   总被引:2,自引:1,他引:1  
中文情感分类一般分成基于情感词典和基于特征分类两种方法进行研究,但没有考虑过将两种方法得到的特征进行融合来提高分类效果。基于特征分类的方法忽视了特征词在情感词典的褒贬性以及词倾向性的强弱。用基于特征分类方法得到的文本特征建立朴素贝叶斯模型,根据特征词在情感词典中的褒贬性及其通过点对互信息方法得到的词性强弱调整情感词的正负后验概率权重,实现两种特征的融合,提高分类效果并降低了特征维数。  相似文献   

6.
为了提高资源匮乏语言的情感分类性能,提出一种基于对抗双向GRU网络相结合的跨语言情感分类模型(ABi-GRU)。通过基于语义双语词嵌入方法来提取中英文文本词向量特征;结合注意力机制的双向GRU网络提取文本的上下文情感特征,同时引入生成对抗网络缩小中英文向量特征分布之间的差距;通过情感分类器进行情感分类。实验结果分析表明,该方法有效地提升了跨语言情感分类的准确率。  相似文献   

7.
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,该文提出了一种结合情感词典和卷积神经网络的情感分类方法,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取抽象词语的序列特征,并用于情感极性分类。该文提出的相关方法在中文倾向性分析评测COAE2014数据集上取得了比目前主流的卷积神经网络以及朴素贝叶斯支持向量机更好的性能。  相似文献   

8.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。  相似文献   

9.
卢伟胜  郭躬德  陈黎飞 《计算机应用》2014,34(10):2869-2873
传统的n-gram文本特征提取方法会产生高维度的特征向量,高维数据不但增大了分类的难度,同时也会增加分类的时间。针对这一问题,提出了一种基于词性(POS)标注序列的特征提取方法,根据词性序列能够代表一类文本的这一个特点,利用词性序列组作为文本的特征以达到降低特征维度的效果。在实验中,词性序列特征提取方法比n-gram特征提取方法至少提高了9%的分类精度,降低4816个维度。实验结果表明,该方法能够适用于微博情感分类。  相似文献   

10.
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。  相似文献   

11.
针对现有深度学习方法在文本情感分类任务中特征提取能力方面的不足,提出基于扩展特征和动态池化的双通道卷积神经网络的文本情感分类算法.首先,结合情感词、词性、程度副词、否定词和标点符号等多种影响文本情感倾向的词语特征,形成一个扩展文本特征.然后,把词向量特征与扩展文本特征分别作为卷积神经网络的两个输入通道,采用动态k-max池化策略,提升模型提取特征的能力.在多个标准英文数据集上的文本情感分类实验表明,文中算法的分类性能不仅高于单通道卷积神经网络算法,而且相比一些代表性算法也具有一定的优势.  相似文献   

12.
In order to meet the requirement of customised services for online communities, sentiment classification of online reviews has been applied to study the unstructured reviews so as to identify users’ opinions on certain products. The purpose of this article is to select features for sentiment classification of Chinese online reviews with techniques well performed in traditional text classification. First, adjectives, adverbs and verbs are identified as the potential text features containing sentiment information. Then, four statistical feature selection methods, such as document frequency (DF), information gain (IG), chi-squared statistic (CHI) and mutual information (MI), are adopted to select features. After that, the Boolean weighting method is applied to set feature weights and construct a vector space model. Finally, a support vector machine (SVM) classifier is employed to predict the sentiment polarity of online reviews. Comparative experiments are conducted based on hotel online reviews in Chinese. The results indicate that the highest accuracy of the sentiment classification of Chinese online reviews is achieved by taking adjectives, adverbs and verbs together as the feature. Besides that, different feature selection methods make distinct performances on sentiment classification, as DF performs the best, CHI follows and IG ranks the last, whereas MI is not suitable for sentiment classification of Chinese online reviews. This conclusion will be helpful to improve the accuracy of sentiment classification and be useful for further research.  相似文献   

13.
目前特定主题情感分析任务中,传统的基于注意力的深度学习模型缺乏对主题特征和情感信息的有效关注。针对该问题,构建了融合主题特征的深层注意力的LSTM模型(deeper attention LSTM with aspect embedding,AE-DATT-LSTM),通过共享权重的双向LSTM将主题词向量和文本词向量进行训练,得到主题特征和文本特征进行特征融合,经过深层注意力机制的处理,由分类器得到相应主题的情感分类结果。在SemEval-2014 Task4和SemEval-2017 Task4数据集上的实验结果表明,该方法在特定主题情感分析任务中,较之前基于注意力的情感分析模型在准确率和稳定性上有了进一步的提高。主题特征和深层注意力机制的引入,对于基于特定主题的情感分类任务具有重要的意义,为舆情分析、问答系统和文本推理等领域提供了方法的支持。  相似文献   

14.
随着社交网络的日益普及,基于Twitter文本的情感分析成为近年来的研究热点。Twitter文本中蕴含的情感倾向对于挖掘用户需求和对重大事件的预测具有重要意义。但由于Twitter文本短小和用户自身行为存在随意性等特点,再加之现有的情感分类方法大都基于手工制作的文本特征,难以挖掘文本中隐含的深层语义特征,因此难以提高情感分类性能。本文提出了一种基于卷积神经网络的Twitter文本情感分类模型。该模型利用word2vec方法初始化文本词向量,并采用CNN模型学习文本中的深层语义信息,从而挖掘Twitter文本的情感倾向。实验结果表明,采用该模型能够取得82.3%的召回率,比传统分类方法的分类性能有显著提高。  相似文献   

15.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。  相似文献   

16.
不平衡情感分类中的特征选择方法研究   总被引:1,自引:0,他引:1  
随着网络的发展,情感分类任务受到广大研究人员的密切关注。针对情感分类中的不平衡数据分布和高维特征问题,该文比较研究了四种经典的特征选择方法在不平衡情感分类中的应用。同时,该文提出了三种不同的特征选择模式并实验比较了这三种模式在分类和降维性能方面的表现。实验结果表明在不平衡数据的情感分类任务中,特征选择方法能够在不损失分类效果的前提下显著降低特征向量的维度。此外,特征选择方法中信息增益(IG)结合“先随机欠采样后特征选择”模式能够取得最佳的分类效果。  相似文献   

17.
粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模,采用Johnson粗糙集属性约简算法对决策表进行化简,保留最小的文本情感词特征属性集,之后再对该集合中的所有情感特征词进行词嵌入表示,最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外,该文还定义了情感词特征属性集覆盖力,用于表示文本情感词特征属性集合对语料库的覆盖能力。最后,在实验对比的过程中,用统计检验进一步验证了该方法的有效性。  相似文献   

18.
一种基于朴素贝叶斯的微博情感分类   总被引:1,自引:0,他引:1  
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。  相似文献   

19.
文本情感分类通过对带有情感色彩的主观性文本进行分析和推理,帮助用户更好地做出判断与决策。针对传统情感分类模型难以根据上下文信息调整词向量的问题,提出一种双通道文本情感分类模型。利用ELMo和Glove预训练模型分别生成动态和静态词向量,通过堆叠嵌入2种词向量生成输入向量。采用自注意力机制处理输入向量,计算内部的词依赖关系。构建融合卷积神经网络(CNN)和双向门控递归单元(BiGRU)的双通道神经网络结构,同时获取文本局部特征和全局特征。最终将双通道处理结果进行拼接,经过全连接层处理后输入分类器获得文本情感分类结果。实验结果表明,与同类情感分类模型中性能较优的H-BiGRU模型相比,ELMo-CNN-BiGRU模型在IMDB、yelp和sentiment140数据集上的准确率和F1值分别提升了2.42、1.98、2.52和2.40、1.94、2.43个百分点,具有更好的短文本情感分类效果和稳定性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号