首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 593 毫秒
1.
该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。  相似文献   

2.
杨鼎  阳爱民 《计算机应用研究》2010,27(10):3737-3739
基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法。这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象。实验表明,使用提出的方法构成的分类器具有分类速度快、分类准确度高、鲁棒性强等特点,并且适合于大量中文文本情感分类应用系统。  相似文献   

3.
传统微博情感分类方法往往忽略对大量表情符号和图片型表情的情感分析.在图片去重算法的基础上,利用表情词和表情符号的相关性构建表情图片情感词典,并加入对官方扩展表情包和图片型表情的情感识别与验证.由于单纯词典方法的性能有限,将词典抽取的规则情感特征与机器学习的基本特征模板融合,使用朴素贝叶斯等分类器,提高情感分类的性能表现.实验结果表明,图片情感词典的加入使方案的准确率有所提高,特别在处理情感词表达不规范的样本方面具有一定优势.  相似文献   

4.
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。  相似文献   

5.
通过对文本情感分类的研究,考虑微博文本信息的篇幅短小、情感符号丰富及大量网络词汇的特点,提出一种适用于中文微博情感分类的基于Map/Reduce的分布式朴素贝叶斯算法。算法通过构建适用于微博文本的情感词典来完成情感特征属性的提取,以期达到较为理想的分类效果。实验结果表明,这种方法能够很好地适用于微博情感分类,达到较理想的分类效果,满足针对海量的微博文本数据处理的可行性与高效性的需求。  相似文献   

6.
提出一种基于文本特征的专门面向酒店评论领域的情感分析模型,通过构建酒店评论领域专用情感词典,并结合酒店评论的句式特征、语法特点,解决了通用情感分析模型应用在酒店评论领域时,情感匹配不全面,情感值计算不精确等问题.本文实验结果表明,基于文本特征的情感分析模型能对酒店评论情感分析取得较好的分类效果.  相似文献   

7.
使用机器学习方法进行新闻的情感自动分类   总被引:6,自引:0,他引:6  
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。  相似文献   

8.
中文文本情感词典构建方法   总被引:1,自引:0,他引:1  
互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。  相似文献   

9.
分析和监测微博文本中所包含的情感信息,能够挖掘用户行为,为微博舆情监管提供借鉴。但微博文本具有长度较短、不规范、存在大量变形词和新词等特点,仅以情感词为特征对微博进行分类的方法准确率较低,难以满足实际使用。为此,基于微博语料构建二元搭配词库,并根据PMI-IR算法结合语料库统计信息,提出搭配词组情感权值的计算方法PMI-IR-P。结合情感词典,采用统计方法生成微博情感特征向量,利用机器学习中的C4.5算法构建分类模型,对微博文本进行情感倾向分类。分别使用不同的数据集用于构建搭配词库及分类模型,并与基于情感词典的分类方法以及朴素贝叶斯分类方法进行对比。实验结果表明,提出的情感特征通过运用C4.5算法对微博文本情感分类的准确率达到87%,具有较好的效果。  相似文献   

10.
微博中携带着的情感对社会发展的影响越来越重要,通过对微博文本的情感分析,可以对网络舆情做出正确判断和及时决策。基于SO-PMI算法对现有情感词典进行扩充,并构建了程度副词、否定词、双重否定词、表情符号词典。首先爬取特定话题的微博文本,进行预处理和分词,然后基于构建的词典计算文本的情感值,并使用可视化方法展示网民的情感状况和关键词。  相似文献   

11.
分类准确性是分类器最重要的性能指标,特征子集选择是提高分类器分类准确性的一种有效方法。现有的特征子集选择方法主要针对静态分类器,缺少动态分类器特征子集选择方面的研究。首先给出具有连续属性的动态朴素贝叶斯网络分类器和动态分类准确性评价标准,在此基础上建立动态朴素贝叶斯网络分类器的特征子集选择方法,并使用真实宏观经济时序数据进行实验与分析。  相似文献   

12.
微博日益成为一个巨大而复杂的互联网舆论平台。分析微博中特定话题的情感趋势对于了解网络舆情、分析产品销量趋势显得尤为重要。该文使用微博进行真实事件公众情感趋势预测: 首先,考虑到微博特征稀疏、上下文缺失的特性,借助词语上下位语义关系对其进行语义扩充;其次,使用语义特征和情感常识知识构造双层分类方法进行情感分析;最后,对特定事件在连续时间段内的微博使用时序情感分析方法进行公众情感趋势预测。实验证明,该情感分析方法准确率相对于传统分类方法有明显的提高,在此基础上的情感趋势预测符合事件的真实发展状况。  相似文献   

13.
流派分类和基于主题的文本分类最大的区别之处就在于文本的特征。流派分类需要能够描述文档风格的、表达更强语义信息的特征,基于特征情感色彩的分类方法是将情感色彩这种语义信息附加到特征上。首先介绍了文档流派分类的概念及其应用,然后分析了流派分类的文本特征和词汇的情感倾向权值的几种计算方法,论述了基于特征情感色彩的文档流派分类过程,最后对几种分类方法进行了实验结果分析和比较。  相似文献   

14.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

15.
近年来,以微博为代表的社交媒体在情感分析中备受关注。然而,绝大多数现有的主题情感模型并没有充分考虑到用户性格特征,导致情感分析结果难尽人意。故该文在现有的JST模型基础上进行改进,提出一种基于时间的性格建模方法,将用户性格特征纳入主题情感模型中;鉴于微博数据包含大量的表情符号之类的特有信息,为了充分利用表情符号来提升微博情感识别性能,该文将情感符号融入JST模型中,进而提出了一种改进的主题情感联合模型UC-JST(Joint Sentiment/Topic Model Based on User Character)。通过在真实的新浪微博数据集上进行实验,结果表明UC-JST情感分类效果优于JST、TUS-LDA、JUST、TSMMF四种典型的无监督情感分类方法。  相似文献   

16.
Wang  Yanmei 《Multimedia Tools and Applications》2020,79(27-28):19151-19166

Microblog (such as Weibo) is an integrated social platform of vital importance in the internet age. Because of its diversity, subjectivity and timeliness, microblog is popular among public. In order to perform sentiment classification on microblog posts and overcome the limitation of text information, a fine-grained sentiment analysis method is proposed, in which emoticon attributes are considered. Firstly, the microblog texts are pre-processed to remove some stop words and noise information such as links. Then the data is matched in the sentiment lexicon, and when the first matching succeeds, the second matching is performed in the emoticon dictionary. The emoticons in the emoticon dictionary are transformed into vector form. Through these matching, the emotional features are vectorized and other text features are considered. Finally, the iterative-based naive Bayesian classification method is used for sentiment classification. The experiment results show that emoticons have obvious effect on facilitating the sentiment classification of microblog posts, and the proposed sentiment classification method achieved better than average results in term of classification accuracy compared with state-of-art techniques.

  相似文献   

17.
粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模,采用Johnson粗糙集属性约简算法对决策表进行化简,保留最小的文本情感词特征属性集,之后再对该集合中的所有情感特征词进行词嵌入表示,最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外,该文还定义了情感词特征属性集覆盖力,用于表示文本情感词特征属性集合对语料库的覆盖能力。最后,在实验对比的过程中,用统计检验进一步验证了该方法的有效性。  相似文献   

18.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。  相似文献   

19.
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,该文提出了一种结合情感词典和卷积神经网络的情感分类方法,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取抽象词语的序列特征,并用于情感极性分类。该文提出的相关方法在中文倾向性分析评测COAE2014数据集上取得了比目前主流的卷积神经网络以及朴素贝叶斯支持向量机更好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号