共查询到20条相似文献,搜索用时 125 毫秒
1.
一种基于情感词典和朴素贝叶斯的中文文本情感分类方法* 总被引:2,自引:0,他引:2
基于朴素贝叶斯理论提出了一种新的中文文本情感分类方法。这种方法利用情感词典对文本进行处理和表示,基于朴素贝叶斯理论构建文本情感分类器,并以互联网上宾馆中文评论作为分类研究的对象。实验表明,使用提出的方法构成的分类器具有分类速度快、分类准确度高、鲁棒性强等特点,并且适合于大量中文文本情感分类应用系统。 相似文献
2.
《计算机应用与软件》2016,(8)
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。 相似文献
3.
中文文本情感词典构建方法 总被引:1,自引:0,他引:1
互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。 相似文献
4.
基于多特征融合的汉语情感分类研究* 总被引:2,自引:1,他引:1
中文情感分类一般分成基于情感词典和基于特征分类两种方法进行研究,但没有考虑过将两种方法得到的特征进行融合来提高分类效果。基于特征分类的方法忽视了特征词在情感词典的褒贬性以及词倾向性的强弱。用基于特征分类方法得到的文本特征建立朴素贝叶斯模型,根据特征词在情感词典中的褒贬性及其通过点对互信息方法得到的词性强弱调整情感词的正负后验概率权重,实现两种特征的融合,提高分类效果并降低了特征维数。 相似文献
5.
6.
介绍了文本分类的基本过程以及朴素贝叶斯和K近邻算法等基本分类方法,给出了基于覆盖的构造性神经网络分类算法,并将其与朴素贝叶斯和KNN作了实验比较。结果表明,该算法具有较好的分类性能,适合于处理大规模的文本分类任务,从而有效地克服了传统文本分类算法的不足。 相似文献
7.
潘忠英 《电脑编程技巧与维护》2021,(2):37-39,70
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向.文本挖掘和信息检索的重要基础是自动化文本分类技术,朴素贝叶斯分类器是机器学习在文本自动化分类领域重要的一种分类器.朴素贝叶斯分类快速而精确,只需扫描一次数据集,具有较强的抗干扰能力.介绍了自动化文本分类的相关背景,论述了自动化文本分类技术的一般流程,设计和实现了一个基于朴素贝叶斯的自动化中文文本分类器,并通过两个实验对分类器进行了测试与验证.实验结果表明,该分类器具有良好的分类效果和分类速度. 相似文献
8.
9.
覆盖算法在文本分类中的应用 总被引:1,自引:0,他引:1
介绍了文本分类的基本过程以及朴素贝叶斯和K近邻算法等基本分类方法,给出了基于覆盖的构造性神经粤络分类算法,并将其与朴素贝叶斯和KNN作了实验比较。结果表明,该算法具有较好的分类性能,适合于处理大规模的文本分类任务,从而有效地克服了传统文本分类算法的不足。 相似文献
10.
一种基于朴素贝叶斯的微博情感分类 总被引:1,自引:0,他引:1
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。 相似文献
11.
特征选择是文本分类中一种重要的文本预处理技术,它能够有效地提高分类器的精度和效率。文本分类中特征选择的关键是寻求有效的特征评价指标。一般来说,同一个特征评价指标对不同的分类器,其效果不同,由此,一个好的特征评价指标应当考虑分类器的特点。由于朴素贝叶斯分类器简单、高效而且对特征选择很敏感,因此,对用于该种分类器的特征选择方法的研究具有重要的意义。有鉴于此,提出了一种有效的用于贝叶斯分类器的多类别文本特征评价指标:CDM。利用贝叶斯分类器在两个多类别的文本数据集上进行了实验。实验结果表明提出的CDM指标具有比其它特征评价指标更好的特征选择效果。 相似文献
12.
针对有特殊结构的文本,传统的文本分类算法已经不能满足需求,为此提出一种基于多示例学习框架的文本分类算法。将每个文本当作一个示例包,文本中的标题和正文视为该包的两个示例;利用基于一类分类的多类分类支持向量机算法,将包映射到高维特征空间中;引入高斯核函数训练分类器,完成对无标记文本的分类预测。实验结果表明,该算法相较于传统的机器学习分类算法具有更高的分类精度,为具有特殊文本结构的文本挖掘领域研究提供了新的角度。 相似文献
13.
14.
15.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。 相似文献
16.
17.
分析了文本分类过程中存在的混淆类现象,主要研究混淆类的判别技术,进而改善文本分类的性能.首先,提出了一种基于分类错误分布的混淆类识别技术,识别预定义类别中的混淆类集合.为了有效判别混淆类,提出了一种基于判别能力的特征选取技术,通过评价某一特征对类别之间的判别能力实现特征选取.最后,通过基于两阶段的分类器设计框架,将初始分类器和混淆类分类器进行集成,组合了两个阶段的分类结果作为最后输出.混淆类分类器的激活条件是:当测试文本被初始分类器标注为混淆类类别时,即采用混淆类分类器进行重新判别.在比较实验中采用了Newsgroup和863中文评测语料,针对单标签、多类分类器.实验结果显示,该技术有效地改善了分类性能. 相似文献
18.
19.
20.
传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一的分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。并在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1.19%。 相似文献