共查询到19条相似文献,搜索用时 78 毫秒
1.
提出了一种基于随机网络的在线评论情绪倾向性分类模型SCP-X (Shortest covering path-X). 首先引入了一种增量式创建词语顺序共现随机网络的方法, 并基于此随机网络以及情绪词表, 提出了一种基于评论序列最短覆盖路径(Shortest covering path, SCP)的情绪倾向性分类方法. 该方法具有以下两个优点: 1)能够对相对短小、随意性 较强、完整性较差的评论文本展开词语联想, 从而对完整性较差的评论数据进行属性值扩展; 2) 能够对评论文本的冗余属性进行约简, 约简后数据的属性规模为一般VSM模型 的10%左右. 本文最后设计了一组实验, 对以下算法进行了对比测试: TC, SVM, SCP-TC, SCP-SVM, SCP-HMM, SCP-Bayes. 结果表明本文提出的SCP-X方法对在线评论文本的倾向性分类效果更佳. 相似文献
2.
基于模板匹配的网络评论倾向性分析 总被引:1,自引:0,他引:1
不同语境的词语其倾向性有差异。针对此问题,研究了二义词倾向性识别,词语倾向性识别及评论倾向性分析。建立了结构模板集和核心词模板集,用模板匹配方法判断词语在特定句子中的倾向性。根据词语的倾向性并考虑副词和反问句对倾向性的影响,计算评论的倾向性。实验结果表明,可提高网络评论倾向性分析的准确率。 相似文献
3.
4.
研究网络在线评论的倾向性分类能够及时了解民众对当前事件、热点话题的态度和心理状态,从而为相关领域的决策提供依据。针对网络在线电影评论倾向性分类问题,提出了基于网络词语扩展及属性约简的解决算法,该算法利用相关度测量对垃圾评论进行剔除,针对网络语言自身特点对其属性进行扩展,使用词频和信息增益分两步进行特征选择,构建特征属性进行分类。实验结果表明,使用该算法后,分类准确率等各项指标得到了提高。 相似文献
5.
6.
针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。 相似文献
7.
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,有效提高聚类精度的同时降低聚类时间50%以上。 相似文献
8.
胡龙茂 《数字社区&智能家居》2014,(33):8076-8078
在线评论中特征抽取是产品意见挖掘的基础,直接影响到最终挖掘结果的准确性。针对现有特征抽取方法的准确率和召回率偏低问题,该文通过设计词性序列模板产生候选特征集,利用PMI-IR方法进行筛选,最终获得产品特征集。实验结果表明,该方法取得较好效果。 相似文献
9.
《计算机应用与软件》2016,(8)
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。 相似文献
10.
词汇情感倾向性(Word sentiment orientation, WSO)的鉴定通常是对文本进行粗粒度意见挖掘的基础.自由评论中存在许多语法噪声, 这使得以往基于规范文本提出的WSO鉴定方法不再适合自由评论. 自由评论中的情感词汇往往是上下文敏感的, 这使得非当前鉴定的情感词汇难以适用于当前自由评论的粗粒度意见挖掘. 针对上述问题,提出一种新的利用复杂网络为自由评论鉴定WSO的方法. 该方法主要有两个部分: 1)为了利用自由评论中词汇之间的上下文信息建模一个能够有效解决上下文敏感问题且具有良好抗噪声能力的情感倾向性关系网络(Sentiment orientation relationship network, SORN),提出了两个算法:金字塔抗噪声信息模型算法和利用抗噪声信息优化调整SORN的算法; 2)为了有效利用SORN为自由评论鉴定WSO,提出了基于SORN的WSO鉴定算法. 实验表明:对于在线为自由评论鉴定WSO,本文方法不仅在精确度方面远高于Hatzivassiloglou提出的方法,且具有良好的时间效率. 相似文献
11.
12.
13.
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。 相似文献
14.
15.
16.
17.
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 相似文献
18.
细粒度意见挖掘的主要目标是从观点文本中获取情感要素并判断情感倾向。现有方法大多基于序列标注模型,但很少利用情感词典资源。该文提出一种基于领域情感词典特征表示的细粒度意见挖掘方法,使用领域情感词典在观点文本上构建特征表示并将其加入序列标注模型的输入部分。首先构建一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,基于电商领域情感词典的特征表示方法在两种模型上都取得了良好的效果,并且超过其他情感词典。 相似文献
19.
基于词同现频率的文本特征描述 总被引:3,自引:2,他引:3
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 相似文献