首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
杨锋  彭勤科  徐涛 《自动化学报》2010,36(6):837-844
提出了一种基于随机网络的在线评论情绪倾向性分类模型SCP-X (Shortest covering path-X). 首先引入了一种增量式创建词语顺序共现随机网络的方法, 并基于此随机网络以及情绪词表, 提出了一种基于评论序列最短覆盖路径(Shortest covering path, SCP)的情绪倾向性分类方法. 该方法具有以下两个优点: 1)能够对相对短小、随意性 较强、完整性较差的评论文本展开词语联想, 从而对完整性较差的评论数据进行属性值扩展; 2) 能够对评论文本的冗余属性进行约简, 约简后数据的属性规模为一般VSM模型 的10%左右. 本文最后设计了一组实验, 对以下算法进行了对比测试: TC, SVM, SCP-TC, SCP-SVM, SCP-HMM, SCP-Bayes. 结果表明本文提出的SCP-X方法对在线评论文本的倾向性分类效果更佳.  相似文献   

2.
基于模板匹配的网络评论倾向性分析   总被引:1,自引:0,他引:1  
不同语境的词语其倾向性有差异。针对此问题,研究了二义词倾向性识别,词语倾向性识别及评论倾向性分析。建立了结构模板集和核心词模板集,用模板匹配方法判断词语在特定句子中的倾向性。根据词语的倾向性并考虑副词和反问句对倾向性的影响,计算评论的倾向性。实验结果表明,可提高网络评论倾向性分析的准确率。  相似文献   

3.
网络评论倾向性分析   总被引:3,自引:0,他引:3  
丁建立  慈祥  黄剑雄 《计算机应用》2010,30(11):2937-2940
Web2.0的兴起使得包括新闻评论、产品评论在内的各种网络评论大量涌现,针对评论信息的监管和利用中的问题多种多样,重点研究其中的网络评论倾向性分析。以知网为基本的语义字典,提出一种改进的词汇相似度计算方法,在此基础上融合同义词词林对词汇的倾向性计算做出改进,进而利用相关语言学知识实现了从细粒度的词汇到粗粒度的评论的倾向性判断。实验表明,该方法对于真实网络环境下的网络评论倾向性分析具有较高的准确率。  相似文献   

4.
研究网络在线评论的倾向性分类能够及时了解民众对当前事件、热点话题的态度和心理状态,从而为相关领域的决策提供依据。针对网络在线电影评论倾向性分类问题,提出了基于网络词语扩展及属性约简的解决算法,该算法利用相关度测量对垃圾评论进行剔除,针对网络语言自身特点对其属性进行扩展,使用词频和信息增益分两步进行特征选择,构建特征属性进行分类。实验结果表明,使用该算法后,分类准确率等各项指标得到了提高。  相似文献   

5.
把计算生物学中DNA序列分析的一种方法应用到文本分类中,通过分析文档集所产生的可描述类别内在特征的特征序列,给出了一种文本分类方法SSAM,并在Reuters21578数据集上和其它几种常见分类方法的分类效果进行了比较,实验结果显示SSAM的分类效果优于传统的贝叶斯方法,而且具有较快的分类速度。  相似文献   

6.
由Logistic回归识别Web社区的垃圾评论   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Web社区垃圾信息泛滥的问题,采用基于Logistic回归(LR)的分类器区分合法评论和垃圾评论,并和支持向量机(SVM)的性能对比。提出了相关度向量空间模型cVSM作为评论的文档表示模型,讨论了信息增益IG、互信息MI、χ2统计CHI、文档频率DF等不同特征抽取方法对模型的影响。实验结果表明,LR的训练时间不到SVM的1/10;DF和IG比MI和CHI表现更好;与传统的向量空间模型相比,使用cVSM显著提高垃圾评论识别能力。  相似文献   

7.
针对符号序列聚类中表示模型及序列间距离度量定义的困难问题,提出一种基于概率向量的表示模型及基于该模型的符号序列聚类算法。该模型引入符号序列的概率分布表示法,定义了一种基于概率分布差异的符号序列距离度量及该模型的目标函数,最后给出了一种符号序列K-均值型聚类算法,并在来自不同领域的实际应用序列集上进行了实验验证。实验结果表明,与基于子序列表示模型的符号序列聚类算法相比,所提方法在DNA序列和语音序列等具有较多符号的实际数据上,有效提高聚类精度的同时降低聚类时间50%以上。  相似文献   

8.
在线评论中特征抽取是产品意见挖掘的基础,直接影响到最终挖掘结果的准确性。针对现有特征抽取方法的准确率和召回率偏低问题,该文通过设计词性序列模板产生候选特征集,利用PMI-IR方法进行筛选,最终获得产品特征集。实验结果表明,该方法取得较好效果。  相似文献   

9.
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。  相似文献   

10.
词汇情感倾向性(Word sentiment orientation, WSO)的鉴定通常是对文本进行粗粒度意见挖掘的基础.自由评论中存在许多语法噪声, 这使得以往基于规范文本提出的WSO鉴定方法不再适合自由评论. 自由评论中的情感词汇往往是上下文敏感的, 这使得非当前鉴定的情感词汇难以适用于当前自由评论的粗粒度意见挖掘. 针对上述问题,提出一种新的利用复杂网络为自由评论鉴定WSO的方法. 该方法主要有两个部分: 1)为了利用自由评论中词汇之间的上下文信息建模一个能够有效解决上下文敏感问题且具有良好抗噪声能力的情感倾向性关系网络(Sentiment orientation relationship network, SORN),提出了两个算法:金字塔抗噪声信息模型算法和利用抗噪声信息优化调整SORN的算法; 2)为了有效利用SORN为自由评论鉴定WSO,提出了基于SORN的WSO鉴定算法. 实验表明:对于在线为自由评论鉴定WSO,本文方法不仅在精确度方面远高于Hatzivassiloglou提出的方法,且具有良好的时间效率.  相似文献   

11.
基于类别特征向量表示的中文文本分类算法   总被引:1,自引:0,他引:1  
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法.通过实验结果及理论分析,验证了该算法的有效性.  相似文献   

12.
文本分类特征权重改进算法   总被引:4,自引:2,他引:4       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

13.
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。  相似文献   

14.
文本分类特征权重改进算法   总被引:1,自引:2,他引:1       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199,
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

15.
通过基于概念的聚类方法,对博客作者的情感极性进行分析。在知网情感词汇库的基础上,将概念引入向量空间模型。首先,提取博客文本情感词,利用基于情感词概念的向量空间模型完成对博客文本的表示。然后,使用k-means算法对博客文本进行聚类,完成对博客情感极性的分析。在向量空间模型中使用概念作为特征项,提高了对博客作者情感极性分析的精度。实验证明基于概念的向量空间模型比传统基于词语的向量空间模型在博客文本情感聚类上具有更好的性能。  相似文献   

16.
基于Log似然比的特征选择算法   总被引:2,自引:2,他引:0       下载免费PDF全文
林森  唐发根 《计算机工程》2009,35(19):56-58,6
针对基于向量空间模型文本分类系统中特征选择算法存在的问题,提出一种基于Log似然比的特征选择算法,引进Log似然比统计量,在考虑稀有事件对分类结果产生正面影响的同时,较好地控制其对分类产生的负面影响。采用KNN分类方法,将Log似然比特征选择算法与典型特征算法进行比较,实验结果表明,该算法能够获得良好的性能。  相似文献   

17.
基于句类向量空间模型的自动文本分类研究   总被引:2,自引:0,他引:2       下载免费PDF全文
张运良  张全 《计算机工程》2007,33(22):45-47
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。  相似文献   

18.
细粒度意见挖掘的主要目标是从观点文本中获取情感要素并判断情感倾向。现有方法大多基于序列标注模型,但很少利用情感词典资源。该文提出一种基于领域情感词典特征表示的细粒度意见挖掘方法,使用领域情感词典在观点文本上构建特征表示并将其加入序列标注模型的输入部分。首先构建一份新的电商领域情感词典,然后在电商评论文本真实数据上,分别为条件随机场(CRF)和双向长短期记忆-条件随机场(BiLSTM-CRF)这两种常用序列标注模型设计基于领域情感词典的特征表示。实验结果表明,基于电商领域情感词典的特征表示方法在两种模型上都取得了良好的效果,并且超过其他情感词典。  相似文献   

19.
基于词同现频率的文本特征描述   总被引:3,自引:2,他引:3  
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号