首页 | 官方网站   微博 | 高级检索  
     

基于语义准则函数的中文评论性文本极性聚类算法研究
引用本文:徐斌,张玉峰.基于语义准则函数的中文评论性文本极性聚类算法研究[J].情报学报,2011,30(5).
作者姓名:徐斌  张玉峰
作者单位:1. 武汉大学信息资源研究中心,武汉430072;咸宁学院计算机学院,咸宁437005
2. 武汉大学信息资源研究中心,武汉,430072
基金项目:教育部人文社会科学重点研究基地重大项目“基于智能信息处理的知识挖掘技术及应用研究”(项目编号:08JJD870225)的研究成果之一; 国家自然科学基金项目“企业竞争情报智能分析模型与方法研究”(项目编辑:71073121)
摘    要:通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。

关 键 词:准则函数  极性词语义词典  文本聚类  评论  算法  

Research on Clustering Algorithm for the Chinese Comment Text Polarity Based on Semantic Criterion Function
Xu Bin,Zhang Yufeng.Research on Clustering Algorithm for the Chinese Comment Text Polarity Based on Semantic Criterion Function[J].Journal of the China Society for Scientific andTechnical Information,2011,30(5).
Authors:Xu Bin  Zhang Yufeng
Affiliation:Xu Bin~(1,2)and Zhang Yufeng~1 (1.Center for Studies of Information Resources of Wuhan University,Wuhan 430072,2.Computer School of Xianning university,Xianning 437005)
Abstract:Usually used in critical text mining method is used to adopt supervised learning algorithms,but supervised learning algorithms require significant manual labor marked the training set,and its processing in the text set will face dimension disaster and sparse vector space complexity,high precision and low recall problems and cannot be used for mass text polarity classification task.The classic K-means clustering algorithm is used in the cluster analysis algorithm is one of the most widely,it has many excelle...
Keywords:criterion function  dictionary of polarity words  text clustering  comment  algorithm  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号