首页 | 官方网站   微博 | 高级检索  
     

新型快速中文文本分类器的设计与实现
引用本文:陈艳秋,熊耀华. 新型快速中文文本分类器的设计与实现[J]. 计算机工程与应用, 2009, 45(22): 53-55. DOI: 10.3778/j.issn.1002-8331.2009.22.018
作者姓名:陈艳秋  熊耀华
作者单位:东北大学东软信息技术学院计算机科学与技术系,辽宁大连,100623;东北大学东软信息技术学院计算机科学与技术系,辽宁大连,100623
摘    要:为了提高中文文本分类的效率与精度,设计了一种新型的分类器。该分类器采用基于词频、互信息和类别信息的综合评估函数进行选择特征;在特征权重计算上,由于传统TF-IDF方法没有考虑特征类间和类内分布,提出了一种将词频和综合评估函数值相结合的权重计算方法;最后设计了一种基于贝叶斯原理的快速分类器。实验证明该分类器简单有效。

关 键 词:中文文本分类  特征选择  特征权重  分类算法
收稿时间:2008-06-18
修稿时间:2008-9-18 

Design and implementation of new Chinese text classier
CHEN Yan-qiu,XIONG Yao-hua. Design and implementation of new Chinese text classier[J]. Computer Engineering and Applications, 2009, 45(22): 53-55. DOI: 10.3778/j.issn.1002-8331.2009.22.018
Authors:CHEN Yan-qiu  XIONG Yao-hua
Affiliation:Department of Computer Science,Neusoft Institute of Information,Dalian,Liaoning 100623,China
Abstract:For improving the efficiency and accuracy of Chinese text categorization,this paper presents a new Chinese text classier,in which a novel feature selection is proposed according to word frequency,mutual information and classificatory information,and after analyzing the hypostasis of the traditional TF-IDF,a weight adjustment method is put forward in which the IDF function is replaced by function used in feature selection.Finally a fast Bayes theory classier is designed.Experiments prove this classier is sim...
Keywords:Chinese text categorization  feature selection  feature weighting  classification algorithm
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号