首页 | 官方网站   微博 | 高级检索  
     

可分性判据在中文网页分类中的应用
引用本文:秦兵,郑实福,刘挺,张刚,李生.可分性判据在中文网页分类中的应用[J].微处理机,2002(1):26-28.
作者姓名:秦兵  郑实福  刘挺  张刚  李生
作者单位:哈尔滨工业大学信息检索组,哈尔滨,150001
摘    要:提出了一种改进的基于统计的中文网页的分类算法。通过对传统的基于计算相似度文本分类方法和基于贝叶斯模型文本分类算法的研究,我们对贝叶斯模型分类算法进行了改进,提出了利用一种基于概率分布的可分性判据分类方法,即用类别密度函数似然比来增加特征词的可分性信息的算法。通过对计算相似度方法,贝叶斯方法及改进的贝叶斯方法的对比实验表明,改进算法可以使类与类的间隔最大化,因而具有较高的分类精确率和召回率。

关 键 词:可分性判据  贝叶斯方法  文本概率模型  中文网页分类  计算机网络
修稿时间:2001年8月15日

A Separable Criterion Applying in Chinese Web Page Classification
Qin Bing,et al.A Separable Criterion Applying in Chinese Web Page Classification[J].Microprocessors,2002(1):26-28.
Authors:Qin Bing  
Abstract:This paper presents a modified statistic Chinese web page classification algorithm.Similarity based method and Bayes model based method are the popular approaches for text classification.In this paper, we modified Bayes model method,then uses the probability likelihood ratio of each class to increase the separability of feature words vectors.In the following method:Similarity based method,Bayes model based method,modified Bayes model based method.The experiment shows that among these methods,the modified algorithm not only presents the maximum distance between classes,but also improves precision and recall.
Keywords:separable criterion  Bayes model  text probability model  web page classification  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号