首页 | 官方网站   微博 | 高级检索  
     

基于Χ^2统计量的kNN文本分类算法
引用本文:印鉴,谭焕云.基于Χ^2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097.
作者姓名:印鉴  谭焕云
作者单位:中山大学计算机科学系,广东广州510275
基金项目:国家自然科学基金项目(60573097)资助;广东省自然科学基金项目(05200302、06104916)资助.国家科技计划项目(2004BA721A02)资助;广东省科技计划项目(2005810101032)资助,高等学校博士学科点专项科研基金项目(20050558017)资助
摘    要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于Χ^2统计量能很好地体现词和类别之闻的相关性,因此成为特征选择中常用的评估函数.本文分析了Χ^2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于Χ^2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法,实验结果显示基于Χ^2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.

关 键 词:文本分类  特征选择  kNN  Χ^2统计量
文章编号:1000-1220(2007)06-1094-04
修稿时间:2006-03-22
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号