基于Χ^2统计量的kNN文本分类算法 |
| |
引用本文: | 印鉴,谭焕云.基于Χ^2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. |
| |
作者姓名: | 印鉴 谭焕云 |
| |
作者单位: | 中山大学计算机科学系,广东广州510275 |
| |
基金项目: | 国家自然科学基金项目(60573097)资助;广东省自然科学基金项目(05200302、06104916)资助.国家科技计划项目(2004BA721A02)资助;广东省科技计划项目(2005810101032)资助,高等学校博士学科点专项科研基金项目(20050558017)资助 |
| |
摘 要: | 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于Χ^2统计量能很好地体现词和类别之闻的相关性,因此成为特征选择中常用的评估函数.本文分析了Χ^2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于Χ^2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法,实验结果显示基于Χ^2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
|
关 键 词: | 文本分类 特征选择 kNN Χ^2统计量 |
文章编号: | 1000-1220(2007)06-1094-04 |
修稿时间: | 2006-03-22 |
本文献已被 维普 等数据库收录! |
|