基于Χ^2统计量的kNN文本分类算法期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于Χ^2统计量的kNN文本分类算法

引用本文：	印鉴,谭焕云.基于Χ^2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097.

作者姓名：	印鉴谭焕云

作者单位：	中山大学计算机科学系,广东广州510275

基金项目：	国家自然科学基金项目（60573097）资助;广东省自然科学基金项目（05200302、06104916）资助.国家科技计划项目（2004BA721A02）资助;广东省科技计划项目（2005810101032）资助,高等学校博士学科点专项科研基金项目（20050558017）资助

摘要：	随着Internet上文档信息的迅猛发展，文本分类成为处理和组织大量文档数据的关键技术．由于Χ^2统计量能很好地体现词和类别之闻的相关性，因此成为特征选择中常用的评估函数．本文分析了Χ^2统计量在特征选择和分类决策阶段的性质，提出了一种新的基于Χ^2统计量的相似度定义，并结合基于两次类别判定的快速搜索算法，改进了传统的kNN算法,实验结果显示基于Χ^2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间，并提高了kNN算法的准确率和召回率.
关键词：	文本分类特征选择 kNN Χ^2统计量
文章编号：	1000-1220（2007）06-1094-04
修稿时间：	2006-03-22
本文献已被维普等数据库收录！