首页 | 官方网站   微博 | 高级检索  
     

文本分类中特征选择的约束研究
引用本文:徐燕,李锦涛,王斌,孙春明,张森.文本分类中特征选择的约束研究[J].计算机研究与发展,2008,45(4):596-602.
作者姓名:徐燕  李锦涛  王斌  孙春明  张森
作者单位:1. 中国科学院计算技术研究所,北京,100080;华北电力大学计算机系,北京,102206
2. 中国科学院计算技术研究所,北京,100080
基金项目:国家自然科学基金 , 北京市自然科学基金
摘    要:特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的.

关 键 词:特征选择  文本分类  信息检索  信息增益  互信息
修稿时间:2006年6月16日

A Study on Constraints for Feature Selection in Text Categorization
Xu Yan,Li Jintao,Wang Bin,Sun Chunming,Zhang Sen.A Study on Constraints for Feature Selection in Text Categorization[J].Journal of Computer Research and Development,2008,45(4):596-602.
Authors:Xu Yan  Li Jintao  Wang Bin  Sun Chunming  Zhang Sen
Affiliation:Xu Yan1,2,Li Jintao1,Wang Bin1,Sun Chunming1,, Zhang Sen1 1(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100080) 2(Department of Computer Science,North China Electric Power University,Beijing 102206)
Abstract:Text categorization(TC) is the process of grouping texts into one or more predefined categories based on their content.Due to the increased availability of documents in digital form and the rapid growth of online information,TC has become a key technique for handling and organizing text data.One of the most important issues in TC is feature selection(FS).Many FS methods have been put forward and widely used in the TC field,such as information gain(IG),document frequency thresholding(DF) and mutual informati...
Keywords:feature selection  text categorization  information retrieval  information gain  mutual information  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号