首页 | 官方网站   微博 | 高级检索  
     

基于词频分布信息的优化IG特征选择方法
引用本文:刘海峰,刘守生,宋阿羚.基于词频分布信息的优化IG特征选择方法[J].计算机工程与应用,2017,53(4):113-117.
作者姓名:刘海峰  刘守生  宋阿羚
作者单位:解放军理工大学 理学院,南京 210007
摘    要:文本特征选择是文本分类的核心技术。针对信息增益模型的不足之处,以特征项的频数在文本中不同层面的分布为依据,分别从特征项基于文本的类内分布、基于词频的类内分布以及词频的类间分布等角度对IG模型逐步进行改进,提出了一种基于词频分布信息的优化IG特征选择方法。随后的文本分类实验验证了提出的优化IG模型的有效性。

关 键 词:信息增益  特征选择  类内分布  类间分布  文本分类  

Improved method of IG feature selection based on word frequency distribution
LIU Haifeng,LIU Shousheng,SONG Aling.Improved method of IG feature selection based on word frequency distribution[J].Computer Engineering and Applications,2017,53(4):113-117.
Authors:LIU Haifeng  LIU Shousheng  SONG Aling
Affiliation:Institute of Sciences, PLA University of Science and Technology, Nanjing 210007, China
Abstract:Text feature selection is the core technology of text classification. Based on the deficiency of information gain model, the IG model has been improved step by step according to the feature items distribution within the class and between the classes. A kind of optimazation of IG feature selection method based on word frequency division information is presented. The text categorization test verifies the effectiveness of the proposed optimization IG model.
Keywords:information gain  feature selection  distribution within class  distribution between class  text categorization  
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号