首页 | 官方网站   微博 | 高级检索  
     

混合CHI与IG的特征选择方法研究
引用本文:唐康,汪海涛,姜瑛,陈星.混合CHI与IG的特征选择方法研究[J].信息技术,2019(2):53-57.
作者姓名:唐康  汪海涛  姜瑛  陈星
作者单位:1.昆明理工大学云南省计算机技术应用重点实验室
基金项目:国家自然科学基金资助项目(61462049)
摘    要:随着信息技术的飞速发展以及网民规模的扩大,互联网数据量与日俱增,其中含有大量非结构化文本数据,因此,文中分类已成为当前的研究热点。特征选择的好坏直接影响文本分类的精度。传统单一的特征选择方法侧重点不同,使用不同的特征选择方法选择后的特征子集可能差别较大,进而导致不稳定的分类结果。文中提出了一种混合CHI与IG的特征选择方法,引入了融合特征的指标SOM(Score of Mixed),将特征根据SOM值排序,通过预定的阈值进行特征筛选,得出相对稳定且具代表性的特征子集。实验结果表明,使用该方法进行特征选择,文本分类的效果相比使用其他特征选择方法有一定的提升。

关 键 词:特征选择  卡方统计  信息增益  混合方法

Research on feature selection method combined CHI and IG
TANG Kang,WANG Hai-tao,JIANG Ying,CHEN Xing.Research on feature selection method combined CHI and IG[J].Information Technology,2019(2):53-57.
Authors:TANG Kang  WANG Hai-tao  JIANG Ying  CHEN Xing
Affiliation:(Yunnan Key Laboratory of Computer Technology Applications,Kunming University of Science and Technology,Kunming 650500,China)
Abstract:TANG Kang;WANG Hai-tao;JIANG Ying;CHEN Xing(Yunnan Key Laboratory of Computer Technology Applications,Kunming University of Science and Technology,Kunming 650500,China)
Keywords:feature selection  Chi-square statistics  Information gain  Hybrid method
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号