首页 | 官方网站   微博 | 高级检索  
     

基于信息增益的特征词权重调整算法研究
引用本文:张玉芳,陈小莉,熊忠阳.基于信息增益的特征词权重调整算法研究[J].计算机工程与应用,2007,43(35):159-161.
作者姓名:张玉芳  陈小莉  熊忠阳
作者单位:重庆大学,计算机学院,重庆,400030
摘    要:传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。

关 键 词:信息增益  信息熵  词语分布比例  文本分类
文章编号:1002-8331(2007)35-0159-03
修稿时间:2007年6月1日

Improved approach to weighting terms using information gain
ZHANG Yu-fang,CHEN Xiao-li,XIONG Zhong-yang.Improved approach to weighting terms using information gain[J].Computer Engineering and Applications,2007,43(35):159-161.
Authors:ZHANG Yu-fang  CHEN Xiao-li  XIONG Zhong-yang
Affiliation:College of Computer,Chongqing University,Chongqing 400030,China
Abstract:This paper applies the information gain to remedy the defect of TFIDF neglecting the proportion of distribution of terms in categories of the text collection.The information gain of terms as one factor for term-weighting can effectively weight the proportion of distribution of terms.
Keywords:information gain  shannon entropy  distribution of terms  text classification
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号