基于信息熵理论的特征权重算法研究 |
| |
引用本文: | 郭红钰.基于信息熵理论的特征权重算法研究[J].计算机工程与应用,2013(10). |
| |
作者姓名: | 郭红钰 |
| |
作者单位: | 华北计算技术研究所,北京 100083 |
| |
摘 要: | 文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用.针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF).ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度.实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究.实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果.
|
关 键 词: | 信息熵 特征权重 特征选择 文本分类 |
Research on term weighting algorithm based on information entropy theory |
| |
Abstract: | |
| |
Keywords: | information entropy term weighting feature selection text categorization |
本文献已被 万方数据 等数据库收录! |
|