首页 | 官方网站   微博 | 高级检索  
     

面向不平衡数据集分类模型的优化研究
作者单位:;1.东北林业大学信息与计算机工程学院;2.国家林业局哈尔滨林业机械研究所
摘    要:为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。

关 键 词:文本分类  不均衡数据集  数据挖掘  样本重采样  熵值法

Research on Optimization of Classification Model for Imbalanced Data Set
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号