首页 | 官方网站   微博 | 高级检索  
     

基于RSBoost算法的不平衡数据分类方法
引用本文:李克文,杨磊,刘文英,刘璐,刘洪太.基于RSBoost算法的不平衡数据分类方法[J].计算机科学,2015,42(9):249-252, 267.
作者姓名:李克文  杨磊  刘文英  刘璐  刘洪太
作者单位:中国石油大学华东计算机与通信工程学院 青岛266580,中国石油大学华东计算机与通信工程学院 青岛266580,中国石油大学华东计算机与通信工程学院 青岛266580,中国石油大学华东计算机与通信工程学院 青岛266580,中国石油大学华东计算机与通信工程学院 青岛266580
基金项目:本文受山东省自然科学基金(ZR2013FL034)资助
摘    要:不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。

关 键 词:不平衡数据  组合数据采样  Boosting  RSBoost

Classification Method of Imbalanced Data Based on RSBoost
LI Ke-wen,YANG Lei,LIU Wen-ying,LIU Lu and LIU Hong-tai.Classification Method of Imbalanced Data Based on RSBoost[J].Computer Science,2015,42(9):249-252, 267.
Authors:LI Ke-wen  YANG Lei  LIU Wen-ying  LIU Lu and LIU Hong-tai
Affiliation:College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China,College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China,College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China,College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China and College of Computer and Communication Engineering,China University of Petroleum,Qingdao 266580,China
Abstract:The problem of class imbalance which is very common to many application domains becomes the research hotspot in data mining and machine learning.We presented a new classification method of imbalance data,called RSBoost,to increase the recognition rate of minority class and the classification efficiency.This approach uses SMOTE(synthetic minority over-sampling technique) and random under-sampling to balance the data sets,and then uses boosting method to optimize the classification performance.We conducted experiments using several public data sets to eva-luate the performances of RSBoost and other four methods.The experimental results show that the approach proposed in this article can improve the classification performance and efficiency of imbalance data sets.
Keywords:Imbalanced data  Mixed data sampling  Boosting  RSBoost
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机科学》浏览原始摘要信息
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号