首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法--GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.  相似文献   

2.
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(KNN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。  相似文献   

3.
针对不平衡数据中的分类问题,提出一种基于旋转森林的改进模型——旋转平衡森林(rotation balanced forest,ROBF).以集成思想为核心,从数据层和算法层相结合的角度出发,针对Safe-Level-Smote方法中存在的模糊类边界问题采取两点改进:安全等级再划分机制;引入约束度不同的控制因子,经改进后...  相似文献   

4.
5.
6.
基于改进SMOTE的非平衡数据集分类研究   总被引:1,自引:0,他引:1  
针对SMOTE(Synthetic Minority Over-sampling Technique)在合成少数类新样本时存在的不足,提出了一种改进的SMOTE算法(SSMOTE)。该算法的关键是将支持度概念和轮盘赌选择技术引入到SMOTE中,并充分利用了异类近邻的分布信息,实现了对少数类样本合成质量和数量的精细控制。将SSMOTE与KNN(K-Nearest Neighbor)算法结合来处理不平衡数据集的分类问题。通过在UCI数据集上与其他重要文献中的相关算法进行的大量对比实验表明,SSMOTE在新样本的整体合成效果上表现出色,有效提高了KNN在非平衡数据集上的分类性能。  相似文献   

7.
不平衡数据分析是智能制造的关键技术之一,其分类问题已成为机器学习和数据挖掘的研究热点。针对目前不平衡数据过采样策略中人工合成数据边缘化且需要降噪处理的问题,提出一种基于改进SMOTE(synthetic minority oversampling technique)和局部离群因子(local outlier factor,LOF)的过采样算法。首先对整个数据集进行[K]-means聚类,筛选出高可靠性样本进行改进SMOTE算法过采样,然后采用LOF算法删除误差大的人工合成样本。在4个UCI不平衡数据集上的实验结果表明,该方法对不平衡数据中少数类的分类能力更强,有效地克服了数据边缘化问题,将算法应用于磷酸生产中的不平衡数据,实现了该不平衡数据的准确分类。  相似文献   

8.
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。  相似文献   

9.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

10.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

11.
面向不均衡数据集的ISMOTE算法   总被引:1,自引:0,他引:1  
许丹丹  王勇  蔡立军 《计算机应用》2011,31(9):2399-2401
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。  相似文献   

12.
不平衡数据集的分类方法研究   总被引:2,自引:0,他引:2  
传统的分类算法在处理不平衡数据分类问题时会倾向于多数类,而导致少数类的分类精度较低。针对不平衡数据的分类,首先介绍了现有不平衡数据分类的性能评价;然后介绍了现有常用的基于数据采样的方法及现有的分类方法;最后介绍了基于数据采样和分类方法结合的综合方法。  相似文献   

13.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

14.
不平衡数据分类的研究现状*   总被引:9,自引:3,他引:6  
不平衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不平衡数据也成为目前的一个新的研究热点.综述了这一新领域的研究现状,包括该领域最新研究内容、方法及成果.  相似文献   

15.
非均衡数据的支持向量机新方法*   总被引:1,自引:0,他引:1  
为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对超平面进行调整。该方法可补偿非平衡数据分类的倾向性,提高预测分类精度。最后在非均衡的人工和真实数据集上的数值实验表明了该方法的可行性与有效性。  相似文献   

16.
通过剪枝技术与欠采样技术相结合来选择合适数据,以提高少数类分类精度,研究欠采样技术在不平衡数据集环境下的影响。结果表明,与直接欠采样算法相比,本文算法不仅在accuracy值上有所提高,更重要的是大大改善了g-means值,特别是对非平衡率较大的数据集效果会更好。  相似文献   

17.
18.
崔鑫  徐华  宿晨 《计算机应用》2020,40(6):1662-1667
合成少数类过抽样技术(SMOTE)中的噪声样本可能参与合成新样本,所以难以保证新样本的合理性。针对这个问题,结合聚类算法提出了改进算法CSMOTE。该算法抛弃了SMOTE在最近邻间线性插值的思想,使用少数类的簇心与其对应簇中的样本进行线性插值合成新样本,并且对参与合成的样本进行了筛选,降低了噪声样本参与合成的可能。在六个实际数据集上,将CSMOTE算法与四个SMOTE的改进算法以及两种欠抽样算法进行了多次的对比实验,CSMOTE算法在所有数据集上均获得了最高的AUC值。实验结果表明,CSMOTE算法具有更高的分类性能,可以有效解决数据集中样本分布不均衡的问题。  相似文献   

19.
现有分类算法对不平衡数据挖掘通常表现出有偏性,即正类样本(通常是更重要的一类)的分类和预测性能差于负类样本的分类和预测性能,为此提出一种不平衡数据的分类方法。该方法对不同类引入不同的惩罚参数来灵活控制两类错分率的上界,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能。实验结果表明,该方法可以有效提高不平衡数据的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号