首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
针对传统的过采样算法在增加样本的同时可能使决策域变小和噪声点增加的问题进行了研究,提出了一种基于错分的混合采样算法。该算法是以SVM为元分类器,Ada Boost算法进行迭代,对每次错分的样本点根据其空间近邻关系,采取一种改进的混合采样策略:对噪声样本直接删除;对危险样本约除其近邻中的正类样本;对安全样本则采用SMOTE算法合成新样本并加入到新的训练集中重新训练学习。在实际数据集上进行实验,并与SMOTE-SVM和Ada Boost-SVM-OBMS算法进行比较,实验结果表明该算法能够有效地提高负类的分类准确率。  相似文献   

2.
王莉  陈红梅 《计算机科学》2018,45(9):260-265
SMOTE(Synthetic Minority Over-sampling TEchnique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,然后在核空间上计算少数类样本在所有样本中的K个近邻,最后根据少数类样本的分布对算法分类性能的影响程度赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验采用决策树(Decision Tree,DT)、误差逆传播算法(error BackPropagation,BP)、随机森林(Random Forest,RF)作为分类算法,并将几类经典的过采样方法和文中提出的过采样方法进行多组对比实验。在UCI数据集上的实验结果表明,NKSMOTE算法具有更好的分类性能。  相似文献   

3.
针对传统采样方式准确率与鲁棒性不够明显,欠采样容易丢失重要的样本信息,而过采样容易引入冗杂信息等问题,以UCI公共数据集中的不平衡数据集Pima-Indians为例,综合考虑数据集正负类样本的类间距离、类内距离与不平衡度之间的关系,提出一种基于样本特性的新型过采样方式.首先对原始数据集进行距离带的划分,然后提出一种改进的基于样本特性的自适应变邻域Smote算法,在每个距离带的少数类样本中进行新样本的合成,并将此方式推广到UCI数据集中其他5种不平衡数据集.最后利用SVM分类器进行实验验证的结果表明:在6类不平衡数据集中,应用新型过采样SVM算法,相比已有的采样方式,少(多)数类样本的分类准确率均有明显提高,且算法具有更强的鲁棒性.  相似文献   

4.
非平衡数据处理中常采用的欠采样方法很少考虑支持向量机(SVM)的特性,并且在原始空间进行采样会导致多数类样本部分关键信息的丢失.针对上述问题,文中提出基于识别关键样本点的非平衡数据核SVM算法.基于初始超平面有效划分多数类样本,在高维空间中对每个分块进行核异类近邻抽样,得到多数类中的关键样本点,使用关键样本点和少数类样本训练最终核SVM分类器.在多个数据集上的实验证明文中算法的可行性和有效性,特别是在非平衡度高于10∶1的数据集上,文中算法优势明显.  相似文献   

5.
现实世界中存在着非平衡数据集,即数据集中的一类样本数量远大于另一类。而少数类样本的识别通常是人们首要关心的,将少数类样本误分为多数类要比将多数类样本误分为少数类付出更高的代价。传统的机器学习算法可能会产生偏向多数类的结果,因而对于少数类而言,预测的效果会很差。在对目前国内外非平衡数据集研究现状深入分析的基础上,针对非平衡数据集数据复杂度研究和失衡解决方法研究两个方向相对孤立及缺乏系统性的缺陷,提出了一种非平衡数据集整体解决框架,以满足日益迫切的应用需求。  相似文献   

6.
过采样和欠采样方法是处理非平衡数据集分类的常用方法,但使用单一的采样算法可能造成少数类样本过拟合或者丢失含有重要信息的样本。提出了基于分类超平面的混合采样算法SVM_HS(hybrid sampling algorithm based on support vector machine),旨在克服SVM算法在处理非平衡数据时分类超平面容易偏向少数类样本的问题。该算法首先利用SVM算法得到分类超平面。然后迭代进行混合采样,主要包括:(1)删除离分类超平面较远的一些多数类样本;(2)对靠近真实类边界的少数类样本用SMOTE(synthetic minority oversampling technique)过采样,使分类超平面向着真实类边界方向偏移。实验结果表明相比其他相关算法,该算法的F-value值和G-mean值均有较大提高。  相似文献   

7.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

8.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

9.
非平衡数据集的分类问题是机器学习领域的一个研究热点。针对非平衡数据集分类困难的问题,特别是由于非平衡分布引起的少数类识别能力低下的问题,提出了一种改进算法,AdaBoost-SVM-OBMS。该算法结合Boosting算法和基于错分样本产生新样本的过抽样技术。在新算法中,以支持向量机为元分类器,每次Boosting迭代中标记出错分的样本点,然后在错分样本点与其近邻间随机产生一定数量与错分样本同一类别的新样本点。新产生样本点加入原训练集中重新训练学习,以提高分类困难样本的识别能力。在AUC,F-value和G-mean 3个不同价格的评价指标下8个benchmark数据集上对AdaBoost-SVM-OBMS算法与AdaBoost-SVM算法和APLSC算法进行了对比实验,实验结果表明了AdaBoost-SVM-OBMS算法在非平衡数据集分类中的有效性。  相似文献   

10.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

11.
何吟  程建 《计算机应用》2013,33(8):2351-2354
当前极化合成孔径雷达(SAR)图像的分类研究中,极化信息的不完全利用是影响极化SAR图像分类效果的重要原因之一。故将商空间粒度合成理论引入到极化SAR图像分类中,通过建立不同的支持向量机(SVM)分类器构建不同的商空间,从多个粒度层面实现对极化信息的综合利用。首先通过不同的极化分解方法得到不同的极化特征,分别对其建立不同的支持向量机分类器进行分类;再根据粒度合成理论对这些商空间进行融合,得到更细粒度上的改进的分类结果。最后,利用AIRSAR图像进行实验比较,算法改进后的结果在地物误分上有明显的抑制,各类别分类正确率都有所提高。  相似文献   

12.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

13.
基于商空间粒度理论的大规模SVM分类算法   总被引:4,自引:1,他引:3  
利用商空间粒度理论对已有的SVM分类算法进行改进,给出了一种新的SVM分类算法——SVMG。该算法将SVM分类问题划分成两个或多个子问题,从而降低了SVM分类复杂度。实验表明,改进的算法适用于处理大数据量的样本,能在保持分类精度的情况下有效地提高支持向量机的学习和分类速度。  相似文献   

14.
分析了利用支持向量回归求解多分类问题的思想,提出了一种基于局部密度比权重设置模型的加权最小二乘支持向量回归模型来单步求解多分类问题:该方法先分别对类样本中每类样本利用局部密度比权重设置模型求出每个样本的权重隶属因子,然后运用加权最小二乘支持向量回归算法对所有样本进行训练,获得回归分类器。为验证算法的有效性,对UCI三个标准数据集以及一个随机生成的数据集进行实验,对比了多种单步求解多分类问题的算法,结果表明,提出的模型分类精度高,具有良好的鲁棒性和泛化性能。  相似文献   

15.
提出了一种新的多类支持向量机算法OC-K-SVM.对k类分类问题,该方法构造了k个分类器,每一个分类器只对一类样本进行训练.使用Benchmark的数据集进行了初步的实验,实验结果验证了算法的有效性.  相似文献   

16.
局部关注支持向量机算法   总被引:1,自引:0,他引:1  
针对训练数据集的不均衡性这一问题,结合采样方法和集成方法,提出一种集成支持向量机分类算法。该算法首先对不均衡的训练集进行非监督聚类;然后依靠其底层的局部关注支持向量机进行数据集局部划分,以精确把控数据集间的局部特征;最后通过顶层支持向量机进行分类预测。在UCI数据集上的评测结果显示,该算法与当前流行的算法(如基于采样的核化少数类过采样技术(K-SMOTE)、基于集成的梯度提升决策树(GTB)和代价敏感集成算法(AdaCost)等)相比,分类效果有明显提升,能在一定程度上解决数据集的不均衡问题。  相似文献   

17.
基于商空间粒度的覆盖聚类算法   总被引:1,自引:0,他引:1  
介绍了覆盖算法的基本思想,给出了商空间粒度的基本原理,提出了基于商空间粒度的覆盖聚类算法.通过实验验证了该算法的有效性和可行性,它适合处理大规模的数据样本.  相似文献   

18.
面对海量数据的特征空间高维性及训练样本的有限性,高光谱遥感影像若采用常规统计模式的分类方法难以获得较好的分类结果。因此探讨支持向量机(SVM)分类器的基本原理,针对EO-1Hyperion高光谱影像的分类特点及现有多类SVM算法所存在的训练时间长及分类精度低等问题,引入二叉决策树SVM(BDT-SVM)分类算法,并提出一种新的类间分离度定义方法及相应的客观确定二叉树结构的策略,由此生成改进的BDT-SVM算法。实验结果表明:与其他多类分类方法相比,基于改进的BDT-SVM算法的高光谱影像地物分类效果更好,总体精度达到90.96%,Kappa系数为0.89,该算法还解决了经典SVM多类分类可能存在的不可分区域问题。  相似文献   

19.
一种新的SVM对等增量学习算法   总被引:11,自引:0,他引:11  
在分析支持向量机(SVM)寻优问题的KKT条件和样本分布之间关系的基础上,分析了新增样本的加入对SV集的影响,定义了广义KKT条件。基于原训练样本集和新增训练样本集在增量训练中地位等同,提出了一种新的SVM增量学习算法。算法在及时淘汰对后继分类影响不大的样本的同时保留了含有重要分类信息的样本。对标准数据集的实验结果表明,算法获得了较好的性能。  相似文献   

20.
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法--GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号