首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
一种面向不平衡数据的结构化SVM集成分类器   总被引:1,自引:0,他引:1  
为改进面向不平衡数据的SVM分类器性能,以结构化SVM为基础,提出一种基于代价敏感的结构化支持向量机集成分类器模型.该模型首先通过训练样本的聚类,得到隐含在数据中的结构信息,并对样本进行初始加权.运用AdaBoost策略对各样本的权重进行动态调整,适当增大少数类样本的权重,使小类中误分的样本代价增大,以此来改进不平衡数据的分类性能.实验结果表明,该算法可有效提高不平衡数据的分类性能.  相似文献   

2.
图像型火灾探测实际上是不平衡数据的二分类问题,现有方法在处理不平衡数据分类问题时常常会引入新的噪声点或丢掉很重要的信息,算法稳定性较差。根据Adaboost对样本分配不同权重的优势,和SVM在平衡数据条件下较好的分类性能,将Adaboost算法和支持向量机(SVM)相结合,提出Adaboost-SVM算法。把火焰疑似区域的特征值作为SVM分类器的输入参数,利用Adaboost算法重点标记错分样本,并对样本的权重设定阈值,采用一定的准则对少数样本进行再构造使正负样本达到平衡。最后在训练数据的同时,通过投票机制输出最终分类结果。实验结果表明,该算法提高了火灾在正负样本分布不平衡时的分类性能。  相似文献   

3.
针对支持向量机分类器的行人检测方法采用欠采样方法,存在正负行人比例不平衡造成的准确率不高问题,结合欠采样和EasyEnsemble方法,提出一种聚合支持向量机(Ensemble SVM)分类器的行人检测方法。随机选择负样本作为初始训练样本,并将其划分为与正样本集均衡的多个子负样本集,构建平衡子训练集,线性组合成EasyEnsemble SVM分类器;利用该分类器对负样本进行分类判断,将误判样本作为难例样本,重新划分构建新的平衡子训练集,训练子分类器,结合EasyEnsemble SVM分类器,得到Ensemble SVM分类器行人检测方法。在INRIA行人数据集上的实验表明,该方法在检测速度和检测率上都优于经典的SVM行人检测算法。  相似文献   

4.
在分析了传统支持向量机(SVM)对不平衡数据的学习缺陷后,提出了一种改进SVM算法,采用自适应合成(ADASYN)采样技术对数据集进行部分重采样,增加少类样本的数量;对不同的样本点分配不同的权重,减弱噪声对训练结果的影响;使用基于代价敏感的SVM算法训练,缓解不平衡数据对超平面造成的偏移.选择UCI数据库中的6组不平衡数据集进行测试,实验结果表明:在各个数据集上改进SVM算法的性能优于其他算法,并在少类准确率和多类准确率上取得了很好的平衡.  相似文献   

5.
处理不平衡数据分类时,传统支持向量机技术(SVM)对少数类样本识别率较低。鉴于SVM+技术能利用样本间隐藏信息的启发,提出了多任务学习的不平衡SVM+算法(MTL-IC-SVM+)。MTL-IC-SVM+基于SVM+将不平衡数据的分类表示为一个多任务的学习问题,并从纠正分类面的偏移出发,分别赋予多数类和少数类样本不同的错分惩罚因子,且设置少数类样本到分类面的距离大于多数类样本到分类面的距离。UCI数据集上的实验结果表明,MTL-IC-SVM+在不平衡数据分类问题上具有较高的分类精度。  相似文献   

6.
为了提高大规模高维度数据的训练速度和分类精度,提出了一种基于局部敏感哈希的SVM快速增量学习方法。算法首先利用局部敏感哈希能快速查找相似数据的特性,在SVM算法的基础上筛选出增量中可能成为SV的样本,然后将这些样本与已有SV一起作为后续训练的基础。使用多个数据集对该算法进行了验证。实验表明,在大规模增量数据样本中,提出的SVM快速增量学习算法能有效地提高训练学习的速度,并能保持有效的准确率。  相似文献   

7.
针对SVM在处理具有样本集规模大的ECT系统数据时,存在ECT图像重建的成像精度不高和速度慢的问题,采用了选择分块支持向量机CSSVM算法。将ECT系统样本数据构成列数固定的样本矩阵,每个样本作为样本矩阵的行,66个电容值和66个敏感度值作为矩阵的列。该算法将大样本矩阵按照某一成像单元进行选择性分块,并形成多个小样本矩阵,再分别采用SVM算法进行训练和预测,将各个成像单元组合成像。数值实验证明,使用CSSVM新算法比单独使用SVM算法重建图像具有更高的分类准确率和更短的成像时间。  相似文献   

8.
杨婷  孟相如  温祥西  伍文 《计算机应用》2013,33(9):2553-2556
针对支持向量机(SVM)训练不平衡样本数据产生最优分类面的偏移会降低分类模型泛化性的问题,提出一种基于Fisher类内散度平均分布比的分类面修正方法。对样本数据进行SVM训练后获得分类面的法向量;通过计算两类样本在该法向量方向上的Fisher类内散度来评价这两类样本的分布情况;依据类内散度综合考虑样本个数所得到的平均分布比重新修正最优分类面的位置。在benchmarks数据集上的实验结果说明该方法能够提高SVM分类模型在处理不均衡数据集时对于少数类的识别率,从而有助于提高模型的泛化性。  相似文献   

9.
鲁淑霞  张振莲 《计算机科学》2021,48(11):184-191
为了解决非平衡数据分类问题,提出了一种基于最优间隔的AdaBoostv算法.该算法采用改进的SVM作为基分类器,在SVM的优化模型中引入间隔均值项,并根据数据非平衡比对间隔均值项和损失函数项进行加权;采用带有方差减小的随机梯度方法(Stochastic Variance Reduced Gradient,SVRG)对优化模型进行求解,以加快收敛速度.所提基于最优间隔的AdaBoostv算法在样本权重更新公式中引入了一种新的自适应代价敏感函数,赋予少数类样本、误分类的少数类样本以及靠近决策边界的少数类样本更高的代价值;另外,通过结合新的权重公式以及引入给定精度参数v下的最优间隔的估计值,推导出新的基分类器权重策略,进一步提高了算法的分类精度.对比实验表明,在线性和非线性情况下,所提基于最优间隔的Ada-Boostv算法在非平衡数据集上的分类精度优于其他算法,且能获得更大的最小间隔.  相似文献   

10.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

11.
In this paper, a new weighted approach on Lagrangian support vector machine for imbalanced data classification problem is proposed. The weight parameters are embedded in the Lagrangian SVM formulation. The training method for weighted Lagrangian SVM is presented and its convergence is proven. The weighted Lagrangian SVM classifier is tested and compared with some other SVMs using synthetic and real data to show its effectiveness and feasibility.  相似文献   

12.
基于样本投影分布的平衡不平衡数据集分类*   总被引:2,自引:0,他引:2  
提出一种平衡不平衡数据集统一分类方法,首先得到训练样本基于支持向量机(SVM)超平面法线方向上的投影;再借助支持向量数据描述(SVDD)对训练样本投影分布进行描述;测试样本在此基础上实现分类。平衡或不平衡数据集都可采用相同的方法进行分类。实验表明该方法能够同时对平衡或不平衡数据集进行有效的分类。  相似文献   

13.
SVM在处理不平衡数据分类问题(class imbalance problem)时,其分类结果常倾向于多数类。为此,综合考虑类间不平衡和类内不平衡,提出一种基于聚类权重的分阶段支持向量机(WSVM)。预处理时,采用K均值算法得到多数类中各样本的权重。分类时,第一阶段根据权重选出多数类内各簇边界区域的与少数类数目相等的样本;第二阶段对选取的样本和少数类样本进行初始分类;第三阶段用多数类中未选取的样本对初始分类器进行优化调整,当满足停止条件时,得到最终分类器。通过对UCI数据集的大量实验表明,WSVM在少数类样本的识别率和分类器的整体性能上都优于传统分类算法。  相似文献   

14.
针对数据不平衡带来的少数类样本识别率低的问题,提出通过加权策略对过采样和随机森林进行改进的算法,从数据预处理和算法两个方面降低数据不平衡对分类器的影响。数据预处理阶段应用合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)降低数据不平衡度,每个少数类样本根据其相对于剩余样本的欧氏距离分配权重,使每个样本合成不同数量的新样本。算法改进阶段利用Kappa系数评价随机森林中决策树训练后的分类效果,并赋予每棵树相应的权重,使分类能力更好的树在投票阶段有更大的投票权,提高随机森林算法对不平衡数据的整体分类性能。在KEEL数据集上的实验表明,与未改进算法相比,改进后的算法对少数类样本分类准确率和整体样本分类性能有所提升。  相似文献   

15.
基于径向基支持向量机的异常血样监测方法   总被引:1,自引:1,他引:1  
本文提出了一种基于支持向量机(SVM)的异常血样监测方法.异常血样监测可以归结为非对称的非线性分类问题,即血样训练样本不对称和分类边界的裕度不对称.本文在血样向量空间上虚拟了异常血样超球面,利用高斯径向基(RBF)核函数对血样向量升雏使之在高维内积空间中线性可分.通过调节高斯径向基的宽度和边界裕度,可以确定紧包正常血样特征向量子空间且具有最佳监测效果的分类边界.该方法在试验数据上获得了误警率3.19%和漏警率6.38%、准确率90.43%的较好结果.  相似文献   

16.
史岩  李小民  齐晓慧 《计算机测量与控制》2012,20(5):1203-1204,1235
支持向量机对于非平衡数据的分类效果不是十分理想;某些新型装备的故障数据较少且难于采集,正常数据则能够较为容易获得足够数量;这就使得支持向量机的诊断效果受到较大影响,如诊断精度降低,漏报、虚警概率的提高;文章借鉴距离最大熵样本欠采样原理,并引入条件熵的概念,提出了距离条件最大熵欠采样策略,用以改善支持向量机对于非平衡样本的诊断性能,实验表明该方法可行有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号