首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
采用少类样本合成过采样技术(SMOTE)与二叉树多类支持向量机(BTSVM)相结合的入侵检测算法来解决实际应用中经常遇到的类别不平衡的分类问题.该方法首先对不平衡类别的训练集使用BTSVM分类,然后对求出各分类器中的支持向量使用SMOTE方法进行向上采样,最后用不平衡类别的测试集在新的分类模型中进行测试.实验结果表明本算法能够有效地提高不平衡数据集的分类性能.  相似文献   

2.
针对因电动汽车故障数据样本类别不平衡引起的机器模型分类性能欠佳、故障查全率低的问题,本文提出一种以LightGBM为基学习器改进的Bagging集成电动汽车故障预测模型:在Bagging集成学习中使用Borderline_SMOTE方法对训练集重新采样,改善训练子集的数据不平衡程度,避免小类样本信息缺失;将权重系数和正则化项嵌入LightGBM基学习器的损失函数中,提高训练中小类样本的错分类代价。实验结果表明,该模型可有效提高故障查全率、宏平均和AUC值,其中AUC值达到0.898 4,故障样本的查全率为0.808 3,在电动汽车不平衡数据集上的故障分类性能显著优于传统单一模型和其他对比算法。  相似文献   

3.
针对不平衡数据集的低分类准确性,提出基于蚁群聚类改进的SMOTE不平衡数据过采样算法ACC-SMOTE。一方面利用改进的蚁群聚类算法将少数类样本划分为不同的子簇,充分考虑类间与类内数据的不平衡,根据子簇所占样本的比例运用SMOTE算法进行过采样,从而降低类内数据的不平衡度;另一方面对过采样后的少数类样本采用Tomek Links数据清理技术进行及时修正,清除数据集中的噪声和抽样方法产生的重叠样例,从而保证合成样本的质量。本文所用训练数据集和测试数据集均为UCI数据集。实验结果表明本算法可以明显提高不平衡数据集的分类精度,从而提高分类器的分类性能。  相似文献   

4.
为解决癌症基因组图谱中DNA甲基化数据不平衡导致假阴率上升的问题,提出一种基于TCGA数据库不平衡数据的改进分类方法.使用合成少数类过采样技术和Tomek Link算法进行混合采样,解决数据不平衡问题.在此基础上,将经特征选择后的训练集数据输入改进模型进行训练、学习及分类.基于TCGA数据库6种癌症DNA甲基化数据的实验结果表明:改进方法对少数类样本的分类性能有显著提高,对多数类样本的分类性能也有一定的提升.  相似文献   

5.
针对不平衡数据中类重叠区域易造成分类错误的问题,提出一种引入合成因子改进边界分类的Borderline-SMOTE过采样方法(IBSM).首先根据少数类样本近邻分布情况找出处于边界的少数类样本,然后计算边界样本对应的合成因子,并根据其取值更新该样本需生成的样本数,最后在近邻中根据合成因子挑选距离最近的top-Z少数类样本进行新样本生成.将提出的方法与八种采样方法在KNN和SVM两种分类器、10个KEEL不平衡数据集上进行对比实验,结果表明,提出的方法在大部分数据集上的F1,G-mean,AUC (Area under Curve)均获得最优值,且F1与AUC的Friedman排名最优,证明所提方法和其余采样方法相比,在处理不平衡数据中的边界样本分类问题时有更好的表现,通过合成因子设定一定的约束条件与分配策略,可以为同类研究提供思路.  相似文献   

6.
面向不平衡数据集的一种精化Borderline-SMOTE方法   总被引:2,自引:0,他引:2  
合成少数类过采样技术(SMOTE)是一种被广泛使用的用来处理不平衡问题的过采样方法,SMOTE方法通过在少数类样本和它们的近邻间线性插值来实现过采样.Borderline-SMOTE方法在SMOTE方法的基础上进行了改进,只对少数类的边界样本进行过采样,从而改善样本的类别分布.通过进一步对边界样本加以区分,对不同的边界样本生成不同数目的合成样本,提出了面向不平衡数据集的一种精化Borderline-SMOTE方法(RB-SMOTE).仿真实验采用支持向量机作为分类器对几种过采样方法进行比较,实验中采用了10个不平衡数据集,它们的不平衡率从0.064 7到0.536 0.实验结果表明:RB-SMOTE方法能有效地改善不平衡数据集的类分布的不平衡性.  相似文献   

7.
针对现有的不平衡数据处理方法存在不能有效处理分类型数据、盲目采样及抗噪声能力差等问题,提出一种基于k-modes聚类的不平衡数据混合采样算法HS_WODKM;首先提出一种基于加权重叠距离的k-modes聚类算法WODKM,然后采用改进的合成少数过采样技术(SMOTE)算法与WODKM分别对不平衡数据进行过采样与降采样处理,从而获得一种新的不平衡数据混合采样算法HS_WODKM;HS_WODKM采用增加正类样本并减少负类样本的混合采样策略解决样本类别不平衡问题,用来处理分类型数据,并且能够克服现有方法存在的抗噪能力差、删除重要样本等缺陷;为了验证HS_WODKM的性能,在多个分类型UCI数据集上进行实验。结果表明,采用HS_WODKM算法处理分类型不平衡数据是可行且有效的。  相似文献   

8.
为了解决传统分类算法在不平衡样本集上分类效果不佳的问题,提出一种新的欠采样boosting集成算法(FECBoost).首先,通过改进的模糊熵反映样本集原始分布的不确定性,并用此模糊熵判断多数类样本所在的区域,称为安全区域或边界区域;其次,利用密度峰值聚类算法选取安全区域的代表性样本以减少分类器的训练时间和样本间的重叠,降低样本的不平衡度,实现静态欠采样;最后,训练新的boosting集成分类器,在算法每一次迭代之前,基于模糊熵和模糊支持度对多数类样本再次欠采样,使用于训练的样本集达到平衡.该动态欠采样依赖于分类器的训练过程,充分考虑了样本分布的不确定性和错分可能性.通过在真实样本集上的仿真实验验证了提出方法的有效性.  相似文献   

9.
一种基于级联模型的类别不平衡数据分类方法   总被引:6,自引:0,他引:6  
真实世界问题中,不同类别的样本在数目上往往差别很大,而传统机器学习方法难以对小类样本进行正确分类,若小类的样本是足够重要的,就会带来较大的损失.因此,对类别分布不平衡数据的学习已成为机器学习目前面临的一个挑战.受计算机视觉中级联模型的启发,提出一种针对不平衡数据的分类方法BalanceCascade.该方法逐步缩小大类别使数据集趋于平衡,在此过程中训练得到的一系列分类器通过集成方式对预测样本进行分类.实验结果表明,该方法可以有效地提高在不平衡数据上的分类性能,尤其是在分类性能受数据的不平衡性严重影响的情况下.  相似文献   

10.
近年来非平衡多分类数据的学习问题在机器学习和数据挖掘领域备受关注,上采样技术成为解决数据不平衡问题的主要方法,然而已有的上采样技术仍有很多的不足,例如新合成的少数类样本仍可能分布在对应少数类样本的原始区域内,不能有效改善数据分布的不平衡情况.此外,若原始样本中不同类别样本分布存在重叠,则新合成的样本会更容易偏离到其他类样本分布中,从而造成过泛化现象,影响少数类样本的分类精度.为解决上述问题,提出一种二次合成的上采样方法(Quadratic Synthetic Minority Over-sampling Technique,QSMOTE).首先通过少数类样本的支持度选择包含重要信息的样本来进行第一次合成,然后通过分析指定少数类样本质心的邻域内样本分布情况来调整第二次样本合成范围,并最终进行第二次合成.在UCI和MNIST数据集上的实验结果表明,QSMOTE不仅可以改善数据分布的不平衡问题,而且可以尽可能地减少过泛化现象,特别是对少数类样本的分类准确率有大幅提升.  相似文献   

11.
不平衡分类问题的特征是样本集中每类样本个数相差较大,导致分类结果偏向多数类样本,少数类样本被忽视。而在不平衡分类问题中,少数类样本需要更多的关注。本文基于上海曙光医院提供的心衰医疗数据,提出了一个针对心衰病人死亡率预测的框架,为心衰的辅助治疗和诊断提供有效的信息。心衰医疗病例属于典型的不平衡分类问题,心衰病人在总的病人数量中只占少数,在检查中,应尽可能重点关注心衰病例。本文提出的框架采用下采样方法调整样本的比例,使类与类之间的规模平衡;使用主成分分析方法对高维数据进行特征选择;并在采样后的数据集上训练局部敏感判别矩阵型分类器,提高局部样本的关注度以获得更好的分类性能。实验结果表明,该框架能对心衰医疗数据提供较好的预测结果,与同类算法比较,表现出了更好的性能,是一个有效且实用的方法。  相似文献   

12.
为了有效解决类间相似度高、类内差异化大、数据类别不平衡的皮肤病变识别,提出了基于改进AlexNet的可变形卷积网络皮肤病变识别算法. 构建改进的AlexNet可变形卷积网络模型,增加采样偏移量,使不同位置的卷积核采样点可根据图像内容自适应变化,自动调整不同尺度或感受野,提取比标准卷积更精细的特征. 使用交叉熵损失函数和焦点损失函数的加权损失函数,削弱易分类样本在训练中所占的权重,使模型专注于相似度高、易错分的样本,解决样本比例不平衡的问题,优化模型的识别率. 在HAM10000数据集上进行仿真实验,主客观的实验结果表明, 提出的方法在7种皮肤病变上的识别优于现有方法,具有更高的准确性、特异性和鲁棒性.   相似文献   

13.
现有的绝大多数过采样方法着重于寻找少数类样本的边界从而增强样本的可分性,忽略了样本的重叠分布与小析取问题,这导致在过采样阶段产生过多的噪声,最终无法实现对少数类样本的正确分类.针对这些问题,提出一种基于密度峰值聚类和局部稀疏度的过采样算法.首先利用改进的密度峰值聚类算法对全部样本自适应地划分出多个簇,根据簇内样本的不平衡比过滤掉不平衡比过高的簇,然后在筛选出的簇中根据少数类样本的分布情况对各簇的过采样个数进行分配,最后通过样本密度计算出各簇少数类样本的局部稀疏度,从中选择出稀疏度较高的少数类样本参与到最终的合成少数过采样.将提出的过采样算法与八种常用的过采样算法分别与三种基分类器相结合,在18个不平衡数据集上进行对比实验.实验结果表明,提出的算法总体上表现更优,能得到更好的分类性能.  相似文献   

14.
林泳昌  朱晓姝 《广西科学》2020,27(3):276-283
针对在数据样本不均衡时,K近邻(K-nearest Neighbor,KNN)方法的预测结果会偏向样本数占优类的问题,本文提出了一种基于合成少数类过采样方法(SMOTE)的KNN不均衡样本分类优化方法(KSID)。该方法过程为:首先使用SMOTE方法将不均衡的训练集均衡化,并训练逻辑回归模型;然后使用逻辑回归模型对训练集进行预测,获取预测为正样本的数据,通过使用SMOTE方法均衡化该正样本,并训练KNN模型;最后把测试集放入该结合逻辑回归方法的KNN模型进行预测,得到最终的预测结果。围绕6个不均衡数据集,将KSID与逻辑回归、KNN和支持向量机(SVM)决策树等方法进行对比实验,结果表明,KSID方法在准确率、查全率、查准率、F1值这4个性能指标上均优于其他3种方法。通过引入SMOTE,KSID方法克服了KNN模型遇到样本不均衡数据集时,产生分类偏向的问题,为进一步研究KNN方法的优化和应用提供参考。  相似文献   

15.
近些年,基于深度学习的算法和模型在各种图像分析任务中都取得了显著的成功,与常见的自然图像相比,医学图像数据集依然面临高度不平衡的问题,不平衡数据会导致特征空间里的决策边缘倾向样本多的类别,导致分类效果的下降.为了解决该问题,提出一种基于卷积神经网络考虑特征类内紧凑性的不平衡医学图像分类方法(Z-Score Compactness-based Convolutional Neural Network,ZC3NC).首先,从一个卷积神经网络的最后一层卷积层提取训练集样本与测试集样本的特征图,随后引入一个新的Z分数来度量测试集数据的特征图相对训练集每个类在特征空间上的偏离度,偏离度的度量基于类内的紧凑度,其主要关注样本的分布特性,对各类样本数量的不平衡性不敏感.最终,根据计算的偏离度,对测试集的数据进行分类.在DermaMNIST数据集上的实验表明,在不对数据和神经网络模型做任何额外增强的情况下,该方法的平衡准确率比原卷积神经网络模型平均提高11.15%,最多提高14.08%,证明提出的分类方法能有效地提高多种卷积神经网络对不平衡医学图像数据的分类性能.此外,和最先进的不平衡分类方法 Und...  相似文献   

16.
针对入侵检测中少数类异常数据的检测精度较低的问题,提出基于支持向量聚类的不平衡数据无监督检测算法.方法采用支持向量聚类对所有未知样本进行聚类,根据不同类别样本内在属性的差异,用改进的重抽样方法选择样本,平衡数据集的分布,对新的数据集进行学习.经过KDD99的测试表明,该方法能有效检测出少数类样本.  相似文献   

17.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。  相似文献   

18.
张阳  张涛  陈锦  王禹  邹琪 《北京理工大学学报》2019,39(12):1258-1262
网络入侵检测已经广泛运用机器学习模型,但是研究者们多关注模型选择和参数优化,很少考虑数据不平衡的影响,往往会导致少数类入侵样本的检测效果较差.针对该问题,以SMOTE (synthetic minority oversampling technique)数据再平衡算法为研究重点,应用入侵检测数据集KDD99作为原始训练集,使用简单抽样和SMOTE算法生成再平衡训练集.采用多种机器学习模型分别在原始训练集和再平衡训练集进行5折交叉验证.实验结果表明,与原始训练集相比,使用再平衡训练集建模能够在不降低甚至提高多数类样本识别效果前提下,使少数类样本的识别准确率和召回率增强10%~20%.因此,SMOTE算法对不平衡样本下的网络入侵检测有显著的提升作用.   相似文献   

19.
提出一种基于核学习的采样算法来处理支持向量机(support vector machine,SVM)在非平衡数据集上的分类问题,其核心思想是首先在核空间中对少数类样本进行上采样,然后通过输入空间和核空间的距离关系寻找所合成样本在输入空间的原像,最后再采用SVM对其进行训练,从而有效克服在不同空间处理训练样本所带来的数据不一致问题.另一方面,该算法在增加少数类样本数量,减小数据失衡程度的同时有效拓展了少数类样本所形成的凸壳,从而能够更为有效纠正最优分类超平面偏移问题,使获得的结果分类器具有更好的泛化性能,实验结果证明了该算法的高效性.  相似文献   

20.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号