首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对SMOTE(Synthetic Minority Over-sampling Technique)等传统过采样算法存在的忽略类内不平衡、扩展少数类的分类区域以及合成的新样本高度相似等问题,基于综合考虑类内不平衡和合成样本多样性的思想,提出了一种整合DBSCAN和改进SMOTE的过采样算法DB-MCSMOTE(DBSCAN and Midpoint Centroid Synthetic Minority Over-sampling Technique)。该算法对少数类样本进行DBSCAN聚类,根据提出的簇密度分布函数,计算各个簇的簇密度和采样权重,在各个簇中利用改进的SMOTE算法(MCSMOTE)在相距较远的少数类样本点之间的连线上进行过采样,提高合成样本的多样性,得到新的类间和类内综合平衡数据集。通过对一个二维合成数据集和九个UCI数据集的实验表明,DB-MCSMOTE可以有效提高分类器对少数类样本和整体数据集的分类性能。  相似文献   

2.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

3.
为解决软件缺陷预测中的不平衡问题,提出一种基于聚类少数类的改进SMOTE算法。对训练集中的少数类样本进行K-means聚类后,通过关键特征权重及与簇心距离权重,计算每个样本的合成样本数量,采用改进的SMOTE算法实现过抽样。采用CART决策树作为基分类器,使用AdaBoost算法对平衡数据集训练,得到分类模型CSMOTE-AdaBoost。在7组NASA数据集上进行实验,验证分类模型中关键特征权重及与簇心距离权重的有效性,其结果优于传统分类算法,具有更好的分类效果。  相似文献   

4.
SMOTE算法可以扩充少数类样本,提高不平衡数据集中少数类的分类能力,但是它在扩充少数类样本时对于边界样本的选择以及随机数的取值具有盲目性。针对此问题,将传统的SMOTE过采样算法进行改进,改进后的过采样算法定义为SDRSMOTE,该算法综合考虑不平衡数据集中全部样本的分布状况,通过融合支持度sd和影响因素posFac来指导少数类样本的合成。在WEKA平台上分别使用SMOTE、SDRSMOTE算法对所选用的6个不平衡数据集进行过采样数据预处理,然后使用决策树、AdaBoost、Bagging和朴素贝叶斯分类器对预处理后的数据集进行预测,选择F-value、G-mean和AUC作为分类性能的评价指标,实验表明SDRSMOTE算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。  相似文献   

5.
针对SMOTE方法对所有少数类样本进行过采样的缺陷,提出一种基于特征加权与聚类融合的过采样方法(WKMeans-SMOTE),由此进行不平衡数据分类。考虑到不同特征权重对聚类结果的影响程度不同,选择特征加权的聚类算法对原始数据集进行聚类,并多次改变初始簇中心生成不同的聚类结果;根据簇标签匹配方法将不同的聚类结果进行匹配,引进“聚类一致性系数”筛选出处于少数类边界的样本;对筛选出的少数类样本进行SMOTE过采样,并采用CART决策树方法作为基分类器,对新的少数类样本与所有的多数类样本进行训练。实验结果表明,与现有的SMOTE、Borderline-SMOTE和ADASYN等过采样方法相比,所提出的WKMeans-SMOTE方法在分类性能上有一定的提升。  相似文献   

6.
针对少数类合成过采样技术(Synthetic Minority Oversampling Technique,SMOTE)及其改进算法在不平衡数据分类问题中分类效果不佳,提出了基于K最邻近算法(K-NearestNeighbor,KNN)和自适应的过采样方法(Oversampling Method Based on KNN and Adaptive,KAO)。首先,利用KNN去除噪声样本;其次,根据少数类样本K近邻样本中多数类样本数,自适应给少数类样本分配过采样权重;最后,利用新的插值方式生成新样本平衡数据集。在KEEL公开的数据集上进行实验,将提出的KAO算法与SMOTE及其改进算法进行对比,在F1值和g-mean上都有所提升。  相似文献   

7.
基于样本权重更新的不平衡数据集成学习方法   总被引:1,自引:0,他引:1  
不平衡数据的问题普遍存在于大数据、机器学习的各个应用领域,如医疗诊断、异常检测等。研究者提出或采用了多种方法来进行不平衡数据的学习,比如数据采样(如SMOTE)或者集成学习(如EasyEnsemble)的方法。数据采样中的过采样方法可能存在过拟合或边界样本分类准确率较低等问题,而欠采样方法则可能导致欠拟合。文中将SMOTE,Bagging,Boosting等算法的基本思想进行融合,提出了Rotation SMOTE算法。该算法通过在Boosting过程中根据基分类器的预测结果对少数类样本进行SMOTE来间接地增大少数类样本的权重,并借鉴Focal Loss的基本思想提出了根据基分类器预测结果直接优化AdaBoost权重更新策略的FocalBoost算法。对不同应用领域共11个不平衡数据集的多个评价指标进行实验测试,结果表明,相比于其他不平衡数据算法(包括SMOTEBoost算法和EasyEnsemble算法),Rotation SMOTE算法在所有数据集上具有最高的召回率,并且在大多数数据集上具有最佳或者次佳的G-mean以及F1Score;而相比于原始的AdaBoost,FocalBoost则在其中9个不平衡数据集上都获得了更优的性能指标。  相似文献   

8.
为解决工业控制网络异常流量检测中存在的数据分布不均衡、现有模型检测率低的问题,提出一种基于条件变分自编码器(CVAE)和CatBoost算法的异常流量检测模型。CVAE引入标签信息作为约束条件,控制生成样本的类别。CatBoost算法通过引入无偏估计克服梯度偏差,提高预测的准确性,同时采用多种树的生长方式降低过拟合的风险。使用CVAE进行数据增强,扩充稀有攻击样本,构建分布均匀的平衡数据集。将CatBoost算法作为异常流量检测模型,对Dos、Fuzzers等攻击样本进行精确识别并输出分类结果。实验结果表明:在UNSW-NB15数据集上,利用CVAE进行数据增强后,CatBoost算法对少数类样本的F1值平均提升了25.16个百分点,整体精确率、召回率和F1值分别达到87.85%、87.87%和87.86%;在ZYELL_NCTU NetTraffic_1.0数据集上,利用CVAE进行数据增强后,CatBoost算法对少数类样本的F1值平均提升了16.32%,整体精确率、召回率和F1值均达到99.85%。该模型能够有效避免数据不均衡问题,相较K近邻、随机森林、卷积神经网络等机器学习和深...  相似文献   

9.
王圆方 《软件》2020,(2):201-204
针对SMOTE算法在合成少数类新样本时存在的不足,提出了一种基于层次聚类算法改进的SMOTE过采样法H-SMOTE。该算法首先对少数类样本进行层次聚类,其次根据提出的簇密度分布函数,计算各个簇的簇密度,最后在各个簇中利用改进的SMOTE算法进行过采样,提高合成样本的多样性,得到新的平衡数据集。通过对UCI数据集的实验表明,H-SMOTE算法的分类效果得到明显的提升。  相似文献   

10.
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(KNN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。  相似文献   

11.
12.
13.
14.
介绍关于桥梁结构损坏状态评估专家系统,在讨论状态评估方法的基础上,重点介绍损坏状态评估因素关系树的建立及各因素状态的模糊表达式等,最后以桥面诊断过程为例介绍系统的构成及诊断流程图,知识表达方式,系统推理过程及工作流程。  相似文献   

15.
The structure of a complex of key performance indicators of work of production of technological type is considered. Features of determination of the qualitative indexes of work of production entering a complex and an error of their estimates are analyzed.  相似文献   

16.
张锐 《自动化应用》2014,(12):113-114
对国网宁夏电力检修公司宁安运维站近2年来一次设备喷涂PRTV用量的统计数据进行分析整理,得出各类一次设备按照标准要求喷涂PRTV时的用量估算值,并针对现存作业中存在的问题,提出相应解决方案。  相似文献   

17.
机车空调逆变电源设计   总被引:1,自引:0,他引:1  
本文讨论的是机车空调逆变电源系统的设计与研究。该电源系统主要是由DC/DC的BOOST升压部分和DC/AC三相逆变部分两部分组成。DC/DC部分所得直流电压通过DC/AC部分逆变成三相交流电,供给空调机组工作。同时,为使电源系统能更可靠的运行,也设计了相应的故障检测、保护等辅助电路。  相似文献   

18.
针对国家烟草管理的现状,有关主管部门在全国推行“行业卷烟生产经营决策管理系统工程”,利用条码等自动识别技术手段实时掌握全国的生产经营信息。但某卷烟厂此前的物流环节已经是“件烟成垛”运输,如何在尽可能保持原有企业管理体系的前提下,达到有关部门的数据统计要求,解决成垛卷烟的物流和信息流的交互与统一问题成为技改的核心。该项目成功的将条码识别与射频识别有机结合起来,为烟草行业信息化提供了生动的应用案例。  相似文献   

19.
介绍了一种性能良好的新型浮球式煤浆液位传感装置。该装置利用浮球随着煤浆液位的变化而带动连杆作上下运动,通过机械装置将液位的变化转变成角位移传感器的轴的角度变化,分析角位移传感器输出信号可得到煤泥液位信息。经测试该传感装置各项指标达到了设计要求。该新型煤泥浮选机液位传感装置具有良好的动、静态特性,可以在选煤厂推广应用。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号