首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
现实中许多领域产生的数据通常具有多个类别并且是不平衡的。在多类不平衡分类中,类重叠、噪声和多个少数类等问题降低了分类器的能力,而有效解决多类不平衡问题已经成为机器学习与数据挖掘领域中重要的研究课题。根据近年来的多类不平衡分类方法的文献,从数据预处理和算法级分类方法两方面进行了分析与总结,并从优缺点和数据集等方面对所有算法进行了详细的分析。在数据预处理方法中,介绍了过采样、欠采样、混合采样和特征选择方法,对使用相同数据集算法的性能进行了比较。从基分类器优化、集成学习和多类分解技术三个方面对算法级分类方法展开介绍和分析。最后对多类不平衡数据分类研究领域的未来发展方向进行总结归纳。  相似文献   

2.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

3.
针对细菌觅食优化(Bacterial Foraging Optimization,BFO)算法易陷入局部最优的缺点,提出了混合粒子群优化(Particle Swarm Optimization,PSO)算法与改进的细菌觅食优化(Improved BFO)算法应用于不平衡数据的分类。使用三个数据集测试所提算法的性能,其一是卵巢癌微阵列真实数据,另两个来自UCI数据库的垃圾电子邮件数据最优集和动物园数据集。采用边界合成少数过采样技术(Borderline-SMOTE)和Tomek Link对不平衡数据进行预处理,利用所提算法对不平衡数据进行分类。在改进细菌觅食优化算法的过程中,对趋化过程进行改进,采用粒子群优化算法先进行搜索,将粒子作为细菌进行处理,提高了细菌觅食优化的全局搜索能力。改进复制操作过程,提高优胜劣汰的选择标准。改进迁徙操作过程,防止种群陷入局部最优,防止进化停滞。仿真结果表明,所提算法分类准确度优于现有方法。  相似文献   

4.
胡小生  张润晶  钟勇 《计算机科学》2013,40(11):271-275
类别不平衡数据分类是机器学习和数据挖掘研究的热点问题。传统分类算法有很大的偏向性,少数类分类效果不够理想。提出一种两层聚类的类别不平衡数据级联挖掘算法。算法首先进行基于聚类的欠采样,在多数类样本上进行聚类,之后提取聚类质心,获得与少数类样本数目相一致的聚类质心,再与所有少数类样例一起组成新的平衡训练集,为了避免少数类样本数量过少而使训练集过小导致分类精度下降的问题,使用SMOTE过采样结合聚类欠采样;然后在平衡的训练集上使用K均值聚类与C4.5决策树算法相级联的分类方法,通过K均值聚类将训练样例划分为K个簇,在每个聚类簇内使用C4.5算法构建决策树,通过K个聚簇上的决策树来改进优化分类决策边界。实验结果表明,该算法具有处理类别不平衡数据分类问题的优势。  相似文献   

5.
杨鹤标  王健 《计算机工程》2010,36(20):52-54
针对多关系多分类的非平衡数据,提出一种分类模型。在预处理阶段,建立目标类纠错输出编码(ECOC)、目标关系与背景关系间的虚拟连接并完成属性聚集处理,进而划分训练集和验证集。在训练阶段,依据一对多划分思想,结合CrossMine算法构造多个子分类器,采用AUC法评估验证各子分类器。在验证阶段,比较目标类ECOC与各子分类器分类结果连接字的海明距离,选择最小海明距离的目标类为最终分类。经合成和真实数据的实验,验证了模型有效性及分类效果。  相似文献   

6.
针对少数类样本合成过采样技术(Synthetic Minority Over-Sampling Technique, SMOTE)在合成少数类新样本时会带来噪音问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法首先通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪音的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。  相似文献   

7.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

8.
信息瓶颈(Information Bottleneck,IB)方法在处理非平衡数据集时,倾向于将大簇中的数据对象划分到数据规模较小的小簇中,造成了聚类效果不理想的问题。针对该问题,提出了一种面向非平衡数据的多簇信息瓶颈算法(McIB)。McIB算法采用向下抽样方法来降低非平衡数据集的倾斜度,使用先划分再学习后合并的策略来优化IB算法处理非平衡数据的合并抽取过程。整个算法包含3步:首先根据分离标准来确定抽样比例参数;然后对数据进行初步的聚类,生成可信赖的多个簇;最后再利用簇之间的相似性对簇进行合并,组织多个簇代表每个实际的簇来得到最终的聚类结果。实验结果表明:所提算法能够有效地解决IB方法在非平衡数据集上的“均匀效应”问题;与其他聚类算法相比,McIB算法的性能更优。  相似文献   

9.
李克文  杨磊  刘文英  刘璐  刘洪太 《计算机科学》2015,42(9):249-252, 267
不平衡数据的分类问题在多个应用领域中普遍存在,已成为数据挖掘和机器学习领域的研究热点。提出了一种新的不平衡数据分类方法RSBoost,以解决传统分类方法对于少数类识别率不高和分类效率低的问题。该方法采用SMOTE方法对少数类进行过采样处理,然后对整个数据集进行随机欠采样处理,以改善整个数据集的不平衡性,再将其与Boosting算法相结合来对数据进行分类。通过实验对比了5种方法在多个公共数据集上的分类效果和分类效率,结果表明该方法具有较高的分类识别率和分类效率。  相似文献   

10.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

11.
陶新民  童智靖  刘玉  付丹丹 《控制与决策》2011,26(10):1535-1541
针对传统的支持向量机(SVM)算法在数据不均衡的情况下分类效果不理想的缺陷,为了提高SVM算法在不均衡数据集下的分类性能,提出一种新型的逐级优化递减欠采样算法.该算法去除样本中大量重叠的冗余和噪声样本,使得在减少数据的同时保留更多的有用信息,并且与边界人工少数类过采样算法相结合实现训练样本数据集的均衡.实验表明,该算法不但能有效提高SVM算法在不均衡数据中少数类的分类性能,而且总体分类性能也有所提高.  相似文献   

12.
基于欠采样的不均衡数据分类算法是一种随机数据优化算法,但它不能最好地反映中医临床原始数据的分布并解决数据的特征冗余问题。提出了基于预测风险的最远病例不均衡装袋算法(PRFS-FPUSAB)。该算法中首先基于欠采样提出了改进的抽样方式尽可能地反映原始数据分布,然后结合集成学习、预测风险标准提高不均衡的分类性能并进行特征选择。在中医临床采集的经络电阻数据上的实验结果表明,该算法改善了曲线下面积并且选择的特征也符合中医学相关理论。  相似文献   

13.
王俊红  赵彬佳 《计算机工程》2021,47(11):100-107
不平衡分类问题广泛存在于医疗、经济等领域,对于不平衡数据集分类,特别是高维数据分类时,有效的特征选择算法至关重要。然而多数特征选择算法未考虑特征协同的影响,导致分类性能下降。对FAST特征选择算法进行改进,并考虑特征的协同作用,提出一种新的特征选择算法FSBS。运用AUC对特征进行评估,以相互增益衡量协同作用大小,选出有效特征,进而对不平衡数据进行分类。实验结果表明,该算法能有效地选择特征,尤其在特征数量较少的情况下可保持较高的分类准确率。  相似文献   

14.
信息系统中的统计推荐模型需要获取、分析和汇总多个来源的数据。这些多源异构的数据集在特征和价值方面可能存在显著差异,因而影响模型性能。为了提升统计推荐模型的整体性能,这项研究工作采用凸优化理论和方法,解决了统计推荐模型中异构数据源的最优资源配置问题。在不同的数据源资源配置下,该工作对比了同一推荐模型的性能变化。实验结果表明该工作提出的资源分配算法在NDCG(normalized discounted cumulative gain)和召回率这两个推荐系统主要评价指标上有效地提升了模型性能。这项工作的结论是:针对多个异构的数据源,适当的资源划分和分配策略可以显著影响推荐模型的整体性能。  相似文献   

15.
不平衡数据集中,样本的分布位置对于决策边界具有差异性,传统的采样方法没有根据样本位置做区别化采样处理。为此提出一种不平衡数据中基于异类k距离的边界混合采样算法(BHSK)。通过异类k距离识别出边界集;再根据支持度将边界少数类样本细分为三类,分别采用不同的过采样方法和过采样倍率,根据少数类样本的不同重要性进行过采样,生成更具有信息的样本点;根据异类k距离删除部分非边界多数类样本点。实验结果表明,该算法在最小距离分类法下的少数类识别性能较几种常见的采样算法提高了1%~11%,验证了其有效性。  相似文献   

16.
针对不平衡数据集的低分类准确性,提出基于改进合成少数类过采样技术(SMOTE)和AdaBoost算法相结合的不平衡数据分类算法(KSMOTE-AdaBoost)。首先,根据K近邻(KNN)的思想,提出噪声样本识别算法,通过样本的K个近邻中所包含的异类样本数目,对样本集中的噪声样本进行精确识别并予以滤除;其次,在过采样过程中基于聚类的思想将样本集划分为不同的子簇,根据子簇的簇心及其所包含的样本数目,在簇内样本与簇心之间进行新样本的合成操作。在样本合成过程中充分考虑类间和类内数据不平衡性,对样本及时修正以保证合成样本质量,平衡样本信息;最后,利用AdaBoost算法的优势,采用决策树作为基分类器,对平衡后的样本集进行训练,迭代多次直到满足终止条件,得到最终分类模型。选择G-mean、AUC作为评价指标,通过在6组KEEL数据集进行对比实验。实验结果表明,所提的过采样算法与经典的过采样算法SMOTE、自适应综合过采样技术(ADASYN)相比,G-means和AUC在4组中有3组最高;所提分类模型与现有的不平衡分类模型SMOTE-Boost,CUS-Boost,RUS-Boost相比,6组数据中:G-means均高于CUS-Boost和RUS-Boost,有3组低于SMOTE-Boost;AUC均高于SMOTE-Boost和RUS-Boost,有1组低于CUS-Boost。验证了所提的KSMOTE-AdaBoost具有更好的分类效果,且模型泛化性能更高。  相似文献   

17.
针对不平衡数据集下,传统的模糊支持向量机(Fussy support vector machine,FSVM)算法分类效果不够明显,引入的参数未做优化等缺点,本文提出一种基于粒子群算法(Particle swarm optimization,PSO)优化的改进模糊支持向量机算法,即PSO-DEC-IFSVM算法。该算法首先综合考虑训练样本到其类中心的间距、样本周围的紧密度以及样本的信息量设计模糊隶属度函数,然后将此改进的模糊支持向量机与不同惩罚因子(Different error costs, DEC)算法相结合得到DEC-IFSVM算法,最后利用粒子群算法对DEC-IFSVM算法引入的参数进行优化。实验证明:对于UCI公共数据集中的Pima等6种不平衡数据集,相比已有的FSVM及其改进算法,PSO-DEC-IFSVM算法具有更好的正负类分类效果以及更强的鲁棒性。  相似文献   

18.
杜璞 《计算机仿真》2020,37(1):343-346,447
传统的目标网络多源数据调度方法通常以时间或费用为单一调度优化目标,无法实现任务完成时间以及任务执行成本之间的均衡,造成系统资源利用率较低。针对上述问题,提出一种基于多目标数学规划的网络多源数据调度方法。使用DAG构建网络多源数据流,确定多源数据调度任务模型的信任关系,以任务完成时间、任务完成成本、资源利用率为优化目标,建立多目标调度任务模型。对模型进行求解,在遗传算法变异操作中加入粒子群算法,对数据变异的方向与幅度进行调整,完成网络多源数据调度。仿真证明,所提方法相较于传统方法,在多源数据的调度上成本更低、资源利用率更高,并且调度任务目标完成时间更短。  相似文献   

19.
针对聚类算法研究中普遍存在不能充分利用历史信息、参数优化过程慢的问题,结合边缘智能计算提出了一种基于数据场的分布式自适应分类算法,算法部署于边缘计算(EC)节点,提供本地的智能分类服务。该算法通过引入监督信息改造传统数据场聚类模型的结构,使其能够应用于分类问题,扩展了数据场理论可应用的领域。基于数据场思想,该算法将数据的域值空间转化为数据势场空间,依据空间势值将数据分为无标签的多个类簇结果,再将类簇结果与历史监督信息进行云相似度比较,并将其归属于与其最相似的类中;同时,提出了一种基于滑动步长的参数搜索策略以提高算法参数的优化速度。在此算法基础上还提出了一种基于分布式的数据处理方案,通过云中心与边缘设备的协作,将分类任务切割分配到不同层次的节点,实现模块化、低耦合。仿真结果表明,所提算法的查准率和查全率均保持在96%以上,且汉明损失均低于0.022。实验结果表明,所提算法可以准确分类并提高参数优化速度,整体性能优于逻辑回归(LR)算法与随机森林(RF)算法。  相似文献   

20.
基于Boosting的不平衡数据分类算法研究   总被引:2,自引:0,他引:2  
研究基于boosting的不平衡数据分类算法,归纳分析现有算法,在此基础上提出权重采样boosting算法。对样本进行权重采样,改变原有数据分布,从而得到适用于不平衡数据的分类器。算法本质是利用采样函数调整原始boosting损失函数形式,进一步强调正样本的分类损失,使得分类器侧重对正样本的有效判别,提高正样本的整体识别率。算法实现简单,实用性强,在UCI数据集上的实验结果表明,对于不平衡数据分类问题,权重采样boosting优于原始boosting及前人算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号