首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种不平衡数据的分类方法   总被引:1,自引:0,他引:1  
针对一个球的模式分类(SSPC)方法没有考虑样本分布不平衡的问题,提出一种不平衡数据的分类方法.该方法引入类权重因子和样本权重因子,通过一个超球面将两类数据以最大分离比率分离,从而提高不平衡数据对正类分类和预测的性能.实验结果表明,该方法可以有效提高不平衡数据的分类性能.  相似文献   

2.
基于支持向量机的不平衡数据分类的改进欠采样方法   总被引:3,自引:0,他引:3  
支持向量机作为一种有监督分类算法,具有小样本,非线性等独特优势,但其在处理不平衡数据分类时效果不够理想.欠采样是一类常用的数据重构方法,它被广泛用于解决不平衡数据的分类问题,然而,传统的随机欠采样方法受随机性影响,稳定性较差.提出一种改进的欠采样方法,并应用在支持向量机上进行分类对比实验.实验结果表明,相比传统随机欠采样方法,该方法的稳定性更好,且在许多情况下可以提高支持向量机对不平衡数据的分类性能.  相似文献   

3.
不平衡数据的分类是机器学习的热点问题.传统的分类方法在分类时会倾向于多数类而使得分类精度不高.对不平衡数据集的分类,提出一种基于FCM结合KFDA方法,首先采用FCM算法对样本数据进行聚类,将数据聚类后的样本数据映射到特征空间里,再采用KFDA算法对数据进行分类,可以克服不平衡数据对分类性能的影响.对UCI数据集进行仿真实验,结果表明FCM-KFDA算法可以有效地提高数据识别率.  相似文献   

4.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于局部密度改进的SVM不平衡数据集分类算法.该算法先将多数类划分成多个子类,并依据子类内每个样本的局部密度选出边界区域、靠近边界区域的与少数类数目相等的样本,与少数类完成SVM初始分类;用所得的支持向量机和剩余的多数类样本对初始分类器进行迭代优化.结果表明,与WSVM,ALSMOTE-SVM和基本SVM算法相比,该算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

5.
类别不平衡数据的分类问题是数据挖掘及机器学习过程中的一个研究热点,基于代价敏感学习方法通常用于解决类别不平衡数据分类问题,然而,它在实际应用过程中通常因样本的误分类成本未知而受到限制.针对此问题,文中采用群体智能算法优化样本的误分类代价.果蝇优化算法(Fruit fly optimization algorithm,F...  相似文献   

6.
传统的分类方法对不平衡数据集进行分类时对数据集中少数类的分类准确率不高,而少数类往往对结果的影响尤为重要.为此提出一种适应于不平衡数据集的改进树扩展型朴素贝叶斯(TANC)算法,该算法首先利用Relief算法对样本中的少数类进行权重分配,然后通过训练数据集,使缺失数据补齐,并通过将属性分割成多个有限区间,使连续数据离散化,将修改后的训练集用以训练TANC,最后通过TANC算法对数据集进行分类.基于UCI标准数据集上的实验结果表明,该算法的整体性能优于TANC算法.  相似文献   

7.
提出一种改进随机子空间与C4.5决策树算法相结合的分类算法.以C4.5算法构建决策树作为集成学习的基分类器,每次迭代初始,将SMOTE采样技术与随机子空间方法相结合,生成在特征空间和数据分布上差异明显的合成样例,为基分类器提供多样化的平衡训练数据集,采用绝大多数投票方法进行最终决策的融合输出.实验结果表明,该方法对少数类和多数类均具有较高的识别率.  相似文献   

8.
数据流广泛应用于现实世界的多个领域,但是不平衡数据流的存在严重影响了传统数据流分类器的性能.针对不平衡数据流问题,提出了随机平衡采样算法(RBS)处理数据流的不平衡问题,并以RBS算法为基础提出了随机平衡采样数据流集成算法(RBSSEA)旨在解决不平衡数据流的分类问题.最后,分别采用合成和真实数据集对RBSSEA算法进行验证,实验结果证明RBSSEA算法在解决不平衡数据流分类问题具有一定的优势.  相似文献   

9.
一种基于投票的不平衡数据分类集成算法   总被引:1,自引:1,他引:0  
不平衡数据分类是机器学习的研究热点之一。传统的机器学习分类算法通常假定用于训练的数据集是平衡的,不能直接应用于不平衡数据分类。利用朴素贝叶斯和决策树对数据不平衡的敏感度不同,提出一种基于投票的不平衡数据分类集成算法。基分类器选择NB和C4.5,通过投票平均方法进行分类决策;并选择公开的不平衡数据集进行实验验证。实验结果表明,该算法能有效提高不平衡数据的分类性能,特别是对正类(少数类)的误报率较低,具有良好的鲁棒性。  相似文献   

10.
结合三支决策和合成少数过采样技术(synthetic minority over-sampling technique, SMOTE),提出了一种新的采样方法—三支过采样(three-way over-sampling, 3WOS)。3WOS通过对所有样本构建三支决策模型,选取该模型边界域中的样本作为关键样本进行SMOTE过采样,从而有效缓解样本聚集和分离问题,在一定程度上提高了分类器性能。该方法首先在少数类样本上应用三支决策和支持向量数据描述,将所有样本数据进行三分;其次,找出所有关键样本的k个最近邻少数类样本,并使用线性插值方式对每个关键样本合成新样本,然后形成新的少数类样本;最后,将更新后的样本集用于训练分类器。实验结果表明,3WOS方法比其他方法在基分类器上有较好的分类准确度、F-measure、G-mean和较少的代价值。  相似文献   

11.
苟和平 《科学技术与工程》2013,13(16):4720-4723
针对KNN算法在分类时的样本相似度计算开销大,在处理不均衡数据集时少数类分类误差大的问题,提出一种在不均衡数据集下基于密度的训练样本裁剪算法。对训练样本的各个样本类进行聚类,删除噪声数据并计算每个样本类的平均相似度和样本平均密度,以此获得样本类裁剪的相似度阈值,然后将样本类内相似度小于类相似度阈值的样本进行合并,减少训练样本总数。实验表明,此样本裁剪算法能够在保持KNN算法分类性能基本稳定的前提下,有效地减少分类计算开销,并能在一定程度上提高少数类的分类性能。  相似文献   

12.
用于不平衡数据分类的模糊支持向量机算法   总被引:1,自引:0,他引:1  
作为一种有效的机器学习技术,支持向量机已经被成功地应用于各个领域.然而当数据不平衡时,支持向量机会产生次优的分类模型;另一方面,支持向量机算法对数据集中的噪声点和野点非常敏感.为了克服以上不足,提出了一种新的用于不平衡数据分类的模糊支持向量机算法.该算法在设计样本的模糊隶属度函数时,不仅考虑训练样本到其类中心距离,而且考虑样本周围的紧密度.实验结果表明,所提模糊支持向量机算法可以有效地处理不平衡和噪声问题.  相似文献   

13.
为提高物流管理信息系统查询效率,根据物流数据库管理系统查询调用数据属性字典的统计信息,提出一种优化属性字典分级的动态方法。描述了该方法的实现并进行了查询效率分析。该方法基于模糊聚类原理,在属性字典表中添加聚类属性项;将数据繁多的属性字典表按其在选定时间内的属性统计值进行动态归类分级。系统运行实践表明,该方法提高查询效率最高达31.9%,平均达19.3%。  相似文献   

14.
为提高物流管理信息系统查询效率,根据物流数据库管理系统查询调用数据属性字典的统计信息,提出一种优化属性字典分级的动态方法.描述了该方法的实现并进行了查询效率分析.该方法基于模糊聚类原理,在属性字典表中添加聚类属性项;将数据繁多的属性字典表按其在选定时间内的属性统计值进行动态归类分级.系统运行实践表明,该方法提高查询效率最高达31.9%,平均达19.3%.  相似文献   

15.
一种基于粗糙集的冠心病数据分类方法   总被引:1,自引:0,他引:1  
当数据的维数增加后,经典粗糙集分类方法将难以使用.本文针对经典的分类规则获取方法,在应用于高维的数据时,重要度计算所出现的问题,提出了改进方法,计算出了各个条件属性的重要度.然后根据获得的重要度,针对冠心病数据维数很高的特点,提出了新的分类规则获取方法.将这一思路应用于具体数据后,推导出了最终的分类规则,达到了准确的分类冠心病数据的最终目的.  相似文献   

16.
针对单特征输入时,现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和数据增强的声场景分类方法.首先,介绍了卷积神经网络和混合数据增强的基本原理;其次,基于网络并行输入理论,设计了一种多流卷积神经网络模型以期实现多流特征融合,其由特征提取模块和特征融合模块组成;然后,为进一步提升模型的准确率并降低模型过拟合的概率,提出了一种多维混合数据增强方法以实现特征数据的平滑处理;最后,采用9种特征组合方案,基于Urbansound8K,ESC50和ESC10数据集分别开展了声场景分类实验.实验结果表明:模型的准确率分别为88.29%,77.75%和96.25%,验证了当使用该方法进行声场景分类研究时,模型具有较高的准确率和较强的泛化能力.  相似文献   

17.
偏标记学习是近几年提出的新机器学习框架,已有的逻辑回归偏标记算法尚不能解决数据不平衡问题.建立了一种可以解决数据不平衡的逻辑回归模型偏标记学习算法.基本思想是在多元逻辑回归模型中定义新的似然函数以达到处理不平衡数据的目的.算法先根据训练集中各个类别样本所占比例定义了一个新的似然函数,之后通过逼近和求导等数学手段推导得到了能够求解的光滑的逻辑回归偏标记学习模型.在UCI数据集和真实数据集上的仿真实验表明,所提算法在数据存在不平衡问题时提高了样本的平均分类精度.  相似文献   

18.
针对不平衡数据分类问题,提出了一种带有间隔感知标签分布损失函数的支持向量机,称为基于间隔放大损失的支持向量机(support vector machine with margin magnification loss,MM-SVM)。考虑各类样本的分布情况以及数据不平衡比,设计了一种间隔放大损失函数,最小化基于间隔的泛化误差界;将间隔放大损失函数应用于SVM模型中,增强了少数类样本对分类超平面的影响,实现对少数类样本的准确分类。在Keel和UCI数据库上的实验表明,MM-SVM在不平衡数据分类精度和时间效率上均优于其他5种对比方法,实现了对不平衡数据的有效分类。  相似文献   

19.
为了保证运算时效的同时,提高复杂数据的分类精度,提出了基于多目标蜂群算法和极限学习机的数据分类算法。该方法以最小的特征个数和最高的分类精度为优化目标,利用改进的多目标蜂群算法对数据的特征个数和分类器参数进行寻优,针对多个有代表性的数据集进行仿真,结果表明所提出方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号