首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
《数理统计与管理》2015,(5):809-820
不平衡数据是指分类问题中目标变量的某一类观测值数量远大于其他类观测值数量的数据。针对处理不平衡数据算法SMOTE及其衍生算法的不足,本文提出一种新的向上采样算法SMUP(Synthetic Minority Using Proximity of Random Forests),通过样本相似度改进SMOTE算法中的距离测量方式,提高了算法的分类精度。实验结果表明,基于SMUP算法的单分类器能有效提升少数类的分类正确率,同时解决了SMOTE对定类型特征变量距离测度不佳的难题;基于SMUP算法的组合分类器分类效果也明显优于SMOTE衍生算法;最重要的是,SMUP将连续型、混合型和定类型这三种特征变量的距离测度整合到一个统一的框架下,为实际应用提供了便利。  相似文献   

2.
许多机器学习的实际应用中都存在数据不平衡问题,即某类的样本数目要远小于其他类别.数据不平衡会使得分类问题中的分类面过于倾向于适应大类而忽略小类,导致测试样本被错误地判断为大类.针对该问题,文章提出了一种平衡化图半监督学习方法.该方法在能量函数中引入均衡化因子项,使得置信值不仅在图上尽量光滑且在不同类别之间也尽量均衡,有效减小了数据不均衡的不利影响,21个标准数据集上对比实验的统计分析结果表明新方法在数据不平衡时具有显著(显著性水平为0.05)优于支持向量机以及其他图半监督学习方法的分类效果.  相似文献   

3.
标准的加权超限学习机在训练不平衡数据集时,只对不同类之间赋予类权值而没有对个体的样本赋予不同的权值,忽视了样本个体的差异.针对这种情况,利用标准的超限学习机估算个体样本的权值,并与类权值结合,提出了一种改进的双重加权超限学习机分类算法,算法能很好地处理分类任务中各类训练数据分布不平衡的情形.实验结果表明,双重加权超限学习机分类算法与单重加权超限学习机、无权超限学习机相比较,在提高分类精度方面取得了较好的效果.  相似文献   

4.
心电信号分类是医疗保健领域的重要研究内容.针对大多数方法不能很好地降低样本数量少的类别漏诊率,以及降低预处理操作的复杂性问题,提出了一种基于改进深度残差收缩网络(IDRSN)的心电信号分类算法(即DRSL算法).首先,使用合成少数类过采样技术(SMOTE)扩充数量少的类别样本,从而解决了类不平衡问题;其次,利用改进深度残差收缩网络提取空间特征,其残差模块可以避免网络层加深造成的过拟合,压缩激励和软阈值化子网络可以提取重要局部特征并自动去除噪声;然后,通过长短期记忆网络(LSTM)提取时间特征;最后,利用全连接网络输出分类结果.在MIT-BIH心律失常数据集上的实验结果表明,该算法的分类性能优于IDRSN、DRSN、GAN+2DCNN、CNN+LSTM_ATTENTION、SE-CNN-LSTM分类算法.  相似文献   

5.
模糊C均值算法的改进   总被引:13,自引:0,他引:13  
模糊聚类分析方法具有较强的实用性,但传统的模糊C均值算法对数据集进行分类时有均分的趋势,对于数据集中各类样本数目相差较大的情况,其聚类结果不是很理想.因此,本文对FCM算法进行了改进,使之不但能够达到更好的分类效果,同时也更加适用于样本分类不均衡的聚类问题.文中还结合具体算例进行了聚类分析,得到了理想的分类效果.  相似文献   

6.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

7.
为了减少求支持向量过程中二次规划的复杂度,利用训练样本集的几何信息,选出两类中离另一类最近的边界向量集合,它是样本中最有可能成为支持向量的一部分,用它代替原样本集进行训练.对新增样本,若存在违反KKT条件的样本,只对这部分新样本进行学习.同时找出原样本中可能转化为支持向量的非支持向量样本.基于分析结果,提出了一种新的基于最近边界向量的增量式支持向量机学习算法.对标准数据集的实验结果表明,算法是可行的,有效的.  相似文献   

8.
现有一类分类算法通常采用经典欧氏测度描述样本间相似关系,然而欧氏测度不能较好地反映一些数据集样本的内在分布结构,从而影响这些方法对数据的描述能力.提出一种用于改善一类分类器描述性能的高维空间一类数据距离测度学习算法,与已有距离测度学习算法相比,该算法只需提供目标类数据,通过引入样本先验分布正则化项和L1范数惩罚的距离测度稀疏性约束,能有效解决高维空间小样本情况下的一类数据距离测度学习问题,并通过采用分块协调下降算法高效的解决距离测度学习的优化问题.学习的距离测度能容易的嵌入到一类分类器中,仿真实验结果表明采用学习的距离测度能有效改善一类分类器的描述性能,特别能够改善SVDD的描述能力,从而使得一类分类器具有更强的推广能力.  相似文献   

9.
利用传统支持向量机(SVM)对不平衡数据进行分类时,由于真实的少数类支持向量样本过少且难以被识别,造成了分类时效果不是很理想.针对这一问题,提出了一种基于支持向量机混合采样的不平衡数据分类方法(BSMS).该方法首先对经过支持向量机分类的原始不平衡数据按照所处位置的不同划分为支持向量区(SV),多数类非支持向量区(MN...  相似文献   

10.
陶朝杰  杨进 《经济数学》2020,37(3):214-220
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号