首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 125 毫秒
1.
现有一类分类算法通常采用经典欧氏测度描述样本间相似关系,然而欧氏测度不能较好地反映一些数据集样本的内在分布结构,从而影响这些方法对数据的描述能力.提出一种用于改善一类分类器描述性能的高维空间一类数据距离测度学习算法,与已有距离测度学习算法相比,该算法只需提供目标类数据,通过引入样本先验分布正则化项和L1范数惩罚的距离测度稀疏性约束,能有效解决高维空间小样本情况下的一类数据距离测度学习问题,并通过采用分块协调下降算法高效的解决距离测度学习的优化问题.学习的距离测度能容易的嵌入到一类分类器中,仿真实验结果表明采用学习的距离测度能有效改善一类分类器的描述性能,特别能够改善SVDD的描述能力,从而使得一类分类器具有更强的推广能力.  相似文献   

2.
在实际应用中,经常遇到数据分类集合中某一类的样本数量明显少于其他类的样本数量的数据不平衡问题.在二分类数据集中,一般称样本数目多的一类数据集合为正类,样本数目少的一类数据集合为负类.为了提高算法在不平衡数据集下的分类性能,提出了首先利用K-means找出负类中心点,再根据SMOTE基本原理,得出新的数据集.通过对比新数据集和原不平衡数据集在不同算法中的分类应用,结果表明本文改进算法的分类效果得到明显提升,最后用两两配对T检验验证算法的有效性.  相似文献   

3.
心电信号分类是医疗保健领域的重要研究内容.针对大多数方法不能很好地降低样本数量少的类别漏诊率,以及降低预处理操作的复杂性问题,提出了一种基于改进深度残差收缩网络(IDRSN)的心电信号分类算法(即DRSL算法).首先,使用合成少数类过采样技术(SMOTE)扩充数量少的类别样本,从而解决了类不平衡问题;其次,利用改进深度残差收缩网络提取空间特征,其残差模块可以避免网络层加深造成的过拟合,压缩激励和软阈值化子网络可以提取重要局部特征并自动去除噪声;然后,通过长短期记忆网络(LSTM)提取时间特征;最后,利用全连接网络输出分类结果.在MIT-BIH心律失常数据集上的实验结果表明,该算法的分类性能优于IDRSN、DRSN、GAN+2DCNN、CNN+LSTM_ATTENTION、SE-CNN-LSTM分类算法.  相似文献   

4.
大数据环境下,数据缺失是一种普遍现象,由此带来数据决策偏差等问题.针对石油生产数据缺失问题,提出一种基于SMOTE和KNN的数据填充SMKNN算法.受不平衡数据集过采样的启发,SMKNN算法在KNN算法基础上采用SMOTE算法选取近邻随机插值产生的数据作为近似缺失值,同时,采用多重填补思想求平均值作为填充数据.分别采用UCI机器学习标准数据集和大庆油田某井区生产数据进行实验,验证了SMKNN算法不仅能填充数据,而且提高了准确率.  相似文献   

5.
针对不平衡数据集分类问题,提出了一种基于聚类的欠采样方法.分别取不同的聚类个数,对训练集中的多数类样本进行若干次聚类,然后用聚类中心作为多数类样本,与少数类样本构成若干个新的训练集,之后用这些训练集训练分类器,剔除具有错误分类倾向的分类器,最后对分类结果进行投票.仿真实验对几种欠采样方法进行比较.实验采用16个平衡率不一的数据集进行测试.理论分析与实验结果表明:提出的基于聚类的欠采样方法能有效地改善不平衡数据集的不平衡性.  相似文献   

6.
陶朝杰  杨进 《经济数学》2020,37(3):214-220
虚假评论是电商发展过程中一个无法避免的难题. 针对在线评论数据中样本类别不平衡情况,提出基于BalanceCascade-GBDT算法的虚假评论识别方法. BalanceCascade算法通过设置分类器的误报率逐步缩小大类样本空间,然后集成所有基分类器构建最终分类器. GBDT以其高准确性和可解释性被广泛应用于分类问题中,并且作为样本扰动不稳定算法,是十分合适的基分类模型. 模型基于Yelp评论数据集,采用AUC值作为评价指标,并与逻辑回归、随机森林以及神经网络算法进行对比,实验证明了该方法的有效性.  相似文献   

7.
A股高送转作为我国政策特有的现象,对其精确、有依据的预测有一定的研究价值.本文对A股数据集进行缺失值、异常值、标准化等数据处理,采取特征选择中过滤法、包裹法、嵌入法等方法提取特征,结合经济学意义得到最终特征.数据的不平衡采取过采样、欠采样以及SMOTE采样等方法处理.最后采用基于Stacking算法融合模型,第1层学习器采用5种分类机器学习模型,并进行超参数调整;第2层采用LightGBM模型预测,以F1分数为评价指标,进行对A股市场预测哪些公司可能会实施高送转.  相似文献   

8.
针对传统人脸检测中的过分类问题,提出一种结合LBP算子与类覆盖捕获图的人脸检测算法.该算法首先用ε-LBP算子提取人脸图像纹理特征,并把对应不同ε值提取的LBP特征数据加权融合起来,形成人脸图像特征向量,然后采用类覆盖捕获图构造分类器,最终对人脸图像实现有效检测.与传统方法相比,基于随机图理论的类覆盖捕获图能够克服过分类缺陷,比其他近邻图分类器更具优势,性能也比较稳定.实验结果表明,该算法可以有效检测人脸图像,尤其对存在模糊和光照异常的人脸图像具有较高的精确度和鲁棒性.  相似文献   

9.
基于有限维离散数据的传统聚类分析并不能直接用于函数型数据的分类挖掘。本文针对函数型数据的稀疏性和无穷维特殊性展开讨论,在综合剖析现有函数型聚类方法优势与不足的基础上,依据聚类指标的信息量差异重构加权主成分距离为函数相似性测度,提出了一种函数型数据的自适应权重聚类分析。相对同类函数型聚类算法,新方法的核心优势在于:(1)自适应赋权的距离函数体现了聚类指标分类效率的差异,并且有充分的理论基础保证其必要性和客观合理性;(2)基于有限维离散数据的聚类实现了无限维连续函数的聚类,能够显著降低计算成本。实证检验表明,新方法的分类正确率明显提高,能够有效解决传统聚类算法极端情形下的失效问题,有着复杂函数型数据分类问题下的灵活性和普遍适用性。  相似文献   

10.
Boosting是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显.BAN(BN augmented Naive-Bayes)是一种增强的贝叶斯网络分类器,通过Boosting很容易提高其分类性能.比较了GBN(general BN)和BAN的打包分类器Wrapping-BAN-GBN与基于Boosting的BAN组合分类器Boosting-BAN.最后通过实验结果显示了在大多数实验数据上,Boosting-BAN分类器显示出较高的分类正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号