首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 390 毫秒
1.
针对信用数据中的高维稀疏特征与样本不平衡问题易导致模型分类性能欠佳,提出一种新颖的框架来构建信用评分模型。首先,通过计算特征相似度解决高维稀疏特征;其次针对样本不平衡问题提出基于特征聚类改进的SMOTE方法(FC-SMOTE),以平衡数据集进而提高模型分类性能;最后,采用XGBoost作为基分类器构建信用评分模型。选择网上公开的真实信用数据及UCI数据库中的信用数据进行实验,和传统过采样方法SMOTE、Borderline SMOTE、ADASYN进行对比,实验结果表明,提出的FC-SMOTE方法使基于XGBoost构建的信用评分模型具有更高预测精度。  相似文献   

2.
随着计算机技术的发展,利用机器学习算法构建自动化评估模型已经成为金融机构进行信用评估的重要手段。然而,目前信用评估模型仍存在一些问题:信用数据本身存在类别不平衡和高维特征的问题,并且不同的时间下外界环境的改变会影响信用主体的行为,即数据会产生概念漂移现象。为此,文中提出了一个动态的信用评估模型,通过集成学习在新的增量数据上训练基分类器,并对各个基分类器的权重进行动态调整来适应概念漂移,以实现模型的动态更新。当发生概念漂移时,会针对概念漂移的检测结果对高维不平衡的信用数据进行不同形式的均衡化和特征选择。特别地,针对特征选择,文中提出了结合历史代表性样本的增量特征选择算法,该算法能够进行高效准确的特征选择,从而使模型可以同时解决增量信用数据存在的高维不平衡和概念漂移问题。最后,文中选取了真实的增量高维信用数据集,验证了所提算法相比其他主流算法在准确率和效率上的优越性。  相似文献   

3.
传统用户信用评价方法仅通过构建二分类模型实现用户欺诈检测,难于挖掘应用的潜在价值.文中将用户信用评价转化为基于用户信用等级排序的有序回归问题,提出结构化非线性有序回归算法,实现高效信用等级分析.首先,生成自适应局部权值矩阵,解决样本非平衡分布产生的过学习与欠学习问题.然后,引入错分样本惩罚约束优化投影方向,避免噪音对判别模型求解产生影响,提升鲁棒性.最后,采集实际应用数据,实现特征转化及有序类别标注,并验证算法.实验结果表明文中算法效果较优.  相似文献   

4.
针对现有的海量非平衡数据集中少数类别样本入侵检测率低的问题,提出一种类平衡算法与卷积神经网络相结合的网络入侵检测方法。该方法使用ROS(Random Over Sampler)对少数类样本进行过采样,利用高斯混合模型GMM(Gaussian Mixture Model)对多数类样本进行聚类欠采样,进而在平衡的数据集上通过CNN来学习网络流量数据中的高维特征,利用Softmax回归对数据进行分类。利用原始的未经平衡处理的数据集以及经过不同类平衡算法处理的CICIDS2017数据集分别对模型进行验证测试。结果表明,该方法在保持较高的整体检测率的同时,对少数类别样本的检测率有了更高的提升,从而验证了该方法具有较好的实用价值。  相似文献   

5.
基于数据挖掘聚类技术的信用评分评级   总被引:7,自引:0,他引:7  
本文提出了一个基于数据挖掘聚类技术的信用评分评级方法。该方法使用数据挖掘的聚类算法,对传统信用评分模型进行了改进,本文给出了方法的理论证明,并在一个信用卡分析系统DMCA中实现了该方法,进行了详细的数据测试。理论证明及实验结果都表明,聚类技术在传统信用评分模型的DM/MTM,分界值,均方差,交叉验证等问题上取得了良好的效果。  相似文献   

6.
非平衡问题是数据挖掘领域中普遍存在的一个问题,数据的偏态分布会使得分类器的分类效果不理想.卷积神经网络作为一种高效的数据挖掘工具,被广泛应用于分类任务,但其训练过程若受到数据非平衡的不利影响,则将导致少数类的分类准确率下降.针对二分类非平衡数据分类问题,文中提出了一种基于代价敏感卷积神经网络的非平衡问题混合方法.首先将密度峰值聚类算法与SMOTE相结合,通过过采样对数据进行预处理,降低原始数据集的不平衡程度;然后利用代价敏感思想对非平衡数据中的不同类别给予不同权重,并考虑预测值与标签值之间的欧氏距离,对非平衡数据中多数类和少数类赋予不同的代价损失,构建代价敏感卷积神经网络模型,以提高卷积神经网络对少数类的识别率.选取6个不同的数据集,用于验证所提方法的有效性.实验结果表明,所提方法可以提高卷积神经网络模型对非平衡数据的分类性能.  相似文献   

7.
主要是针对采样过程中的非平衡数据进行处理、分类,改变传统算法在其处理过程中的分类倾向性。结合数据挖掘中多种分类算法构建的混合模型进行分类处理非平衡采样数据,并将优化的结果进行比较。  相似文献   

8.
使用医疗信息系统的数据进行睡眠呼吸暂停低通气综合征(OSAHS)预测和分析过程中,存在不平衡数据问题。为此,在现有临床研究的基础上,提出了一种基于ROSE(Random Over Sampling Examples)和C5.0算法的初筛模型。利用收集到的人体测量学指标数据,通过数据预处理,删除异常值并填补缺失值。然后采用ROSE算法对数据进行平衡,利用C5.0分类器对平衡后的数据构建筛查模型,通过十则交叉验证的方法检验模型的筛查效果。实验结果表明,使用该模型进行打鼾患者的OSAHS筛查,可以有效地提高筛查效率。  相似文献   

9.
针对现实信用评分业务中样本类别不平衡和代价敏感问题,以及金融机构更期望以得分的方式直观地认识贷款申请人的信用风险的实际需求,提出一种基于Ext-GBDT集成的类别不平衡信用评分模型。使用欠采样的方法从"好"客户(大类)中随机采样多份与全部"坏"客户(小类)等量的样本,分别与全部小类构成训练子集;用不同的训练子集及特征采样和参数扰动的方法训练得到多个差异化的Ext-GBDT子模型;然后使用简单平均法整合子模型的预测概率;最后将信用概率转换为信用评分。在UCI德国信用数据集上,以AUC和代价敏感错误率作为评价指标,与决策树、逻辑回归、朴素贝叶斯、支持向量机、随机森林及其集成模型等当前最为常用的信用评分模型进行对比,验证了该模型的有效性。  相似文献   

10.
传统医保信息欺诈检测算法存在运行时间长、效率低的问题,无法保障患者医保信息安全,为了解决该问题,采用基于随机森林算法对失稳网络医保信息欺诈行为进行检测。通过混合抽样可抽取在失稳情况下的数据,并建立非平衡数据分类算法抽样机制;进行迭代随机森林数据计算,采用多数投票法构建基分类器,并以此为基础筛选异常数据;利用模型实现该算法对医保信息欺诈检测。设计对比实验,验证该算法有效性。通过实验结果可知,基于随机森林算法运行时间较短、效率高。  相似文献   

11.
信用评分系统是在信用风险管理中比较重要的应用,可通过大数据分析技术构建评估分析模型来解决信用风险预测问题。具体而言:基于scikit-learn平台,利用平台中的特征选择方法构建有效模型,并将模型应用至实际数据集中得出信用评分,根据所得的评分结果向信用评估人员提供决策建议,从而降低最终风险。  相似文献   

12.
支持向量机作为非参数方法已经广泛应用于信用评估领域.为克服其训练高维数据不能主动进行特征选择导致准确率下降的缺点,构建C4.5决策树优化支持向量机的信用评估模型.利用C4.5信息熵增益率方法进行属性选择,减少冗余属性.模型通过网格搜索确定最优参数,使用F-score和平均准确率评价模型性能,并在两组公开数据集上进行验证.实证分析表明,C4.5决策树优化支持向量机的信用评估模型有效减少了数据学习量,较于传统各类单一模型有较高的分类准确率和实用性.  相似文献   

13.
针对供应链金融模式下中小企业的信用风险控制问题,提出了一种面向高维和不平衡数据的信用风险预测模型。首先,基于Pearson-XGBoost两阶段特征选择建立供应链金融信用评价指标体系;其次,通过改进的NM-SMOTE算法对数据集进行平衡化;最后,利用Focal loss函数对XGBoost算法改进,并通过改进的粒子群算法进行优化,从而建立最终的信用评价模型。通过实验结果表明,提出的INS-IPSO-FLXGBoost模型对于中小企业具有更好的预测效果,可以更有效地识别风险企业。  相似文献   

14.
针对数据采集过程中的数据分布不平衡的问题,对非平衡数据应用数据挖掘分类算法进行分类。传统的分类器在处理非平衡数据时分类结果往往倾向于样本数目较多的类。但Adaboost算法在处理非平衡数据过程中表现出了优势,主要是对Adaboost算法进行改进和应用,采用级联的Adaboost分类器并结合SVM算法构造出分类效率更高的分类器。最后通过具体数据验证改进后算法的有效性。  相似文献   

15.
利用各类算法对非平衡数据进行处理已成为数据挖掘领域研究的热问题。针对非平衡数据的特点,在研究支持向量机的相关理论及K-SVM算法基础上,提出基于惩罚机制的PFKSVM(K-SVMbased on penalty factor)算法,克服K-SVM在最优分类面附近易发生错分的问题;并提出由重构采样层、基本训练层和综合判定层组成的集成学习模型。利用UCI公共数据集的实验验证了PFKSVM算法及集成模型在处理非平衡数据分类时的优势。  相似文献   

16.
针对信贷行业信用评分业务中存在的样本类别不平衡问题,首先在信用评分各影响因素Fisher比率值分析的基础上确定主要评判指标;而后以基于支持度的过采样算法(SDSMOTE)为样例合成算法,支持向量机(SVM)为基预测器,Boosting算法为框架构建基于Fisher-SDSMOTE-ESBoostSVM的类别不平衡信用评分预测模型;并在基分类器训练结束后引入“淘汰策略”,删除未被正确分类的合成样例,重新生成正类样例并修正样例权重;最后以UCI数据库中德国信用数据集为实验样本,F-measure值和G-mean值为评价指标,对比分析Fisher-SDSMOTE-ESBoostSVM与其他集成学习算法的预测结果。实验结果表明,Fisher-SDSMOTE-ESBoostSVM算法应用到信贷行业客户信用评分预测中具有可行性和适应性,且预测准确率较高,具有一定的实际应用价值。  相似文献   

17.
随着互联网金融和电子支付业务的高速增长,由此引发的个人信用问题也呈现与日俱增的态势.个人信用预测本质上是不平衡的序列二分类问题,这类问题的数据样本规模大、维度高、数据分布极不平衡.为了高效区分申请者的信用情况,本文提出一种基于特征优化和集成学习的个人信用预测方法 (PL-SmoteBoost).该方法在Boosting集成框架下构建个人信用预测模型,首先利用Pearson相关系数对数据进行初始化分析,剔除冗余数据;通过Lasso选取部分特征来减少数据维度,降低高维风险;通过SMOTE过采样方法对降维数据的少数类进行线性插值,以解决类不平衡问题;最后为了验证算法有效性,以常用的处理二分类问题的算法作为对比方法,采用从Kaggle和微软开放数据库下载的高纬度不平衡数据集对算法进行测试,以AUC作为算法的评价指标,利用统计检验手段对实验结果进行分析.结果表明,相对于其他算法,本文提出的PL-SmoteBoost算法具有显著优势.  相似文献   

18.
近年来,随着在线信贷的飞速发展,贷款总量不断加大,违约概率不断提升。因此对贷款风险进行深入研究,对在线信贷企业预防互联网金融风险是非常具有现实意义的。针对贷款数据非平衡分布、大量噪声、维度高的问题,本文提出一种基于SMOTE和XGBoost的贷款风险预测方法。通过特征工程对数据进行降维和去噪;针对数据的非平衡问题,使用SMOTE算法进行过采样,平衡正负样本数目;基于以上工作,构建XGBoost分类模型,与一些传统分类算法进行对比,然后对比在不同正负样本比例时,预测结果的有效性。实验表明,相比于传统分类模型,XGBoost算法在贷款风险预测模型中具有更好的效果,通过SMOTE算法增加少数类样本的比例可以提高预测结果的有效性。  相似文献   

19.
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。  相似文献   

20.
针对软件缺陷预测中不平衡数据的分类问题,提出了一种基于过采样和集成学习的类不平衡软件缺陷预测模型XG-AJCC(AJCC-Ram+XGBoost).在预处理阶段,提出了AJCC-Ram(Adaptive Judgment Cure Clustering Random Sampling)多层次过采样方法.该方法基于改进的ADASYN自适应过采样和CURE-SMOTE过采样分别在类边缘和类中心层面生成新样本,通过CLNI方法对样本生成后的数据集进行噪声过滤及清理.在模型构建阶段,与集成算法XGBoost(eXtreme Gradient Boosting)相结合形成最终的不平衡数据缺陷预测模型.本文在AEEEM数据集和NASA数据集中进行了验证,实验结果表明:较于经典的采样方法和采样集成预测模型,在F1指标上AJCC-Ram过采样方法及XG-AJCC采样集成算法模型均能够取得有效的预测结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号