首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 62 毫秒
1.
针对信用数据中的高维稀疏特征与样本不平衡问题易导致模型分类性能欠佳,提出一种新颖的框架来构建信用评分模型。首先,通过计算特征相似度解决高维稀疏特征;其次针对样本不平衡问题提出基于特征聚类改进的SMOTE方法(FC-SMOTE),以平衡数据集进而提高模型分类性能;最后,采用XGBoost作为基分类器构建信用评分模型。选择网上公开的真实信用数据及UCI数据库中的信用数据进行实验,和传统过采样方法 SMOTE、Borderline SMOTE、ADASYN进行对比,实验结果表明,提出的FC-SMOTE方法使基于XGBoost构建的信用评分模型具有更高预测精度。  相似文献   

2.
3.
随着金融机构信用卡业务的快速发展,信用卡欺诈行为成为金融机构面临的严峻问题。针对金融机构信用卡数据分布不均衡问题,本文采用过采样、降采样、SMOTE+ENN、SMOTE+Tomeklin、改进的SMOTE+Tomeklin和改进的SMOTE+ENN混合采样这6种不同采样方法对不平衡数据进行平衡处理,然后将平衡数据集输入到多种分类算法模型中进行实验比对,最后提出一种基于改进的SMOTE+ENN混合采样和XGBoost算法的信用卡欺诈行为检测模型。通过5种评价指标验证该检测方法不仅提高了信用卡欺诈行为不平衡数据的区分度,同时提高了信用卡欺诈行为检测的准确性和可行性。  相似文献   

4.
贷款风险分析是全球金融机构面临的共同考验.在大数据背景下,通过机器学习算法预防贷款风险具有现实意义.针对贷款数据不平衡、噪声大等特点,本文采用Boruta特征选择算法对贷款数据进行重要性筛选;提出通过综合学习粒子群算法(Comprehensive Learning Particle Swarm Optimization...  相似文献   

5.
针对当前银行用户数据中良好用户与违约用户存在类别不平衡的情况,以及由此导致分类模型出现过拟合且准确率过于乐观的问题,提出一种基于SMOTE+TOMEK采样算法的XGBoost分类模型。该模型以Lending Club公开信贷数据集为实验数据,通过SMOTE+TOMEK算法进行采样得到样本均衡化且边界清晰的平衡数据集,通过XGBoost模型对数据样本进行分类并与单一分类模型进行对比。实验结果表明,ST-XGB模型从精准率、AUC分数等模型评估指标均优于单一分类模型,具有较好的泛化能力与稳定性。  相似文献   

6.
龚追飞  魏传佳 《计算机科学》2021,48(12):226-230
为了提高复杂网络链路预测的性能,采用拓扑相似和XGBoost算法来完成复杂网络链路预测.利用复杂网络拓扑结构建立邻接矩阵,求解共同邻居集合,然后根据拓扑相似理论计算复杂网络相似得分函数,将各个时间窗的得分函数和权重参数作为输入,采用XGBoost算法实现复杂网络的链路预测.通过差异化设置XGBoost算法的两个正则化系数,测试其对链路预测准确率的影响,获取最优正则化系数,从而得到稳定的XGBoost链路预测模型.实验证明,时间窗数量设置合理的情况下,相比常用网络链路预测算法,基于拓扑相似和XGBoost算法的预测准确率优势明显,且预测时间性能和其他算法的差距较小,尤其适用于大规模的复杂网络链路预测.  相似文献   

7.
8.
肾移植手术在当今的应用越来越广泛,对于排斥反应的预测变得更加重要。针对排斥反应数据特点中存在的数据的维度高、数据时序性、样本不均衡等问题,将循环神经网络应用于肾移植排斥反应的预测,本文提出一种结合SMOTE(Synthetic Minority Over-sampling Technique)以及RNN(Recurrent Neural Network)的算法。该方法先处理数据,降低正负样本的不平衡度,且解决样本量不足的问题,再根据RNN的学习过程进行关键参数调整、优化。经过实验发现,该方法可以有效提升正负分类的准确率,与传统的马尔可夫时间序列预测算法相比,准确率提高了16.7%,传统RNN训练经过优化后,相对错误率下降了5.03%,可以使用该方法进行肾移植排斥反应的有效预测。  相似文献   

9.
为解决加密型Webshell与非加密型Webshell的代码特征不统一、难以提取的问题,提出一种基于XGBoost算法的Webshell检测方法。首先,对Webshell进行功能分析,发现绝大部分Webshell都具有代码执行、文件操作、数据库操作和压缩与混淆编码等特点,这些特征全面地描述了Webshell的行为。因此,对于非加密型的Webshell,将其主要特征划分为相关函数出现的次数。对于加密型的Webshell,根据代码的静态特性,将文件重合指数、信息熵、最长字符串长度、压缩比4个参数作为其特征。最后,将两种特征统一起来作为Webshell特征,改善了Webshell特征覆盖不全的问题。实验结果表明,所提方法能有效地对两种Webshell进行检测;与传统的单一类型Webshell检测方法相比,该方法提高了Webshell检测的效率与准确率。  相似文献   

10.
为了使高校的就业指导工作更具针对性,可以有针对性地培养学生,本文收集了毕业生的相关信息及其各自的就业情况,构建了基于HMIGW特征选择和XGBoost的分类预测建模算法,并将其应用于毕业生就业预测.本文首先考虑到学生信息数据具有离散型和连续型混合的特点,提出一种适应于就业预测的基于互信息和权重的混合(Hybrid feature selection based on Mutual Information and Gain Weight,以下简称HMIGW)特征选择算法,该方法先对学生数据的特征做相关性估值,然后采用前向特征添加后向递归删除策略进行特征选择,最后基于选择后的最优特征子集数据用XGBoost预测模型进行训练与结果预测.通过对比不同算法的结果,本文采用的预测方法在准确率和时间等评价指标上有较好的表现,对于毕业生培养就业指导具有积极作用.  相似文献   

11.
针对全麻手术患者术中低体温发生率高、影响因素复杂的问题,提出了一种基于特征选择和XGBoost优化的术中低体温预测模型,以更好辅助医生对全麻手术患者的临床诊断.首先,利用随机森林(Random forest,RF)在处理高维数据集上的优势,通过RF的袋外估计法进行特征选择.然后,以极端梯度提升(XGBoost)为基础,...  相似文献   

12.
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用。现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向。本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测。本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果。  相似文献   

13.
企业的实力、效益及信用等直接关系到对它提供贷款银行的风险。企业的财务状况、非财务状况、现金流量、信用支持及预期时间等诸要素也存在着不确定性。本文借鉴专家系统不确定性推理方法Bayes提出贷款风险的可信度的思想,并给出了贷款风险的可信度因子模型。该模型可以更好地评估银行贷款的风险。  相似文献   

14.
针对医学疾病数据中存在特征冗余的问题,以XGBoost特征选择方法度量特征重要度,删除冗余特征,选择最佳分类特征;针对识别精度不高的问题,使用Stacking方法集成XGBoost、LightGBM等多种异质分类器,并在异质分类器中引入性能更好的CatBoost分类器提升集成分类器分类精度。为了避免过拟合,选择基层分类器输出的分类概率作为高层分类器输入。实验结果表明,提出的基于XGBoost特征选择的XLC-Stacking方法相比当前主流分类算法以及单一的XGBoost算法和Stacking方法有较大提升,识别的准确率和F1-Score达到97.73%和98.21%,更加适用于疾病的诊断。  相似文献   

15.
随着智能化设备的日益更新和计算机储存数据能力的提升,制造业企业在其产品制造过程中产生了大量的流水线数据,如何充分利用这些数据一直是工业界的一个难题.本文根据制造业企业的真实大规模生产数据,通过对其进行细致的探索性数据分析,建立了一种基于FTRL和XGBoost算法的二分类产品故障预测模型,并根据适用于非平衡数据集的MCC (Matthews Correlation Coefficient)评价指标采用交叉验证方法对其进行优化.实验结果表明,该模型对于大规模(不仅样本量大,特征量也很大)正负样本非平衡的生产流水线数据集具有运行效率高,故障预测精度高的效果.基于此模型我们可以构建更智能的产品故障检测系统,有效降低企业运营成本的同时也带来了可观的利润增长.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号