首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
信用风险评估是银行和其他金融机构信贷审批业务中必不可少的一环。为进一步提高信用风险评估的准确率和模型可解释性,提出了基于贝叶斯优化的极端梯度提升树(extreme gradient boosting,XGBoost)信用风险评估模型。XGBoost集成学习模型预测准确率高,基学习器采用树模型,易于可视化,具有良好的可解释性。然而,XGBoost模型超参数众多,模型效果依赖于超参数的精确设置。在这项研究中,采用贝叶斯高斯过程(GP)作为XGBoost的超参数优化器,并与网格搜索、随机搜索进行比较研究。所提出的模型在三个信用贷款数据集上进行训练和测试,选择准确率和F1分数等四项指标评价模型性能。实验结果发现将贝叶斯高斯过程用于XGBoost模型的超参数优化,收敛速度快。所提出的模型在三个数据集上的准确率比表现最好的对比模型分别高出3.5、3.62和0.91个百分点。  相似文献   

2.
针对机器学习应用于脓毒症预测存在预测准确率低和可解释性不足的问题,提出了利用LIME对基于机器学习的脓毒症预测模型进行可解释性分析.模型由预测和解释两部分组成:预测部分使用XGBoost和线性回归(LR),首先通过XGBoost进行特征提取,再利用LR对提取到的特征进行分类;解释部分使用LIME模型提取出关键的预测指标对模型进行解释.实验结果表明,通过XGBoost+LR模型进行脓毒症预测的准确率为99%,受试者工作特征曲线下面积(AUROC)为0.984,优于单独使用XGBoost(准确率:95%,AUROC:0.953)和LR(准确率:53%,AUROC:0.556)或者LGBM(准确率:90%,AUROC:0.974),同时通过LIME能有效地提取出前10个最重要的指标,对脓毒症预测模型进行可解释性分析,提高了模型的可信度.  相似文献   

3.
针对区块链上存在的欺诈账户给交易带来的安全问题,提出了基于机器学习的欺诈账户的检测及特征分析模型,将以太坊上真实的链上数据进行特征提取后作为模型的数据来源,通过对不同的机器学习方法进行比较得到最优模型并进行迭代训练以获得最佳的预测模型,同时引入 SHAP值对数据特征进行分析。实验结果表明,基于XGBoost的欺诈账户检测模型在RMSE、MAE和R2三组指标上达到了0.205、0.084和0.833,优于其余的对比模型,并结合SHAP值识别出预测欺诈账户的关键因素,为区块链的交易安全提供决策参考。  相似文献   

4.
雷雪梅  谢依彤 《计算机科学》2018,45(Z6):476-481
文中提出用于 高血压菜谱识别 的基于遗传算法的改进XGBoost(eXtreme Gradient Boosting)模型。该模型主要包括3个步骤:首先,对数据集进行预处理,包括缺失值补全、数据去重和特征分析;然后,使用遗传算法自适应地优化XGBoost模型参数;最后,根据最优参数训练高血压菜谱识别模型,并将其应用于高血压菜谱识别。结果表明,在高血压菜谱识别效果方面,采用遗传算法优化的参数优于网格搜索所得到的参数。此外,所提出的基于遗传算法的改进XGBoost模型在精度、回召率、F1值和AUC评估指标方面具有不错的表现,优于其他4种(随机森林、GBDT、Bagging和AdaBooster)组合分类模型,且提高了菜谱识别模型的可解释性。  相似文献   

5.
基于特征选择和模型可解释方法构建可解释性强的云平台任务终止状态预测模型,该模型可视化任务/作业的静态和动态属性与终止状态之间的映射关系,进而找出负载特征与任务终止状态之间的映射机理.利用Google公开的工作负载监控日志,并加入云平台中任务的动态信息,采用沙普利加和解释(Shapley additive explain,SHAP)找出静态和动态属性对终止状态影响的重要性,利用变量重要性结合SHAP值和XGBoost模型,对任务终止状态预测模型建模后的结果进行解释,使用可视化技术呈现负载特征如何影响模型对不同任务终止状态的预测.用SHAP值绝对值的平均值衡量特征的重要性,实现任务不同终止状态特征重要性的全局可视化,根据结果筛选出对任务终止状态预测模型影响大的20个变量,作为特征筛选的依据;由可视化的结果可知,任务运行过程中,各特征的不同特征值对任务的终止状态有影响,不同特征值对终止状态的产生有不同的影响.特征选择结合模型可解释性方法运用于任务终止状态预测模型的构建流程中,可辅助构建高分类性能及易于理解的任务终止状态预测模型,通过对负载特征与任务终止状态之间映射机理的探索,可以优化云平台的...  相似文献   

6.
针对冠心病重要特征不确定、诊断模型预测性能低等因素而导致冠心病早期诊断精度低的问题,提出一种基于高效通道注意力机制和特征融合的网络。通过XGBoost(eXtreme Gradient Boosting)来确定冠心病重要特征,设计数据生成图片的特征组合算法以适用该模型;为提高诊断模型预测性能,采用可以提升模型学习能力和特征利用率的高效通道注意力机制模块和特征融合模块。实验结果表明,在UCI克利夫兰心脏病数据集上,与其他诊断算法相比,该算法优于传统机器学习方法,预测精度可达100%且稳定性好。  相似文献   

7.
为解决常规特征选择方法无法有效度量特征间的非线性相关的局限性,提出基于最优特征组合改进极限梯度提升(extreme gradient boosting,XGBoost)的负荷预测方法.该方法首先计算历史负荷与待预测负荷之间的互信息值(MI),取互信息最大的K个历史负荷特征形成MI滤集;进而从MI滤集取特征归因(SHAP)值最大的前L个特征形成SHAP滤集.通过粒子群优化寻找最优K、L值,建立基于最优特征组合改进极限梯度提升的预测模型(optimal feature combination improved XGBoost,OFCI-XGBoost).结果表明所提方法的预测误差为1.11%,低于相同策略改进的支持向量机、决策树、岭回归模型,验证了该预测模型的有效性.  相似文献   

8.
为了提高变电站调试检修自动测试方法的智能水平,减少人工运维调试工作,提出一种构建LightGBM机器学习模型对变电站调试检修自动测试结果进行智能分析的方法。首先,构建LightGBM机器学习模型并对其进行参数调优和训练;然后采用变电站调试检修自动测试获取的数据对LightGBM机器学习模型进行测试;同时,构建XGBoost机器学习模型作为实验对照组,采用同样的实验方法对其进行训练与测试;最后,对比两种机器学习模型的综合性能。实验结果表明:LightGBM机器学习模型的拟合效果更好;XGBoost机器学习模型对自动检测方法故障类别预测出错数据的分析正确率最高为90.1%;而LightGBM机器学习模型的判断正确率维持在95%以上,最高达到了96.9%。可知在对变电站调试检修自动测试结果进行智能分析时,选择的LightGBM机器学习模型都更加适合,性能更稳定,能够实现提高变电站调试检修自动测试方法智能水平的目的。  相似文献   

9.
近年来,机器学习被逐渐运用到基于社交媒体文本数据的抑郁症检测中并凸显重要应用价值。为梳理其应用现状和发展方向,对用于抑郁症检测的社交媒体文本数据集、数据预处理和机器学习方法进行整理分类。在数据特征表示方面,对比分析了基础特征表示、静态词嵌入和语境词嵌入。全面分析了利用不同基础特征和不同算法类型的传统机器学习以及深度学习进行抑郁症检测的性能和特点。总结并建议未来在中文数据集的创建、模型的可解释性、基于隐喻的检测和轻量级预训练模型方面做进一步的探索。  相似文献   

10.
网络入侵检测系统(NIDS)是检测网络攻击和维护网络安全的关键技术之一,是网络安全领域中的重要研究方向;近年来,研究者利用机器学习算法来完成入侵检测任务并取得了很好的成果,但检测效率和精确率有待进一步提升;在对鲸鱼优化算法(WOA)和极限梯度提升算法(XGBoost)的特点进行实验和对比分析的基础上,提出了WOA-XGBoost模型,首先构建基于XGBoost的分类模型,然后利用WOA算法自适应搜索XGBoost的最优参数,最后基于NSL-KDD数据集评估所提出WOA-XGBoost模型的性能;实验结果表明,该模型在分类精确率、准确率、召回率和AP指标方面均优于其他模型如XGBoost、随机森林、Adaboost和LightGBM;该工作也为群体智能优化算法在网络入侵检测中的应用提供了依据。  相似文献   

11.
基于多层集成学习的岩性识别方法   总被引:1,自引:0,他引:1  
岩性识别是油藏地质解释中的关键问题和难点问题,人工智能特别是机器学习技术的发展和应用为岩性识别问题解决提供了新的技术途径。本文利用支持向量机(Support vector machine,SVM)、多粒度级联森林(Multi-grained cascade forest,GCForest)、随机森林(Random forest,RF)以及XGBoost(eXtreme gradient boosting)等机器学习模型建立一个异构多层集成学习模型,该集成学习模型克服了单一模型对数据集要求高、泛化能力差以及识别精度低等缺点。本文分别利用集成模型和单一模型进行了岩性识别实验。实验结果表明,本文集成模型在岩性分类测试集上平均精度达到96.66%,高于SVM的平均精度75.53%、GCForest的平均精度96.21%、随机森林的平均精度95.06%和XGBoost的平均精度95.77%。该集成模型能有效地用于油藏地质分析中的岩性识别和分类任务,适应性强,识别精度高。  相似文献   

12.
The prefabricated concrete buildings (PCBs)are the booster in the process of construction industrialization and intelligent upgrading. However, its high cost has become one of the restricting factors of further application and promotion of prefabricated concrete buildings. Moreover, the existing investment estimation methods of prefabricated concrete buildings have limited predicting accuracy as well as the ability of adapting dynamic factors. Therefore, to achieve more reliable and reasonable investment estimation of prefabricated concrete buildings, this paper has proposed an investment estimation model of prefabricated concrete buildings based on XGBoost machine learning algorithm. In the proposed model, the construction project cost-significance theory (CS) and analytic hierarchy process (AHP) were used to extract the construction characteristic indices of prefabricated concrete buildings investment estimation. Then the XGBoost machine learning algorithm was implemented to build an investment estimation model of prefabricated concrete buildings that was able to quantify the uncertainty of the confidence and prediction, and to enhance the interpretability of the model. The research conducted in this paper showed that when compared with traditional machine learning methods such as Support vector machine (SVM), Back Propagation Neural Network (BPNN) and Random Forest (RF), XGBoost had better generalization and interpretable ability. The discussion provided in this paper further demonstrated the reliability and feasibility of the proposed model, and provided reliable basis for the investment decision-making of prefabricated concrete building projects.  相似文献   

13.
深度学习目前在计算机视觉、自然语言处理、语音识别等领域得到了深入发展,与传统的机器学习算法相比,深度模型在许多任务上具有较高的准确率.然而,作为端到端的具有高度非线性的复杂模型,深度模型的可解释性没有传统机器学习算法好,这为深度学习在现实生活中的应用带来了一定的阻碍.深度模型的可解释性研究具有重大意义而且是非常必要的,近年来许多学者围绕这一问题提出了不同的算法.针对图像分类任务,将可解释性算法分为全局可解释性和局部可解释性算法.在解释的粒度上,进一步将全局解释性算法分为模型级和神经元级的可解释性算法,将局部可解释性算法划分为像素级特征、概念级特征以及图像级特征可解释性算法.基于上述分类框架,总结了常见的深度模型可解释性算法以及相关的评价指标,同时讨论了可解释性研究面临的挑战和未来的研究方向.认为深度模型的可解释性研究和理论基础研究是打开深度模型黑箱的必要途径,同时可解释性算法存在巨大潜力可以为解决深度模型的公平性、泛化性等其他问题提供帮助.  相似文献   

14.
肺癌是世界上死亡率最高的癌症,通过胸部CT影像检测肺结节对肺癌早期诊断和治疗意义重大。为了减轻放射科医生的工作量以及同时减少误诊率和漏诊率,研究人员提出了计算机辅助检测(CAD)系统辅助放射科医生检测和诊断肺结节。目前,研究人员正在尝试不同的深度学习技术,以提高计算机辅助诊断系统在基于CT图像的肺癌筛查中的性能。这项工作回顾了作为肺癌检测的CAD系统目前典型的深度学习的算法和框架,主要从数据集介绍、2D深度学习方法、3D深度学习方法、数据不平衡问题的处理、模型训练方法以及模型可解释性这六个方面进行介绍。最后,对各个方法的主要特点和算法性能进行了综合比较分析,并对如何提高结节检测性能进行了展望。  相似文献   

15.
为自动向医生推荐用于疾病辅助诊断的机器学习模型,提出一种筛选机器学习模型的方法。该筛选方法分为3个步骤:用训练准确度和测试准确度筛选机器学习模型;用查准率、召回率和F1成绩筛选机器学习模型;用带权值的总成绩计算公式推荐最优的机器学习模型。以乳腺癌辅助诊断为例,最终从8个机器学习模型中筛选并训练出高斯核心函数向量机模型(γ=0.5)推荐给医生使用,因为这个模型除满足筛选方法的3个条件外,总成绩最高,达到了0.985。  相似文献   

16.
外周穿刺置入中心静脉导管(PICC)技术被广泛运用于中长期静脉治疗. 在PICC置管时会导致各种并发症和不良反应, 如PICC相关性血栓. 随着机器学习和深度神经网络的不断发展与完善, 为PICC相关性血栓的辅助诊断提供了基于临床医学数据的解决方法. 本文构建了基于DeepFM和XGBoost的融合模型, 针对稀疏数据进行特征融合并能降低过拟合的情况, 能够对PICC相关性血栓提供风险预测. 实验结果表明, 融合模型能够有效地对PICC相关性血栓进行特征重要性提取并预测患病概率, 辅助临床在外周穿刺置过程中识别血栓高危风险因素, 及时进行干预从而预防血栓的发生.  相似文献   

17.
本文提出一种基于K-means聚类与机器学习回归算法的预测模型以解决零售行业多个商品的销售预测问题,首先通过聚类分析识别出具有相似销售模式的商品从而实现数据集的划分,然后分别在每个子数据集上训练了支持向量回归、随机森林以及XGBoost模型,通过构建数据池的方式增加了用于训练模型的数据量以及预测变量的选择范围.在一家零售企业的真实销售数据集上对提出的模型进行了验证,实验结果表明基于K-means和支持向量回归的预测模型表现最优,且所提出的模型预测效果明显优于基准模型以及不使用聚类的机器学习模型.  相似文献   

18.
To improve occupant safety during building emergencies, evacuation simulations have been widely used for building safety design. Since occupant behavior is a determining factor for the outcome of building emergencies, accurately capturing how occupants make decisions and integrating occupants’ decision-making processes in evacuation simulations is important. In this study, based on the results of fire evacuation experiments in a virtual metro station, how different social (crowd flow) and environmental (visual access and vertical movement) factors would affect individuals’ wayfinding behavior was predicted using machine learning and discrete choice models. The trained models were further employed in agent-based evacuation simulations to examine crowd evacuation performance under different building design scenarios. Both the machine learning and discrete choice models could accurately predict individuals’ directional choices during emergency evacuations. Different building attributes could collectively influence occupant behavior, leading to distinct exit choices and evacuation times. While both the trained machine learning and discrete choice models generated similar results, the discrete choice model had better interpretability. Moreover, by comparing the trained models in this study with a model developed in a prior study, it was found that agents had significantly distinct responses to different building designs. Critical factors (e.g., type and size of buildings, occupants’ familiarity with the building) for the applicability of evacuation models were identified. Furthermore, recommendations were provided for future research that aims at employing evacuation simulations for building design evaluation and optimization.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号