首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
在生产实际中,一个新的任务通常和已有任务存在一定的联系。迁移学习方法可以将已有数据集中的有用信息,迁移到新的任务,以减少重新建模过程中大量的时间和费用消耗。然而,由于任务之间的分布差异,在异构环境下如何避免负面迁移问题,仍未得到有效的解决。除了要衡量数据间的相似性,还需要衡量实例间的相关性,而大多数传统方法仅在一个层面进行操作。提出了基于压缩编码的迁移学习方法(TLCC),建立了两个层面的算法模型,具体来说,在数据层面,数据间的相似性可以表示为超平面分类器的编码长度,而在实例层面,通过进一步挑选出有价值的实例进行迁移,提升算法性能,避免负面迁移的发生。实验结果表明,提出的算法相比其他算法具有明显的优势,在噪声环境下也有较高的准确度。  相似文献   

2.
针对现有恶意域名检测算法对于新出现或新变种等小样本恶意域名检测精度不高和检测范围较小的问题,本文提出一种迁移自反馈学习的小样本恶意域名检测算法.首先,该算法融合卷积神经网络(Convolutional Neural Networks, CNN)和双向长短时记忆神经网络(Bi-directional Long Short Term Memory, BiLSTM)的串行混合模型(CNN-BiLSTM),在提取域名字符特征的基础上保留上下文语义信息;然后,将学习到的网络模型参数迁移至小样本的恶意域名检测模型中;最后,利用提取的多维人工特征验证小样本恶意域名检测模型的检测结果,并将其检测结果反馈至迁移模型中,重新优化网络模型.通过在多家族域名数据集和小样数据集上进行测试验证,算法结果表明,本文模型在保持检测精度的基础上,能够识别出更多种新出现或新变种的小样本恶意域名.  相似文献   

3.
随着互联网技术的发展,个性化的推荐系统得到了广泛应用.但用户数据稀疏与冷启动仍是推荐系统普遍面临的难题.将深度学习与注意力机制相结合,提出基于用户-项目交叉注意力机制的迁移推荐模型.该模型能够充分学习源域数据中用户、物品及评分间的潜在关系,然后初始化目标域神经网络,迁移应用到目标域.为验证算法模型的有效性,在公开数据集...  相似文献   

4.
针对现实信用评分业务中样本类别不平衡和代价敏感问题,以及金融机构更期望以得分的方式直观地认识贷款申请人的信用风险的实际需求,提出一种基于Ext-GBDT集成的类别不平衡信用评分模型。使用欠采样的方法从"好"客户(大类)中随机采样多份与全部"坏"客户(小类)等量的样本,分别与全部小类构成训练子集;用不同的训练子集及特征采样和参数扰动的方法训练得到多个差异化的Ext-GBDT子模型;然后使用简单平均法整合子模型的预测概率;最后将信用概率转换为信用评分。在UCI德国信用数据集上,以AUC和代价敏感错误率作为评价指标,与决策树、逻辑回归、朴素贝叶斯、支持向量机、随机森林及其集成模型等当前最为常用的信用评分模型进行对比,验证了该模型的有效性。  相似文献   

5.
TrSVM:一种基于领域相似性的迁移学习算法   总被引:1,自引:0,他引:1  
迁移学习是对传统监督学习的扩展,试图利用其他相关领域中的现存数据来帮助完成当前领域的学习任务.对于归纳式迁移学习算法,当目标领域只有少量数据时,已有的算法容易受到选择性偏差的影响,不能充分发挥相关领域数据的作用.为解决该问题,提出一种利用领域相似性的新途径:通过定义领域弱相似性的概念,将相似性的约束与目标分类器联系起来,能在训练过程中有效利用相关领域的大量数据,设计出一种基于支持向量机的迁移学习算法TrSVM,并给出求解过程.在大量数据集上的实验结果表明了新算法的有效性.  相似文献   

6.
近年来,对象识别方法被应用到多个领域.如人脸检测,车辆检测.然而模型训练所需要的边框标定需要很大的工作量.本文通过基于迁移学习的方法,将物体检测任务迁移到商品检测,且不需要边框标定.本文在分类层和边框回归层之间建立关系层,来学习两种任务之间的关联.本文建立了一个商品数据集,并提出了一种深度学习训练方法,解决了可旋转物体的检测问题.基于Faster RCNN框架,本文提出一种候选选择方法,可以在无边框标定情况下训练商品分类.本文提出的商品检测方法不需要边框标定,而且很容易训练并应用到其它数据集.  相似文献   

7.
范例推理技术是人工智能领域中一种基于知识的问题求解和学习方法.为了有效评估银行客户信用等级并提高银行信贷业务效率,文中提出了范例推理技术(CBR)在银行客户信用评估中的应用,并给出了基于范例推理的银行客户信用评估系统的原型,介绍了该系统中的关键技术:范例表示、相似性计算和范例检索,研究了归纳学习、特征子集选择等机器学习方法在范例检索中的应用.  相似文献   

8.
针对信贷行业信用评分业务中存在的样本类别不平衡问题,首先在信用评分各影响因素Fisher比率值分析的基础上确定主要评判指标;而后以基于支持度的过采样算法(SDSMOTE)为样例合成算法,支持向量机(SVM)为基预测器,Boosting算法为框架构建基于Fisher-SDSMOTE-ESBoostSVM的类别不平衡信用评分预测模型;并在基分类器训练结束后引入“淘汰策略”,删除未被正确分类的合成样例,重新生成正类样例并修正样例权重;最后以UCI数据库中德国信用数据集为实验样本,F-measure值和G-mean值为评价指标,对比分析Fisher-SDSMOTE-ESBoostSVM与其他集成学习算法的预测结果。实验结果表明,Fisher-SDSMOTE-ESBoostSVM算法应用到信贷行业客户信用评分预测中具有可行性和适应性,且预测准确率较高,具有一定的实际应用价值。  相似文献   

9.
在贝叶斯网络(Bayesian network, BN)参数学习中, 如果数据不够充分, 将无法建立准确的BN模型来分析和解决问题. 针对电熔镁炉熔炼过程的异常工况识别建模, 提出一种新的BN参数迁移学习方法来改进异常工况识别精度. 该方法可以解决源域BN与目标域BN在结构不一致情况下的参数迁移学习问题. 在实验部分, 首先在著名的Asia网络上对该方法进行了验证, 然后将其应用于电熔镁炉熔炼过程排气异常工况识别BN模型的参数学习. 实验结果表明, 与小数据下建立的目标域BN模型相比, 该方法较大地提高了异常工况识别的准确性.  相似文献   

10.
电信流失客户数据精确预测是挽留客户的有效手段.电信业的管理中对收费、投诉、业务受理等问题,显然是一种典型的非平衡样本,传统用标准的支持向量机没有考虑样本分布不平衡问题,虽然在样本数据平衡前提下具有较好的预测精度,但对于不平衡电信客户数据,预测精度大大下降.为提高预测精度,针对支持向量机处理不平衡样本时的缺陷,提出了基于代价敏感学习的支持向量机模型.模型利用代价敏感学习对不平衡样本集分别采用不同惩罚系数,然后建立电信客户流失预测模型,最后对实际电信客户流失数据进行测试.通过与标准支持向量机、神经网络对比,结果表示模型提高了预测精度,有效地解决了数据集非平衡性问题,是一种有效的电信客户流失预测方法.  相似文献   

11.
卞凌志  王直杰 《计算机应用》2021,41(9):2539-2544
信用风险是商业银行所面临的主要金融风险之一,而传统的基于统计学习的信用评分方法不能有效利用现有的特征学习方法,因此预测准确度不高。为解决这个问题,提出一种增强多维多粒度级联森林的方法建立信用评分模型,借鉴残差学习的思想,建立了多维多粒度级联残差森林(grcForest)模型,从而大幅增加提取的特征。除此之外,使用多维多粒度的扫描尽可能多地提取原始数据的特征,从而提高了特征提取的效率。对各模型的实验结果通过AUC(Area Under Curve)、准确率等指标进行评价,同时把所提模型与现有的统计学习和机器学习算法在四个不同的信用评分数据集上进行对比,可知所提出的模型的AUC值相较于轻量级梯度提升机(LightGBM)方法平均高1.13%,相较于极端梯度提升(XGBoost)方法平均高1.44%。从实验结果可以看出,提出的模型预测效果最佳。  相似文献   

12.
针对个人信用评估中未标号数据获取容易而已标号数据获取相对困难,以及普遍存在的数据不对称问题,提出了基于改进图半监督学习技术的个人信用评估模型。该模型采用了半监督学习技术,一方面能从大量的未标号数据中学习,避免了个人信用评估中已标号数据相对缺乏造成的泛化能力下降问题;另一方面,通过改进图半监督学习技术,对图半监督迭代结果进行归一化及修改决策边界,有效减小了数据不对称的影响。在UCI的三个信用审核数据集上的评测结果表明,该模型具有明显优于支持向量机和改进前方法的评估效果。  相似文献   

13.
逾期风险控制是信用贷款服务的关键业务环节,直接影响放贷企业的收益率和坏账率。随着移动互联网的发展,信贷类金融服务已经惠及普罗大众,逾期风控也从以往依赖规则的人工判断,转为利用大量客户数据构建的信贷模型,以预测客户的逾期概率。相关模型包括传统的机器学习模型和深度学习模型,前者可解释性强、预测能力较弱;后者预测能力强、可解释性较差,且容易发生过拟合。因此,如何融合传统机器学习模型和深度学习模型,一直是信贷数据建模的研究热点。受到推荐系统中宽度和深度学习模型的启发,信贷模型首先可以使用传统机器学习来捕捉结构化数据的特征,同时使用深度学习来捕捉非结构化数据的特征,然后合并两部分学习得到的特征,将其经过线性变换后,最后得到预测的客户的逾期概率。所提模型中和了传统机器学习模型和深度学习模型的优点。实验结果表明,其具有更强的预测客户逾期概率的能力。  相似文献   

14.
Credit scoring model is an important tool for assessing risks in financial industry, consequently the majority of financial institutions actively develops credit scoring model on the credit approval assessment of new customers and the credit risk management of existing customers. Nonetheless, most past researches used the one-dimensional credit scoring model to measure customer risk. In this study, we select important variables by genetic algorithm (GA) to combine the bank’s internal behavioral scoring model with the external credit bureau scoring model to construct the dual scoring model for credit risk management of mortgage accounts. It undergoes more accurate risk judgment and segmentation to further discover the parts which are required to be enhanced in management or control from mortgage portfolio. The results show that the predictive ability of the dual scoring model outperforms both one-dimensional behavioral scoring model and credit bureau scoring model. Moreover, this study proposes credit strategies such as on-lending retaining and collection actions for corresponding customers in order to contribute benefits to the practice of banking credit.  相似文献   

15.
Analyzing bank databases for customer behavior management is difficult since bank databases are multi-dimensional, comprised of monthly account records and daily transaction records. This study proposes an integrated data mining and behavioral scoring model to manage existing credit card customers in a bank. A self-organizing map neural network was used to identify groups of customers based on repayment behavior and recency, frequency, monetary behavioral scoring predicators. It also classified bank customers into three major profitable groups of customers. The resulting groups of customers were then profiled by customer's feature attributes determined using an Apriori association rule inducer. This study demonstrates that identifying customers by a behavioral scoring model is helpful characteristics of customer and facilitates marketing strategy development.  相似文献   

16.
陈霞 《计算机系统应用》2022,31(10):382-388
当前金融机构正在努力应对不良资产的增长问题, 在信贷领域借贷逾期预测结果的准确性将直接决定不良资产的规模. 为了更好预测借贷人的还款能力, 通常会引入数据模型方法, 但对于数据样本较少的新业务, 单纯用这类数据容易导致模型结果过拟合. 本文通过实际案例分析, 对小样本业务数据进行相似业务数据补充, 并采用随机森林、LightGBM、XGBoost、DNN和TrAdaBoost 迁移学习方法, 旨在为小样本业务在模型建立过程中样本不足的问题提供一种有效的解决方法. 研究结果表明, 针对数据量少的产品, 结合相似金融业务数据后采用这五种机器学习模型方法的预测结果AUC (area under curve)均大于80, 其中使用迁移学习模型比LightGBM、XGBoost、DNN和随机森林模型在预测集上的AUC至少高出2个点; 此外迁移学习模型的预测结果的精准率(88%)和召回率(73%)也是最高的.  相似文献   

17.
为了克服现有客户分类方法在假设前提、准确度、泛化能力等方面的不足,提出了一种F-scores和SVM算法相结合的客户分类方法,并把该方法应用到银行信用卡客户分类问题中予以验证.实证分析表明:该方法最终的模型验证准确率可达95%以上,学习和分类能力良好.  相似文献   

18.
Credit score classification is a prominent research problem in the banking or financial industry, and its predictive performance is responsible for the profitability of financial industry. This paper addresses how Spiking Extreme Learning Machine (SELM) can be effectively used for credit score classification. A novel spike-generating function is proposed in Leaky Nonlinear Integrate and Fire Model (LNIF). Its interspike period is computed and utilized in the extreme learning machine (ELM) for credit score classification. The proposed model is named as SELM and is validated on five real-world credit scoring datasets namely: Australian, German-categorical, German-numerical, Japanese, and Bankruptcy. Further, results obtained by SELM are compared with back propagation, probabilistic neural network, ELM, voting-based Q-generalized extreme learning machine, Radial basis neural network and ELM with some existing spiking neuron models in terms of classification accuracy, Area under curve (AUC), H-measure and computational time. From the experimental results, it has been noticed that improvement in accuracy and execution time for the proposed SELM is highly statistically important for all aforementioned credit scoring datasets. Thus, integrating a biological spiking function with ELM makes it more efficient for categorization.  相似文献   

19.
Credit scoring focuses on the development of empirical models to support the financial decision‐making processes of financial institutions and credit industries. It makes use of applicants' historical data and statistical or machine learning techniques to assess the risk associated with an applicant. However, the historical data may consist of redundant and noisy features that affect the performance of credit scoring models. The main focus of this paper is to develop a hybrid model, combining feature selection and a multilayer ensemble classifier framework, to improve the predictive performance of credit scoring. The proposed hybrid credit scoring model is modeled in three phases. The initial phase constitutes preprocessing and assigns ranks and weights to classifiers. In the next phase, the ensemble feature selection approach is applied to the preprocessed dataset. Finally, in the last phase, the dataset with the selected features is used in a multilayer ensemble classifier framework. In addition, a classifier placement algorithm based on the Choquet integral value is designed, as the classifier placement affects the predictive performance of the ensemble framework. The proposed hybrid credit scoring model is validated on real‐world credit scoring datasets, namely, Australian, Japanese, German‐categorical, and German‐numerical datasets.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号