首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
With the recent financial crisis and European debt crisis, corporate bankruptcy prediction has become an increasingly important issue for financial institutions. Many statistical and intelligent methods have been proposed, however, there is no overall best method has been used in predicting corporate bankruptcy. Recent studies suggest ensemble learning methods may have potential applicability in corporate bankruptcy prediction. In this paper, a new and improved Boosting, FS-Boosting, is proposed to predict corporate bankruptcy. Through injecting feature selection strategy into Boosting, FS-Booting can get better performance as base learners in FS-Boosting could get more accuracy and diversity. For the testing and illustration purposes, two real world bankruptcy datasets were selected to demonstrate the effectiveness and feasibility of FS-Boosting. Experimental results reveal that FS-Boosting could be used as an alternative method for the corporate bankruptcy prediction.  相似文献   

2.
3.
基于聚类选择的分类器集成   总被引:1,自引:0,他引:1  
提出了一种基于聚类选择的分类器集成方法,通过聚类把模式特征空间划分成不相交的区域,对于初始分类器集合,各区域给出分类器的删除分值,各分类器总分值确定其删除优先级别,由删除优先级别选择一组分类器组成集成。理论分析和实验结果表明,基于聚类选择的分类器集成方法能够更好地对模式进行分类。  相似文献   

4.
软件缺陷集成预测模型研究   总被引:1,自引:0,他引:1  
利用单一分类器构造的缺陷预测模型已经遇到了性能瓶颈, 而集成分类器相比单一分类器往往具有显著的性能优势。以构造高效的集成缺陷预测模型为出发点, 比较了七种不同类型集成分类器的算法和特点。在14个基准数据集上的实验显示, 部分集成预测模型的性能优于基于朴素贝叶斯的单一预测模型。其中, 基于投票的集成分类框架具有最优的预测性能以及统计学意义上的性能优势显著性, 随机森林算法次之。Stacking集成框架也具有较强的泛化能力。  相似文献   

5.
叶志宇  冯爱民  高航 《计算机应用》2019,39(12):3434-3439
针对轻量化梯度促进机(LightGBM)等集成学习模型只对数据信息进行一次挖掘,无法自动地细化数据挖掘粒度或通过深入挖掘得到更多的数据中潜在内部关联信息的问题,提出了深度LightGBM集成学习模型,该模型由滑动窗口和加深两部分组成。首先,通过滑动窗口使得集成学习模型能够自动地细化数据挖掘粒度,从而更加深入地挖掘数据中潜在的内部关联信息,同时赋予模型一定的表示学习能力。然后,基于滑动窗口,用加深步骤进一步地提升模型的表示学习能力。最后,结合特征工程对数据集进行处理。在谷歌商店数据集上进行的实验结果表明,所提深度集成学习模型相较原始集成学习模型的预测精度高出6.16个百分点。所提方法能够自动地细化数据挖掘粒度,从而获取更多数据集中的潜在信息,并且深度LightGBM集成学习模型与传统深度神经网络相比是非神经网络的深度模型,参数更少,可解释性更强。  相似文献   

6.
在电子商务时代背景下,精准预测用户的购买意向已经成为提高销售效率和优化客户体验的关键因素。针对传统集成策略在模型设计阶段往往受人为因素限制的问题,构建了一种自适应进化集成学习模型用于预测用户的购买意向。该模型能够自适应地选择最优基学习器和元学习器,并融合基学习器的预测信息和特征间的差异性扩展特征维度,从而提高预测的准确性。此外,为进一步优化模型的预测效果,设计了一种二元自适应差分进化算法进行特征选择,旨在筛选出对预测结果有显著影响的特征。研究结果表明,与传统优化算法相比,二元自适应差分进化算法在全局搜索和特征选择方面表现优异。相较于六种常见的集成模型和DeepForest模型,所构建的进化集成模型在AUC值上分别提高了2.76%和2.72%,并且能够缓解数据不平衡所带来的影响。  相似文献   

7.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

8.
李伟湋  贾修一 《计算机应用》2010,30(6):1530-1532
针对数据挖掘中的特征选择问题,依据Hellinger距离的特性,研究了两种Hellinger距离的定义方式,提出了基于Hellinger距离的特征选择方法,设计了两种相应的算法。不同数据集上的实验结果表明了新算法选择的特征的有效性。与其他特征选择算法的对比可发现:这两种算法选择的特征个数少且对C4.5分类精度较好。  相似文献   

9.
链接预测是社会网络分析领域的关键问题。传统的链接预测方法大多针对社会网络的静态结构预测隐含的链接或者将来可能产生的链接,而忽视了网络在动态演变过程中的潜在信息。为了能更好地利用网络演变的动态信息,从而取得更好的链接预测效果,提出了一种基于网络结构演变规律的链接预测方法。该方法使用机器学习技术对网络结构特征的动态变化信息进行训练,学习每种结构特征的变化并得到一个分类器,为每个分类器加权得到最终集成的结果。在三个现实的合著者网络数据集上的实验结果表明,该方法的性能要高于静态链接预测方法和一个相关的动态链接预测方法。这说明,网络结构演变信息有助于提高链接预测效果。此外,实验还表明,不同的结构特征对网络动态变化的刻画能力也有所差别。  相似文献   

10.
This paper studies the greedy ensemble selection family of algorithms for ensembles of regression models. These algorithms search for the globally best subset of regressors by making local greedy decisions for changing the current subset. We abstract the key points of the greedy ensemble selection algorithms and present a general framework, which is applied to an application domain with important social and commercial value: water quality prediction.  相似文献   

11.
简艺恒  余啸 《计算机应用》2018,38(9):2637-2643
预测软件缺陷的数目有助于软件测试人员更多地关注缺陷数量多的模块,从而合理地分配有限的测试资源。针对软件缺陷数据集不平衡的问题,提出了一种基于数据过采样和集成学习的软件缺陷数目预测方法——SMOTENDEL。首先,对原始软件缺陷数据集进行n次过采样,得到n个平衡的数据集;然后基于这n个平衡的数据集利用回归算法训练出n个个体软件缺陷数目预测模型;最后对这n个个体模型进行结合得到一个组合软件缺陷数目预测模型,利用该组合预测模型对新的软件模块的缺陷数目进行预测。实验结果表明SMOTENDEL相比原始的预测方法在性能上有较大提升,当分别利用决策树回归(DTR)、贝叶斯岭回归(BRR)和线性回归(LR)作为个体预测模型时,提升率分别为7.68%、3.31%和3.38%。  相似文献   

12.
关于贝叶斯推理的垃圾邮件特征选择评估函数   总被引:1,自引:1,他引:0       下载免费PDF全文
在各种基于机器学习的垃圾邮件过滤系统中,特征选择是基础且非常关键的一个环节,它对整个系统的性能和效率都有直接的影响。通过对垃圾邮件特点的分析,提出了一种基于贝叶斯推理的特征选择评估函数方法。新方法运算开销较小,且能够区分出不同的特征词在体现垃圾邮件特征时所存在的差异性,因而在进行特征选择时较其它常用方法更具针对性,非常利于提高过滤系统的准确性和运行效率。  相似文献   

13.
14.
Credit scoring focuses on the development of empirical models to support the financial decision‐making processes of financial institutions and credit industries. It makes use of applicants' historical data and statistical or machine learning techniques to assess the risk associated with an applicant. However, the historical data may consist of redundant and noisy features that affect the performance of credit scoring models. The main focus of this paper is to develop a hybrid model, combining feature selection and a multilayer ensemble classifier framework, to improve the predictive performance of credit scoring. The proposed hybrid credit scoring model is modeled in three phases. The initial phase constitutes preprocessing and assigns ranks and weights to classifiers. In the next phase, the ensemble feature selection approach is applied to the preprocessed dataset. Finally, in the last phase, the dataset with the selected features is used in a multilayer ensemble classifier framework. In addition, a classifier placement algorithm based on the Choquet integral value is designed, as the classifier placement affects the predictive performance of the ensemble framework. The proposed hybrid credit scoring model is validated on real‐world credit scoring datasets, namely, Australian, Japanese, German‐categorical, and German‐numerical datasets.  相似文献   

15.
研究了基于模型共享的集成学习分布式异常检测模型,采用多数投票、边界扩展、平均叠加和距离加权4种不同的集成学习方法得到全部的局部模型;采用交换本地数据挖掘模型的方式来实现数据共享,从而构造出一个总体的集成学习模型。从全局的观点检测异常,减少了集中式检测所需数据的传输量,有效保护了数据提供者的隐私性。仿真实验结果表明,该方法的检测性能与集中式检测的性能相当,甚至更好。  相似文献   

16.
对于现实的复杂网络而言,有连边的节点对数目通常远小于无连边的节点对数目,在链路预测时,不同类别的样本数量不平衡会导致预测的分类结果与真实情况有较大的偏差。针对此问题,本文提出更优的链路预测算法,先对网络拓扑信息进行特征提取,再设计出一种集成分类器对数据样本进行平衡处理,然后基于网络的拓扑信息改进了分类器的集成规则,最后将训练出的集成分类器同现有的4个针对不平衡分类的链路预测学习算法进行对比研究。通过对4个不同规模的时序网络进行链路预测,结果表明:本文的链路预测学习算法具有更高的召回率,同时也保证了预测结果的准确性,从而更好地解决了链路预测中因类别不平衡导致的误分类问题。  相似文献   

17.
提出心衰死亡率预测系统,预测心衰病人本次住院后30天内死亡率。基于上海曙光医院提供的心衰病人信息,首先对原始数据和特征进行预处理。由于特征的冗余性,再选用经典的Relief特征选择算法筛选出重要的心衰特征,最后选用bp-SVM算法来实现死亡率预测。实验结果证明,死亡率预测系统可以达到较高的性能并通过提供决策信息,辅助医生治疗病人。医生可以根据系统预测的病人死亡率的高低,采取不同的治疗方式,提高临床诊断结果和医院的资源分配。  相似文献   

18.
Feature selection is a process aimed at filtering out unrepresentative features from a given dataset, usually allowing the later data mining and analysis steps to produce better results. However, different feature selection algorithms use different criteria to select representative features, making it difficult to find the best algorithm for different domain datasets. The limitations of single feature selection methods can be overcome by the application of ensemble methods, combining multiple feature selection results. In the literature, feature selection algorithms are classified as filter, wrapper, or embedded techniques. However, to the best of our knowledge, there has been no study focusing on combining these three types of techniques to produce ensemble feature selection. Therefore, the aim here is to answer the question as to which combination of different types of feature selection algorithms offers the best performance for different types of medical data including categorical, numerical, and mixed data types. The experimental results show that a combination of filter (i.e., principal component analysis) and wrapper (i.e., genetic algorithms) techniques by the union method is a better choice, providing relatively high classification accuracy and a reasonably good feature reduction rate.  相似文献   

19.
A Formalism for Relevance and Its Application in Feature Subset Selection   总被引:7,自引:0,他引:7  
Bell  David A.  Wang  Hui 《Machine Learning》2000,41(2):175-195
The notion of relevance is used in many technical fields. In the areas of machine learning and data mining, for example, relevance is frequently used as a measure in feature subset selection (FSS). In previous studies, the interpretation of relevance has varied and its connection to FSS has been loose. In this paper a rigorous mathematical formalism is proposed for relevance, which is quantitative and normalized. To apply the formalism in FSS, a characterization is proposed for FSS: preservation of learning information and minimization of joint entropy. Based on the characterization, a tight connection between relevance and FSS is established: maximizing the relevance of features to the decision attribute, and the relevance of the decision attribute to the features. This connection is then used to design an algorithm for FSS. The algorithm is linear in the number of instances and quadratic in the number of features. The algorithm is evaluated using 23 public datasets, resulting in an improvement in prediction accuracy on 16 datasets, and a loss in accuracy on only 1 dataset. This provides evidence that both the formalism and its connection to FSS are sound.  相似文献   

20.
乔善平  闫宝强 《计算机应用》2016,36(8):2150-2156
针对多标记学习和集成学习在解决蛋白质多亚细胞定位预测问题上应用还不成熟的状况,研究基于集成多标记学习的蛋白质多亚细胞定位预测方法。首先,从多标记学习和集成学习相结合的角度提出了一种三层的集成多标记学习系统框架结构,该框架将学习算法和分类器进行了层次性分类,并把二分类学习、多分类学习、多标记学习和集成学习进行有效整合,形成一个通用型的三层集成多标记学习模型;其次,基于面向对象技术和统一建模语言(UML)对系统模型进行了设计,使系统具备良好的可扩展性,通过扩展手段增强系统的功能和提高系统的性能;最后,使用Java编程技术对模型进行扩展,实现了一个学习系统软件,并成功应用于蛋白质多亚细胞定位预测问题上。通过在革兰氏阳性细菌数据集上进行测试,验证了系统功能的可操作性和较好的预测性能,该系统可以作为解决蛋白质多亚细胞定位预测问题的一个有效工具。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号