首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

2.
陈松峰  范明 《计算机科学》2010,37(8):236-239256
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率.  相似文献   

3.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。  相似文献   

4.
软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。  相似文献   

5.
《微型机与应用》2016,(3):28-30
随机森林可以产生高准确度的分类器,被广泛用于解决模式识别问题。然而,随机森林赋予每个决策树相同的权重,这在一定程度上降低了整个分类器的性能。为了解决这个问题,本文提出一种加权随机森林算法。该算法引入二次训练过程,提高分类正确率高的决策树投票权重,降低分类错误率高的决策树投票权重,从而提高整个分类器的分类能力。通过在不同数据集上的分类测试实验,证明了本文算法相比于传统的随机森林算法具有更强的分类性能。  相似文献   

6.
植物抗性基因识别中的随机森林分类方法   总被引:2,自引:0,他引:2  
为了解决传统基于同源序列比对的抗性基因识别方法中假阳性高、无法发现新的抗性基因的问题,提出了一种利用随机森林分类器和K-Means聚类降采样方法的抗性基因识别算法。针对目前研究工作中挖掘盲目性大的问题,进行两点改进:引入了随机森林分类器和188维组合特征来进行抗性基因识别,这种基于样本统计学习的方法能够有效地捕捉抗性基因内在特性;对于训练过程中存在的严重类别不平衡现象,使用基于聚类的降采样方法得到了更具代表性的训练集,进一步降低了识别误差。实验结果表明,该算法可以有效地进行抗性基因的识别工作,能够对现有实验验证数据进行准确的分类,并在反例集上也获得了较高的精度。  相似文献   

7.
类别不平衡问题广泛存在于现实生活中,多数传统分类器假定类分布平衡或误分类代价相等,因此类别不平衡数据严重影响了传统分类器的分类性能。针对不平衡数据集的分类问题,提出了一种处理不平衡数据的概率阈值Bagging分类方法-PT Bagging。将阈值移动技术与Bagging集成算法结合起来,在训练阶段使用原始分布的训练集进行训练,在预测阶段引入决策阈值移动方法,利用校准的后验概率估计得到对不平衡数据分类的最大化性能测量。实验结果表明,PT Bagging算法具有更好的处理不平衡数据的分类优势。  相似文献   

8.
为降低数据标注的成本并提高投诉文本分类的准确率,本文提出基于半监督协同训练的多标签文本分类模型。该模型通过构建多个基分类器组的方式进行训练,其中每个基分类器组都由随机森林和支持向量机组成,并通过打伪标签的方式扩充有标签数据集进行循环训练至模型收敛,最终整合分类结果,充分发挥各学习器在不同特征上的分类优势,并在实验中验证该模型的有效性。  相似文献   

9.
《软件》2019,(8):79-83
针对软件缺陷预测中对不平衡数据分类精度较低的问题,提出了一种新的基于LogitBoost集成分类预测算法,使用SMOTE方法对原始数据集进行平衡处理,然后使用随机森林算法作为弱分类器算法进行分类预测,最后使用LogitBoost算法以加权方式集成各弱分类器的结果。通过在NASAMDP基础数据集上验证得出本文提出的分类预测算法比数据集均衡处理前准确率高出0.1%-11%,同时在均衡处理后比KNN算法平均高出0.9%,比SVM算法平均高出0.4%,比随机森林算法平均高出0.1%。  相似文献   

10.
针对工业制品缺陷分类存在的样本图像少、分类准确性不足和模型训练耗时长等问题, 提出了一种基于深度森林的人机协同分类模型. 该模型首先通过深度森林对样本图像进行初步识别, 经多粒度扫描模块和级联森林模块提取特征, 得到初始预测结果并分离出识别困难的样本图像; 然后采用人机协同的策略, 采用人工方式随机标注部分识别困难的样本, 再利用K近邻算法对剩余识别困难的样本进行再分类. 通过在公开数据集以及生产线实际采集的真实数据上的实验结果表明, 改进的分类模型在工业制品表面缺陷数据集上的性能优于基线算法.  相似文献   

11.
将极限学习机算法与旋转森林算法相结合,提出了以ELM算法为基分类器并以旋转森林算法为框架的RF-ELM集成学习模型。在8个数据集上进行了3组预测实验,根据实验结果讨论了ELM算法中隐含层神经元个数对预测结果的影响以及单个ELM模型预测结果不稳定的缺陷;将RF-ELM模型与单ELM模型和基于Bagging算法集成的ELM模型相比较,由稳定性和预测精度的两组对比实验的实验结果表明,对ELM的集成学习可以有效地提高ELM模型的性能,且RF-ELM模型较其他两个模型具有更好的稳定性和更高的准确率,验证了RF-ELM是一种有效的ELM集成学习模型。  相似文献   

12.
钟良骥  廖海斌 《控制与决策》2021,36(7):1693-1698
由于人脸表情类内变化和类间干扰因素的存在,人脸表情识别仍面临着巨大挑战.提出一种基于性别条件约束随机森林的深度人脸表情识别方法,解决人脸表情识别中噪声、性别等变化和干扰问题.首先,采用深度多示例学习方法提取鲁棒性人脸特征,解决人脸光照、遮挡和低分辨率等图像变化问题;其次,采用性别条件随机森林分类方法进行人脸表情分类器设计,解决人脸性别因素干扰问题.在公开的CK+、BU-3DEF、LFW人脸表情数据库上进行广泛实验结果表明:所提出方法在3大人脸数据库上分别达到了98.83%、90%、60.58%的识别率,与先进方法相比具有更好的性能和鲁棒性.另外,与其他先进的深度学习方法(需要大量训练数据库)相比,所提出方法只需要小量训练样本就能达到较好效果.  相似文献   

13.
为了提高育种领域选种的准确率同时缩短品种培育年限,利用改进的随机森林算法根据小麦育种历史数据构建评价模型. 在训练分类器之前,利用改进的SMOTE算法来改善训练样本集中的非平衡现象;在基分类器训练完成后,测试单个分类器的性能并剔除性能较差的基分类器,实现随机森林中基分类器的筛选. 实验结果表明,文中提出的算法在小麦种质评价方面取得了不错的效果,可以辅助育种工作者进行品种选育.  相似文献   

14.
Software defects, produced inevitably in software projects, seriously affect the efficiency of software testing and maintenance. An appealing solution is the software defect prediction (SDP) that has achieved good performance in many software projects. However, the difference between features and the difference of the same feature between training data and test data may degrade defect prediction performance if such differences violate the model's assumption. To address this issue, we propose a SDP method based on feature transfer learning (FTL), which performs a transformation sequence for each feature in order to map the original features to another feature space. Specifically, FTL first uses the reinforcement learning scheme that automatically learns a strategy for transferring the potential feature knowledge from the training data. Then, we use the learned feature knowledge to inspire the transformation of the test data. The classifier is trained by the transformed training data and predicts defects for transformed test data. We evaluate the validity of FTL on 43 projects from PROMISE and NASA MDP using three classifiers, logistic regression, random forest, and Naive Bayes (NB). Experimental results indicate that FTL is better than the original classifiers and has the best performance on the NB classifier. For PROMISE, after using FTL, the average results of F1-score, AUC, MCC are 0.601, 0.757, and 0.350 respectively, which are 24.9%, 2.6%, and 16.7% higher than the original NB classifier results. The number of projects with improved performance accounts for 83.87%, 83.87%, and 64.52%. Similarly, FTL performs well on NASA MDP. Besides, compared with four feature engineering (FE) methods, FTL achieves an excellent improvement on most projects and the average performance is also better than or close to the FE methods.  相似文献   

15.
Many techniques have been proposed for credit risk assessment, from statistical models to artificial intelligence methods. During the last few years, different approaches to classifier ensembles have successfully been applied to credit scoring problems, demonstrating to be generally more accurate than single prediction models. The present paper goes one step beyond by introducing composite ensembles that jointly use different strategies for diversity induction. Accordingly, the combination of data resampling algorithms (bagging and AdaBoost) and attribute subset selection methods (random subspace and rotation forest) for the construction of composite ensembles is explored with the aim of improving the prediction performance. The experimental results and statistical tests show that this new two-level classifier ensemble constitutes an appropriate solution for credit scoring problems, performing better than the traditional single ensembles and very significantly better than individual classifiers.  相似文献   

16.
针对直升机飞行状态识别训练样本数据少而导致识别率不高的问题,提出一种基于随机森林的直升机飞行状态识别方法。首先利用去野点、限幅、平滑处理对飞行数据进行预处理,并根据特征参数将飞行状态分为8个小类;然后利用随机森林识别率较高的特点,对每一小类进行随机森林分类器设计;最后利用训练样本训练每个随机森林分类器,并将训练好的随机森林分类器识别直升机全起落飞行状态。以某型直升机实飞数据作为实验数据,将该方法与RBF神经网络法和SVM法进行对比实验,结果表明在小样本情况下该方法识别率有明显提高,识别速度也有所提高,可为直升机寿命预测提供依据。  相似文献   

17.
杨丰瑞 《计算机应用研究》2020,37(9):2625-2628,2633
高维复杂数据处理是数据挖掘领域中的关键问题,针对现有特征选择分类算法存在的预测精确度失衡、整体分类效率低下等问题,提出了一种结合概率相关性和极限随机森林的特征选择分类算法(P-ERF)。该算法使用充分考虑特征之间相关性与P值结合的特征选择方式,避免了树节点分裂过程中造成的冗余性问题;并以随机树为基分类器、极限随机森林为整体框架,使P-ERF算法获得了更高的精准度和更好的泛化误差。实验结果表明,P-ERF算法相较于随机森林算法、极限随机森林算法,在数据集分类精度与整体性方面均得到良好的效果。  相似文献   

18.
The fault diagnosis of bevel gearbox is of great significance. At present, the commonly used methods are based on pattern recognition, such as support vector machine, convex hull classifier and hyperdisk classifier. However, the number of elements in the kernel matrix of these kernel function-based classification methods increases squarely with the data size, resulting in intolerable training time. Based on this, a sparse random projection-based hyperdisk classifier model is proposed. The proposed method has the following novelties: First, based on sparse random projection and the geometrical characteristics of the hyperdisk model, a method is designed to efficiently screen out the core samples, and these samples are given different weights in this process. Second, the proposed method introduces slack variables and the dynamic penalty parameter to obtain a hyperdisk model with more reasonable boundary. Last, a strategy is developed to minimize the adverse effects of imbalanced training data. The effectiveness and applicability of the proposed method are verified on bevel gearbox fault data. The experimental results show that compared with other classifiers, the proposed method can greatly reduce the training time while guaranteeing a high classification accuracy. What’s more, it has better performance and efficiency in fault diagnosis with imbalanced training data.  相似文献   

19.
一种基于神经网络覆盖构造法的模糊分类器   总被引:10,自引:1,他引:10       下载免费PDF全文
首先介绍了一种M-P模型几何表示,以及利用这种几何表示可将神经网络的训练问题转化为点集覆盖问题,并在此基础上分析了神经网络训练的一种几何方法.针对该方法可构造十分复杂的分类边界,但其时间复杂度很高.提出一种将神经网络覆盖算法与模糊集合思想相结合的方法,该分类器可改善训练速度、减少覆盖的球领域数目,即减少神经网络的隐结点数目.同时模糊化方法可方便地为大规模模式识别问题提供多选结果.用700类手写汉字的识别构造一个大规模模式识别问题测试提出的方法,实验结果表明,该方法对于大规模模式识别问题很有潜力.  相似文献   

20.
为了能够更好地预测股票的走向趋势,解决在大量特征和大数据下预测精度低的问题,在随机森林的基础上提出了一种基于Pearson系数的随机森林新的组合模型方法。利用Pearson系数进行相关性检验删除无关特征;使用改进的网格搜索法对决策树参数调优;利用随机森林将剩余特征进行建模回归预测,并得出最终结论。实验结果表明:改进后的随机森林在预测值的平均绝对误差(MAE)、均方误差(MSE)都得到了较大的提高。其中今世缘改进后的随机森林比传统随机森林的MSE值降低了56%,MAE值降低了37.3%,其他两只股票预测效果也均得到提高。新的组合模型,可以实现对股票价格的短期预测回归,并且能够降低噪声对股票价格预测的影响。该研究为更好地预测股票价格提供了有效证据并为投资者提供了对股票影响因素的选择。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号