首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 125 毫秒
1.
牛志华  屈景怡  吴仁彪 《信号处理》2017,33(10):1301-1307
高维数据的很多特征与类别的相关性弱,影响了随机森林的分类正确率。针对原始随机森林算法在高维数据上的分类问题,提出了一种分层子空间权重树随机森林算法。同时,传统的单机模式无法满足高维数据计算效率的需求,因此利用开源集群计算框架Spark在内存缓存和迭代计算上的优势,将所提算法在Spark上实现。所提算法采用以决策树为单位的分层抽样来生成特征子空间,在提高单棵决策树性能的同时,保证决策树之间的多样性;并且采用权重树的集成策略,使分类能力强的树在集成过程中影响力更大。通过在Mnist和Gisette数据集上的实验结果表明,相比原始随机森林算法、TWRF算法以及分层子空间随机森林算法,所提算法具有更好的正确率,提高了泛化误差性能,可扩展性良好,能够有效分类高维数据。   相似文献   

2.
本文通过引进前向反馈模型的概念提出析取-随机森林算法,该方法将析取随机森林模型中决策树的学习方法进行改进,引入全局损失函数的概念,从而增加单个决策树每个节点之间的联系以影响下个节点的分类情况.改进后的模型可以达到减少训练时间和使最后训练得到的随机森林收敛速度更快、预测结果更为准确的目的.  相似文献   

3.
平均1-依赖决策树集成算法   总被引:2,自引:1,他引:1  
基于平均1-依赖贝叶斯分类器(AODE)算法的思想, 提出了平均1-依赖决策树集成算法(AODT), 该算法通过使用每个输入属性和类别属性共同建立集成学习中的个体决策树分类器.同时,我们从多任务学习的角度探讨了AODE和AODT算法的工作原理. 通过在Weka平台上使用40个UCI数据集的实验结果表明, 该算法可以显著提高决策树学习算法的分类性能, 并且具有很好的抗噪声性能.  相似文献   

4.
多种因素可能对学生成绩造成影响,利用数据挖掘工具对学生的学习课程成绩进行预测分析,进而利用预测分析结果及时指正学生出现的不良学习行为,同时检查老师的教学效果。首先将改进随机森林算法在大数据平台上进行并行化改进后进行实践。然后通过将提出的改进随机森林算法进行并行化,将其运用到Spark+Kudu大数据平台上进行仿真实验。最后算法并行化主要根据随机森林算法中的决策树划分策略以及模拟退火算法构建多种群策略来进行。实验结果证明并行化策略能够有效提升数据集的分类效率,大幅度缩短算法执行时间。  相似文献   

5.
聚类是数据挖掘的一个重要方面,而对高维混合特征数据聚类仍然是一个具有挑战性的问题.针对高维混合特征数据下欧氏距离失去意义的问题,提出了一种基于随机贪婪的树状基学习器集成的森林聚类算法.模型能够利用树状基学习器集成的优点,同时处理离散和连续特征混合下的数据以及高维度的数据.借鉴随机森林计算相似度矩阵的方法,计算聚类森林中...  相似文献   

6.
精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类。通过实际网络流量数据实验表明,在各种情况下,随机森林算法都能显著改善网络流量特别是小比例样本的分类效果,算法降低了单一算法过于依赖特定假设模型的要求,对于待分类样本的分布要求低,随机森林算法具有良好的分类效果和鲁棒性。  相似文献   

7.
工作倦怠作为一种长期性的心理反应,虽然最初是从医疗和精神科的职业中探讨而来,但目前已普遍存在于各行各业中。尤其在COVID-19全球大流行的情况下,员工职业倦怠感更为严重。因此,文中使用四种集成算法对黑客地球平台发布的职业倦怠数据集进行预测,其中,随机森林MSE值为0.00401,梯度提升决策树MSE值为0.00383,XGBoost的MSE值为0.00381,Catboost的MSE值为0.00360,结果表明Catboost算法的预测效果较好。  相似文献   

8.
该文提出了一种利用多特征融合和集成学习的极化SAR图像监督分类算法。该算法首先提取极化SAR图像的多重特征,包括EPFS特征,Hoekman分解特征,Huynen分解特征,H/alpha/A分解特征以及扩展四分量分解特征。为保证集成学习中基本分类器的差异性与准确性,算法从5组特征集中每次随机选取两组不同的特征进行串联融合,作为SVM分类器的输入。最后,利用随机森林学习算法将所有基本分类器的预测概率集成输出最终分类结果。像素级和区域级的分类实验表明了该文算法的有效性。   相似文献   

9.
安徽作为劳务大省,每年春节都有大量消费群体返乡。为了更好支撑春节期间电信业务市场业务拓展,预测农村用户的返乡情况,中国电信安徽分公司利用机器学习中的随机森林算法建立相应的预测模型。模型以用户的通话行为等作为输入特征,利用随机森林算法对农村用户返乡情况进行了预测。同时建立了决策树模型与之对比,相比而言,随机森林算法具有更好的分类效果,同样在实际营销过程中,有效地提高了营销运营效率。  相似文献   

10.
监督学习是指利用一组已知类型的训练数据(输入对象和预期输出)对学习系统进行训练,调整分类器的参数,预测新输入的输出值。机器学习可用于无线认知传感器网络中的学习引擎设计和MAC(媒体访问控制)协议分类。文章介绍线性回归、Logistic回归、人工神经网络、决策树学习、随机森林、朴素贝叶斯分类器、支持向量机等常用监督学习算法的原理,并简要分析机器学习在无线认知传感器网络中的应用场景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号