共查询到10条相似文献,搜索用时 125 毫秒
1.
高维数据的很多特征与类别的相关性弱,影响了随机森林的分类正确率。针对原始随机森林算法在高维数据上的分类问题,提出了一种分层子空间权重树随机森林算法。同时,传统的单机模式无法满足高维数据计算效率的需求,因此利用开源集群计算框架Spark在内存缓存和迭代计算上的优势,将所提算法在Spark上实现。所提算法采用以决策树为单位的分层抽样来生成特征子空间,在提高单棵决策树性能的同时,保证决策树之间的多样性;并且采用权重树的集成策略,使分类能力强的树在集成过程中影响力更大。通过在Mnist和Gisette数据集上的实验结果表明,相比原始随机森林算法、TWRF算法以及分层子空间随机森林算法,所提算法具有更好的正确率,提高了泛化误差性能,可扩展性良好,能够有效分类高维数据。 相似文献
2.
本文通过引进前向反馈模型的概念提出析取-随机森林算法,该方法将析取随机森林模型中决策树的学习方法进行改进,引入全局损失函数的概念,从而增加单个决策树每个节点之间的联系以影响下个节点的分类情况.改进后的模型可以达到减少训练时间和使最后训练得到的随机森林收敛速度更快、预测结果更为准确的目的. 相似文献
3.
4.
庄巧蕙 《信息技术与信息化》2024,(2):67-70
多种因素可能对学生成绩造成影响,利用数据挖掘工具对学生的学习课程成绩进行预测分析,进而利用预测分析结果及时指正学生出现的不良学习行为,同时检查老师的教学效果。首先将改进随机森林算法在大数据平台上进行并行化改进后进行实践。然后通过将提出的改进随机森林算法进行并行化,将其运用到Spark+Kudu大数据平台上进行仿真实验。最后算法并行化主要根据随机森林算法中的决策树划分策略以及模拟退火算法构建多种群策略来进行。实验结果证明并行化策略能够有效提升数据集的分类效率,大幅度缩短算法执行时间。 相似文献
5.
聚类是数据挖掘的一个重要方面,而对高维混合特征数据聚类仍然是一个具有挑战性的问题.针对高维混合特征数据下欧氏距离失去意义的问题,提出了一种基于随机贪婪的树状基学习器集成的森林聚类算法.模型能够利用树状基学习器集成的优点,同时处理离散和连续特征混合下的数据以及高维度的数据.借鉴随机森林计算相似度矩阵的方法,计算聚类森林中... 相似文献
6.
精确的网络流量分类是实现互联网可控可管的关键,传统的单一分类算法需要构建基于特定假设的某种模型,算法对于待分类数据的分布要求高,不能满足复杂多变的网络流量的分类要求。基于此,采用多决策树组合的随机森林算法实现网络流量分类。通过实际网络流量数据实验表明,在各种情况下,随机森林算法都能显著改善网络流量特别是小比例样本的分类效果,算法降低了单一算法过于依赖特定假设模型的要求,对于待分类样本的分布要求低,随机森林算法具有良好的分类效果和鲁棒性。 相似文献
7.
8.
该文提出了一种利用多特征融合和集成学习的极化SAR图像监督分类算法。该算法首先提取极化SAR图像的多重特征,包括EPFS特征,Hoekman分解特征,Huynen分解特征,H/alpha/A分解特征以及扩展四分量分解特征。为保证集成学习中基本分类器的差异性与准确性,算法从5组特征集中每次随机选取两组不同的特征进行串联融合,作为SVM分类器的输入。最后,利用随机森林学习算法将所有基本分类器的预测概率集成输出最终分类结果。像素级和区域级的分类实验表明了该文算法的有效性。 相似文献