首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
支持在线学习的增量式极端随机森林分类器   总被引:3,自引:0,他引:3  
提出了一种增量式极端随机森林分类器(incremental extremely random forest,简称IERF),用于处理数据流,特别是小样本数据流的在线学习问题.IERF算法中新到达的样本将被存储到相应的叶节点,并通过Gini系数来确定是否对当前叶节点进行分裂扩展,在给定有限数量,甚至是少量样本的情况下,I...  相似文献   

2.
为了克服偏标记学习中监督信息缺失的问题,根据偏标记样本的性质设计决策树生成过程中的样本分裂规则,改造决策树的建立算法.文中算法首先对样本进行bootstrap采样并建立多棵决策树,然后对各决策树结果进行投票得出最终预测结果.在人工数据集和真实数据集上的实验表明,文中算法具有较好的分类性能.  相似文献   

3.
基于卷积神经网络(CNN)的入侵检测方法在实际应用中模型训练时间过长、超参数较多、数据需求量大。为降低计算复杂度,提高入侵检测效率,提出一种基于集成深度森林(EDF)的检测方法。在分析CNN的隐藏层结构和集成学习的Bagging集成策略的基础上构造随机森林(RF)层,对每层中RF输入随机选择的特征进行训练,拼接输出的类向量和特征向量并向下层传递迭代,持续训练直至模型收敛。在NSL-KDD数据集上的实验结果表明,与CNN算法相比,EDF算法在保证分类准确率的同时,其收敛速度可提升50%以上,证明了EDF算法的高效性和可行性。  相似文献   

4.
5.
多示例学习是不同于传统机器学习的一种新的学习模式,近年来被应用于图像检索、文本分类等领域。提出一种基于在线学习的多示例学习算法,将其应用于目标跟踪。该算法通过构造一个在线学习的多示例分类器作为检测器,无需制作大量的样本进行离线的训练,只需在第一帧手动选中目标,便可以自动生成正样本和负样本,并在随后的帧序列中,根据跟踪到的目标自动更新分类器,在跟踪器丢失目标或者目标从场景中消失后,它能够重新检测到目标并更新跟踪器,从而有效地支持了跟踪器跟踪目标。实验证明该方法在背景复杂,光线变化,摄像机抖动等复杂条件下,可以很好地跟踪到目标,且对遮挡具有较好的鲁棒性。  相似文献   

6.
7.
8.
吕沈欢  陈一赫  姜远 《软件学报》2024,35(4):1934-1944
在多标记学习中,每个样本都与多个标记关联,关键任务是如何在构建模型时利用标记之间的相关性.多标记深度森林算法尝试在深度集成学习的框架下使用逐层的表示学习来挖掘标记之间的相关性,并利用得到的标记概率表示提升预测精度.然而,一方面标记概率表示与标记信息高度相关,这会导致其多样性较低.随着深度森林的深度增加,性能会下降.另一方面,标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用,这会造成难以承受的计算和存储开销.针对这些问题,提出基于交互表示的多标记深度森林算法(interactionrepresentation-based multi-label deep forest, iMLDF). iMLDF从森林模型的决策路径中挖掘特征空间中的结构信息,利用随机交互树抽取决策树路径中的特征交互,分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF一方面充分利用模型中的特征结构信息来丰富标记间的相关信息,另一方面通过交互表达式计算所有的表示,从而使得算法无需存储森林结构,大大地提升了计算效率.实验结果表明:在交互表示基础上进行表示学习的i MLDF算法取得了更好的预测性能,...  相似文献   

9.
《信息与电脑》2019,(17):43-45
决策树算法是数据挖掘领域的一个研究热点。决策树代表的是对象属性与对象值之间的一种映射关系,以树状结构表现,在实际中应用广泛。笔者首先介绍了信息论,重点阐述了三种典型的决策树分类算法原理,并分析了不同算法的优缺点,最后介绍了基于决策树的随机森林算法及其在机器学习中的作用。  相似文献   

10.
近年来,Powershell由于其易用性强、隐蔽性高的特点被广泛应用于APT攻击中,传统的基于人工特征提取和机器学习方法的恶意代码检测技术在Powershell恶意代码检测中越来越难以有效.本文提出了一种基于随机森林特征组合和深度学习的Powershell恶意代码检测方法.该方法使用随机森林生成更好表征原始数据的新特征...  相似文献   

11.
工业物联网的出现推动了工业智能化的发展,提升了生产效率,降低了制造成本。然而,异常情况对于工业物联网应用程序的安全和隐私构成了威胁。为了解决该问题,本文提出了一种基于局部选择隔离森林的异常检测算法。通过在六个真实数据集上的仿真实验,结果表明与当前主流的异常检测算法相比,本文算法具有更好的检测性能,可应用于工业物联网数据的异常检测。  相似文献   

12.
卞凌志  王直杰 《计算机应用》2021,41(9):2539-2544
信用风险是商业银行所面临的主要金融风险之一,而传统的基于统计学习的信用评分方法不能有效利用现有的特征学习方法,因此预测准确度不高。为解决这个问题,提出一种增强多维多粒度级联森林的方法建立信用评分模型,借鉴残差学习的思想,建立了多维多粒度级联残差森林(grcForest)模型,从而大幅增加提取的特征。除此之外,使用多维多粒度的扫描尽可能多地提取原始数据的特征,从而提高了特征提取的效率。对各模型的实验结果通过AUC(Area Under Curve)、准确率等指标进行评价,同时把所提模型与现有的统计学习和机器学习算法在四个不同的信用评分数据集上进行对比,可知所提出的模型的AUC值相较于轻量级梯度提升机(LightGBM)方法平均高1.13%,相较于极端梯度提升(XGBoost)方法平均高1.44%。从实验结果可以看出,提出的模型预测效果最佳。  相似文献   

13.
针对森林火灾的特点,提出并设计一种基于深度学习的森林火灾图像识别方法。通过实验,给出用于复杂背景下森林火灾识别的深度卷积神经网络结构,并对该结构进行训练和测试。并且,针对小样本林火识别存在识别率低的问题,提出一种参数替换方法。结果表明,该方法具备较高的正确率,正确率达到98%。同时网络可自动提取特征,无需对输入图像进行复杂预处理,克服了传统算法许多固有的缺点,将其应用在森林火灾识别领域取得了很好的效果。  相似文献   

14.
基于集成学习的离子通道药物靶点预测   总被引:1,自引:0,他引:1  
新药研制成功的关键在于药物靶点的发现和准确定位.在已知的药物靶点中,离子通道蛋白是一类广受欢迎的靶点,它与免疫系统、心血管等疾病密切相关.对于靶点的发现,传统生物方法成本高、耗时久.因此,探讨了基于机器学习的离子通道蛋白药物靶点的挖掘,以加快药物靶点发现过程,节约经费.由于药物靶点相关序列的长度不一致,考虑了蛋白质序列编码的13种特征,它们能将不等长的蛋白质序列转化成等长序列.通过数值实验筛选能够较好地区分靶点和非靶点的特征子集,并采用集成学习的方法整合特征得到预测模型.通过与已有工作的比较表明,提出的集成模型能得到较高的准确率,具有很好的应用前景.  相似文献   

15.
近年来,集成学习方法因其在多分类系统中具备良好的泛化性能而成为关注热点,然而,传统采样方法生成的基分类器存在相似度高、集成后泛化能力不足等问题,为此,提出一种基于监督学习的分类器自适应融合方法AEC_SL,该方法先采用高斯混合模型聚类算法将训练集划分为有监督的样本簇,然后在每个类簇上使用随机森林算法得到差异化的分类器,...  相似文献   

16.
丁智国  莫毓昌  杨凡 《计算机科学》2016,43(10):63-65, 80
流数据的海量、无限、分布动态变化且不均衡等特征使得对流数据的在线异常检测成为当前一个研究热点。分析了异常数据的少而不同且更容易通过随机空间的分割而孤立出来的特征,基于在线集成学习理论,提出了一种基于隔离森林的在线流数据异常检测算法。在4个UCI标准数据集上的实验结果表明提出的方法有效。  相似文献   

17.
提出基于在线增量式极端随机森林分类器的实时人脸跟踪算法。算法用在线极端随机森林分类器实现基于检测的跟踪,并结合动态目标框架和P-N学习矫正检测的错误。实验结果表明,该算法能够在不确定背景下对任意人脸实现较长时间段内的稳定快速的实时跟踪,并能有效排除背景等的干扰,效果较好。  相似文献   

18.
深度森林(Deep Forest,DF),由于此模型超参数少,且参数设置没有过多的要求,训练方便,鲁棒性高,因此在处理大型数据时比神经网络算法更加具有优势。但是,传统的深度森林中,多粒度扫描忽略了边缘数据携带的隐含信息,无法充分地获得各个特征子集,进而会对以后的级联部分产生影响。而且,级联部分每次得到的新特征有限,影响了模型的表征学习能力。针对以上问题,提出一种环状强深度森林(Circular Strong Deep Forest,CSDF),其通过环状扫描过程,一定程度上得到更充分的特征子集,且强级联森林通过特征选择提高了模型的表征学习能力。经过在不同数据集上的测试,结果表明,CSDF的性能更加优越,尤其是高维数据上更为明显。  相似文献   

19.
《软件工程师》2022,(1):41-46
在我国,恶性肿瘤死亡率最高的就是肺癌。为了提高肺癌存活性预测的准确性,本研究以随机森林(Random Forest)、LightGBM(Light Gradient Boosting Machine)和CatBoost(Categorical Boosting)三种算法为基模型,通过线性回归集成融合构建RF-LGC肺癌存活性预测模型,运用分层十折交叉验证方法进行仿真实验。实验结果显示,RF-LGC组合模型的预测精度达到了98.0242%,比单一的基模型提高了0.2%;敏感性达到了89.3957%,比单一的基模型提高了3%;特异性达到了78.4848%,比单一的基模型提高了1%。因此,该集成融合模型是一种精确、方便的肺癌存活性预测模型。  相似文献   

20.
余东昌  赵文芳  聂凯  张舸 《计算机应用》2021,41(4):1035-1041
为了提高能见度预报的准确率,尤其是低能见度预报的准确率,提出一种基于集成学习随机森林和LightGBM的能见度预测模型。首先,以数值模式系统的气象预报数据为基础,结合地面气象观测数据、PM2.5浓度观测数据,利用随机森林算法构建特征向量;其次,针对不同时间跨度的缺失数据,设计了3种缺失值处理方法对缺失值进行替代,生成用于训练和测试的连续性较好的数据样本集;最后,建立基于LightGBM的能见度预测模型,并用网络搜索法对其进行参数优化。把所提模型与支持向量机(SVM)、多元线性回归(MLR)、人工神经网络(ANN)在性能上进行对比。实验结果表明,对于不同的等级的能见度,应用LightGBM的能见度预测模型获得预兆得分(TS)均较高,而对于<2 km的低能见度,该模型对各观测站点的能见度预测值与各观测站点的能见度实况值的平均相关系数为0.75,平均均方误差为6.49。可见基于LightGBM的预测模型能有效提高能见度预测精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号