首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 181 毫秒
1.
为解决互联网时代线上贷款业务量庞大带来的困扰,优化快速迭代的数据模型,从线上贷款业务的特点出发,以Spark分布式计算引擎为核心设计并实现了能够并行处理非平衡数据的加权随机森林算法.该算法从特征切分点抽样统计、特征分箱、逐层训练三个角度对加权随机森林算法进行并行化优化.该算法有效提高了随机森林算法的分类准确率,同时有效降低了决策过程中出现的平局现象.对非平衡数据,该文章通过SMOTE算法对数据进行重构,较好的保留了原有数据集信息.实验表明,该算法能够有效提高放贷效率性与及时性,极大的提高了生产力.  相似文献   

2.
入侵检测系统在检测和预防各种网络异常行为的过程中,海量和高维的流量数据使其面临着低准确率和高误报率的问题。本文提出一种基于流量异常分析多维优化的入侵检测方法,该方法在入侵检测数据的横向维度和纵向维度两个维度进行优化。在横向维度优化中,对数量较多的类别进行数据抽样,并采用遗传算法得到每个类别的最佳抽样比例参数,完成数据的均衡化。在纵向维度优化中,结合特征与类别的相关分析,采用递归特征添加算法选择特征,并提出平均召回率指标评估特征选择效果,实现训练集的低维高效性。基于优化的入侵检测数据,进一步通过训练数据集得到随机森林分类器,在真实数据集UNSW_NB15评估和验证本文提出的算法。与其他算法相比,本文算法具有高准确率和低误报率,并在攻击类型上取得了有效的召回率。  相似文献   

3.
为使用正例与未标注数据训练分类器(positive and unlabeled learning,PU learning),提出基于随机森林的PU学习算法。对POSC4.5算法进行扩展,在其生成决策树的过程中加入随机特征选择;在训练阶段,使用有放回抽样技术对PU数据集抽样,生成多个不同的PU训练集,并以其训练扩展后的POSC4.5算法,构造多棵决策树;在分类阶段,采用多数投票策略集成各决策树输出。在UCI数据集上的实验结果表明,该算法的分类性能优于偏置支持向量机算法、POS4.5算法和基于装袋技术的POSC4.5算法。  相似文献   

4.
随机森林是一种组合分类器技术,相较于决策树等单分类器,具有更好的预测和分类性能,但其也存在一些问题:因为随机森林自身的随机性,导致预测结果存在波动性;所使用的原始数据集样本基数大,维数多,增加了随机森林组合分类器的训练时间。针对以上问题,提出优化随机森林模型,对数据集进行数据集预处理和PCA降维操作,引入累计贡献率。结合选择的最佳阈值进行最终的预测结果分类,提高了模型的训练速度、预测准确率和稳定性。实验证明,该方法具有更优越的预测性能。  相似文献   

5.
数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和效率,成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法,对平衡样本集和不平衡样本集进行分析,发现通过上述两个改进后,在优化区间内,平衡样本集泛化误差会减小12%~20%;单项改变抽样方法,可以使算法时间缩短,提升效率达10%~40%;对不平衡数据,也能够明显提升效率。理论和实验均证明,基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率,使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。  相似文献   

6.
针对随机森林分类效果受样本集类间不平衡、类内不规则的影响,提出一种聚类欠采样策略的随机森林优化方法。该方法对原始数据大类样本聚类,得到与小类样本个数相同的子类簇;从每个子类簇中随机有放回抽取一个样本与小类样本合并,形成平衡样本集;对平衡样本集进行有放回随机抽样,形成单棵决策树的训练样本集并完成建树;将两次未被抽中的样本作为袋外数据,用于模型测试;重复上述过程多次,形成随机森林。使用10组非平衡数据集进行实验验证,结果表明,该方法在这10组数据集上的分类能力及稳定性均优于传统随机森林。  相似文献   

7.
针对传统煤自燃温度预测模型预测精度较差、基于支持向量机(SVM)的预测模型对参数的选取要求较高和基于神经网络的预测模型测试时易出现过拟合的问题,提出了一种基于随机森林算法的煤自燃温度预测模型。利用煤自燃程序升温实验选取O_2浓度、CO浓度、C_2H_4浓度、CO/ΔO_2比值、C_2H_4/C_2H_6比值作为煤自燃预警指标数据,并对指标数据进行处理,将数据分为学习集和测试集;对学习集抽样形成决策树并按决策树最优特征分裂形成随机森林;采用均方误差值和判定系数(R~2)优化随机森林算法的参数,进而构建随机森林模型;将测试集数据输入已训练好的随机森林模型,得到煤自燃温度预测结果。模型对比结果表明:与基于粒子群优化反向传播(PSO-BP)神经网络算法和基于SVM算法的煤自燃温度预测模型相比,随机森林测试阶段的R~2为0.869 7,PSO-BP测试阶段的R~2为0.783 6,SVM测试阶段的R~2为0.835 0,说明基于随机森林算法的煤自燃温度预测模型能够较为准确地对煤自燃温度进行预测,具有较强的鲁棒性和普适性,解决了基于PSO-BP神经网络算法的煤自燃温度预测模型和基于SVM算法的煤自燃温度预测模型容易出现过拟合的问题。  相似文献   

8.
针对现有地铁车门故障诊断方法存在的诊断速度慢以及大量故障检修数据未得到合理利用等问题,提出一种基于信息增益率的随机森林故障诊断方法.该方法将地铁车门历史故障数据集转化成决策表,通过Bootstrap重抽样,建立多棵基于信息增益率的决策树,形成随机森林故障诊断模型,实现地铁车门故障的快速诊断.且随着故障数据的增加,其故障诊断模型可以自动更新完善.通过地铁车门实际故障数据,验证了该方法的有效性.同时,通过对随机森林模型中决策树的数目讨论分析,确定了该方法模型的最优设计结构.  相似文献   

9.
提出了一种基于卷积神经网络和随机森林相结合的方法,用于对海洋可食用鱼类进行识别分类。通过使用YOLOv3目标检测网络对原始鱼类图片进行目标定位并使用数据增强方法对数据集进行扩充,模型在自建数据集上进行训练和微调,达到了较高的分类准确率和稳定性。实验结果表明该模型在鱼类分类任务上的有效性,并为解决传统方法对鱼类分类的困难提供了一种新思路。  相似文献   

10.
随机森林在bootstrap的基础上通过对特征进行抽样构建决策树,以牺牲决策树准确性的方式来降低决策树间的相关性,从而提高预测的准确性。但在数据规模较大时,决策树间的相关性仍然较高,导致随机森林的性能表现不佳。为解决该问题,提出一种基于袋外预测的改进算法,通过提高决策树的准确性来提升随机森林的预测性能。将随机森林的袋外预测与原特征相结合并重新训练随机森林,以有效降低决策树的VC-dimension、经验风险、泛化风险并提高其准确性,最终提升随机森林的预测性能。然而,决策树准确性的提高会使决策树间的预测趋于相近,提升了决策树间的相关性从而影响随机森林最终的预测表现,为此,通过扩展空间算法为不同决策树生成不同的特征,从而降低决策树间的相关性而不显著降低决策树的准确性。实验结果表明,该算法在32个数据集上的平均准确率相对原始随机森林提高1.7%,在校正的paired t-test上,该方法在其中19个数据集上的预测性能显著优于原始随机森林。  相似文献   

11.
为了降低中央空调系统的运行能耗,针对多冷水机组负荷分配优化问题,提出一种随机森林特征优选结合核函数极限学习机的冷水机组能效预测模型,通过剔除冗余特征提高预测精度;然后提出一种混合策略改进的被囊群算法,融合鲸鱼螺旋搜索策略改进个体更新方式,引入非线性动态权重平衡全局探索和局部开发,使用空翻扰动策略避免陷入局部最优;最后在能效模型的基础上,采用改进被囊群算法对多冷水机组负荷分配进行优化。实验结果表明,随机森林特征优选的方法可以有效的提高能效预测模型的准确度;改进被囊群算法通过优化机组的启停状态和负荷率可以有效发挥系统的节能潜力,与原有方法相比能耗降低约6%。说明该方法适用于多冷水机组的负荷分配优化问题。  相似文献   

12.
渐消卡尔曼滤波器滑动采样区间长度[N]的取值为单一定值,难以实现滤波精度与动态性之间的平衡。针对该问题,提出了一种基于IGGIII方案的自适应渐消卡尔曼滤波器。该滤波器进行新息异常卡方检测,通过构建一个类似于IGGIII权函数的三段式滑动采样区间长度[N]的取值函数,实现滑动采样区间长度[N]的自适应优化选取,提升滤波精度。Matlab仿真结果证明,基于IGGIII方案的自适应渐消卡尔曼滤波器在系统稳定情况下滤波结果更加精确,系统模型参数发生变化时具有更好的动态性,能够实现滤波精度与动态性之间的平衡。  相似文献   

13.
传统医保信息欺诈检测算法存在运行时间长、效率低的问题,无法保障患者医保信息安全,为了解决该问题,采用基于随机森林算法对失稳网络医保信息欺诈行为进行检测。通过混合抽样可抽取在失稳情况下的数据,并建立非平衡数据分类算法抽样机制;进行迭代随机森林数据计算,采用多数投票法构建基分类器,并以此为基础筛选异常数据;利用模型实现该算法对医保信息欺诈检测。设计对比实验,验证该算法有效性。通过实验结果可知,基于随机森林算法运行时间较短、效率高。  相似文献   

14.
提出一种将粒子滤波和局部优化相结合的算法框架,用于解决多关节人体运动跟踪问题.由于高维空间中无法进行密集采样,因此普通的粒子滤波方法对于人体运动估计存在困难.在粒子滤波过程中引入局部优化方法来减少样本个数:一方面,对每个样本进行局部优化得到更加匹配的状态;另一方面,优化后的结果被用来指导下一时刻采样函数的生成.实验结果表明,该疗法能够以较少的样本完成三维人体运动跟踪任务.  相似文献   

15.
The dynamic output feedback robust model predictive controller for a system with both polytopic uncertainty and bounded disturbance is addressed in this paper. This controller utilizes a main optimization problem to find the control law and a simple auxiliary optimization problem to refresh the bounds on the true state. The main optimization problem, which is not necessarily solved at each sampling instant, achieves the near‐optimal solution. The auxiliary optimization, which is solved at each sampling instant, is followed with a simple criterion which determines whether or not to solve the main optimization problem at the next sampling time. By applying the proposed method, the augmented state of the closed‐loop system is guaranteed to converge to the neighborhood of the equilibrium point.  相似文献   

16.
A stochastic real time optimization (SRTO) which has an efficient result has been implemented on the Tennessee Eastman (TE) challenging problem. In this article a novel stochastic optimization method, the so-called heuristic random optimization (HRO) proposed by Li & Rhinehart is used which attempts to rationally combine features of both deterministic and random (stochastic) methods. Further, an on-line nonlinear identifier via extended Kalman filter (EKF) is used to supply the plant model for model-based optimization algorithm. Using the information obtained from EKF an on-line HRO is accomplished by a random search method whose search directions and steps are considerably reduced by some heuristic rules. In order to compare and prove the performance of HRO method, the problem was solved again via sequential quadratic programming (SQP) which is the most efficient algorithms among the deterministic methods. The optimizer initiates every 8 h and determines the optimal set points of the PI controllers in the plant. The calculations are completed in about 15 s by HRO method. Simulations have been done using an Intel P4 2.8 GHz, and 256 MB of RAM.  相似文献   

17.
在大数据时代,在城市复杂交通环境中,实现实时、准确的交通流预测,是实现智能交通系统的必要前提。提出了一种在Spark平台上基于梯度优化决策树的分布式城市交通流预测模型(distributed urban traffic prediction with GBDT,DUTP-GBDT);并提出了分布式情况下梯度优化决策树模型实现的优化方法,包括切分点抽样、特征装箱和逐层训练三种,提高了分布式情况下梯度优化决策树训练效率。基于Spark分布式计算平台高效、可靠、弹性可扩展的优势,以及梯度优化决策树模型准确率较高和时间复杂度较低的优点,利用时间特征、道路状况特征以及天气特征等特征参数,建立了DUTP-GBDT模型,实现了实时、准确的交通流预测。通过与GABP、GA-KNN、MSTAR等模型的对比,证明了利用Spark平台,DUTP-GBDT模型在分布式环境下准确率和训练速度方面均有所提高,符合城市交通流预测系统的各项要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号