首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate, RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.  相似文献   

2.
为提高对用户购买意向预测的准确率,提出了一种基于堆叠法集成学习的用户购买行为预测模型.利用模型融合技术,将逻辑回归、决策树和XGBoost模型作为基学习器输入,再以随机森林模型作为次学习器进行堆叠,从而形成一种组合模型.针对电商提供的线上用户数据集,首先利用滑窗技术提取用于预测用户购买行为的特征,然后分别使用逻辑回归、决策树、XGBoost和集成学习组合模型预测用户购买意向的准确性.结果表明,组合模型的准确性明显优于其他算法.  相似文献   

3.
针对糖尿病风险预测中数据单一导致预测误差较大的问题,本研究基于体检电子病历数据分析搭建空腹血糖预测模型,探究适合进行空腹血糖预测建模的方法,预测血糖指标及糖尿病的患病风险。基于数据挖掘基本流程,进行数据预处理,采用序列后向算法进行特征选择,使用决策树、随机森林、SVM、逻辑回归及朴素贝叶斯分类5种机器学习算法进行建模预测,并验证所构建模型的效果。研究结果表明,五种算法的准确率均高于88%,其中SVM准确率最高,达96.7%;敏感度均高于66%,随机森林敏感度最高,为95.1%;特异度均高于88%,逻辑回归特异度最高,为97.0%;AUC的值均高于0.8,随机森林最高为0.942。综合比较序列后向选择算法,随机森林算法更适合搭建糖尿病风险预测模型。该研究对通过电子病历数据进行空腹血糖预测的准确度更高,具有很高的应用价值。  相似文献   

4.
针对城市固废焚烧(municipal solid waste incineration, MSWI)过程中存在的随机和连续数据缺失问题,提出了一种基于专家经验和约简特征集成模型的填充方法.首先,将过程数据缺失情况识别为随机分布、时间维度和特征维度缺失3种类型.接着,基于专家经验对前2种类型进行缺失填充后,面向第3种类型基于分布相似性和互信息相关性为缺失特征预测模型选择建模数据集和约简特征,建立具有互补特性的随机森林、梯度提升决策树和反向传播神经网络子模型对缺失值进行初步预测,利用贝叶斯线性回归(Bayesian linear regression, BLR)构建集成模型以获得最终填充值.最后,利用填充后的MSWI数据建立基于跨层全连接深度森林回归的二噁英排放浓度软测量模型.实验结果表明所提方法提高了MSWI过程数据的质量.  相似文献   

5.
对学生的成绩进行分析并找出影响成绩的主要因素和规则,有利于科学指导学生的学习.介绍了一种以决策树C4.5算法为基础的学生成绩分析方法并以考研英语成绩分析为例,进行属性选择、构建数据集、数据预处理并建立模型,以提取影响考研英语成绩的主要因素和规则.实验表明,该模型有较好的交叉验证率和正确预测率,用此方法对学生成绩进行分析是合理的.  相似文献   

6.
区域运输通道交通方式选择3层模型   总被引:2,自引:0,他引:2  
为实现区域运输通道内交通方式的合理配置,建立基于用户最优的通道内交通方式选择3层Nested Logit模型.模型采用分层的建模思想,运用不确定规划理论和随机效用理论,从概率的角度研究了通道内交通方式的选择问题.以京沪通道客运方式选择为例,并以京沪磁浮客流预测调查数据为基础,同时辅以一定量的交通调查,进行数据校合和模型...  相似文献   

7.
气象数据挖掘是近年来研究的热点,组合分类器能够实现协同计算以提高效率和准确性,就此本文采用数据挖掘方法中的决策树组合分类器对某地气象进行了气温预测,主要依据C4.5经典算法、Bagging集成方法构建组合决策树,并加入协同的思想建立了预测气温的决策树协同分析模型.实验表明,基于Bagging的决策树协同模型对于局部区域的气温预测具有较高的准确率.  相似文献   

8.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

9.
为适应优化算法的模型,用K近邻方法对数据进行预处理,提出了KNN-RF模型。对数据集用K近邻进行缺失补充,并进行归一化等预处理操作,以随机森林算法为基础,并采用交叉检验和网格搜索寻找最佳参数。在比较流行的UCI心脏病数据集和克利夫兰医学中心公开数据集分别进行实验,建立了心脏病预测模型,用于辅助医生对患者是否患有心脏病进行诊断预测。通过对实验结果中的准确率、AUC值进行分析,随机森林预测结果最优,准确率达到了83.2%,AUC值达到0.965,实验结果表明:该算法分类效果较好,泛化能力强,对辅助医生进行心脏病预测具有可行性。  相似文献   

10.
为了提高电力系统短期负荷预测的准确性,本文提出了基于改进随机森林算法的电力系统短期负荷预测模型。改进随机森林算法是将随机森林算法中的决策树数量和分裂特征数等参数采用粒子群进行优化,通过比较每组参数对应的随机森林袋外数据误差,获取参数最优值,使随机森林算法的性能得到最优,并采用山东省某城市电网的历史负荷数据进行仿真分析。仿真结果表明,与基于传统随机森林算法的预测模型相比,本文所提出的预测模型的平均绝对误差降低0.81%,最大相对误差降低1.89%,说明本文所提出的基于改进随机森林算法的短期负荷预测模型具有更好的预测性能。该研究具有一定的工程实用性。  相似文献   

11.
针对分布式光伏电站阴影遮挡提出一种基于随机森林算法的人机协同判别方法。通过遮挡机理分析和逆变器遥测参数转换构建组串直流侧电流离散率、太阳高度角、太阳方位角及电站瞬时发电水平等关键特征参数,搭建随机森林遮挡诊断模型。基于网格搜索法和K折交叉验证法优化参数,通过准确率对比确定基于信息增益的分裂方式。对比支持向量、逻辑回归及决策树等主流算法模型,发现随机森林算法在遮挡诊断场景中具有较强的优势,结合专家系统得出诊断方位后,现场验证了“基于信息增益的随机森林和专家系统”方法的有效性。  相似文献   

12.
车辆在执行换道行为时,由于受到较多环境因素影响,难以准确进行换道识别和预测. 为解决这一问题,提出一种基于梯度提升决策树(GBDT)进行特征变换的融合换道决策模型,以仿真驾驶员在高速公路上自由换道时的决策行为. 采用主体车辆与目标车道后车的碰撞时间 tlag 及车辆周围交通状态变量进行车辆换道行为的建模分析,在NGSIM数据集上对建立的融合换道决策模型进行参数标定和模型测试. 实验结果表明:融合换道决策模型以95.45%的预测准确率超越支持向量机、随机森林和GBDT等单一的换道决策模型,获得了最突出的表现. 变量分析结果表明:新引入的换道决策变量 tlag 对车辆换道行为具有重要影响. 提出的融合换道决策模型能够进一步减少因换道决策误判而导致的交通事故.  相似文献   

13.
提出一种基于Db6小波函数和随机森林算法相结合的电力电子故障诊断新方法.介绍应用Db6小波进行波形分解和提取故障特征量的方法与步骤,阐述随机森林算法决策树的生长和投票过程,应用随机森林算法设计出故障分类器,并将其应用于12脉波可控整流电路的故障识别.诊断结果表明,所提方法具有较高的正确诊断率和较强的抗噪声能力.在加入5...  相似文献   

14.
提出一种基于ReliefF算法的时频联合特征及随机森林的配电网电缆故障识别方法. 针对零序电压,从时域和频域构造23个故障敏感特征,采用ReliefF算法进行特征选择,得到最具分类能力的特征子集. 将特征子集作为基于随机森林的输入进行训练,得到最终的分类模型,实现了电缆故障类型识别. 所提方法与基于单一特征的方法相比,能够更加充分地挖据数据潜力,同时由于采用ReliefF算法筛除了无关特征,提高了算法效率. 最后采用Matlab软件进行仿真,并与决策树、KNN、SVM等算法进行比较,仿真结果验证了所提方法的可行性和高准确性.  相似文献   

15.
为提高民航运输的高效性和安全性,利用随机森林模型,结合多普勒激光雷达技术,提出一种基于径向速度极差特征和边缘轮廓特征融合的方法,实现对飞机尾流的准确识别。将在双流机场采集的数据样本进行速度极差特征提取,同时将样本数据映射成灰度图,通过形态学梯度提取图像轮廓特征,再将二者融合,并以此构建随机森林尾流识别模型,最后进行对比实验。实验结果表明,特征融合后随机森林模型的分类准确率、精确率、召回率、F1-score分别为95.8%、87.3%、89.4%、88.4%,高于单一特征方式和决策树模型识别结果。本文提出的方法能够对具有复杂背景风场中的尾涡进行检测。  相似文献   

16.
基于随机森林的流量分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
网络流量识别在提高网络管理能力和保护网络安全方面有着重要作用。传统的基于端口识别和深度包检测的方法由于无法应对端口随机化、数据加密等原因,识别效率大大降低。近年来,出现了基于流统计特征的识别方法。然而,已有的基于流统计特征的识别方法大多使用单个分类器进行流量识别,存在着精度提高难、环境依赖强等局限性。针对这一问题,提出一种基于随机森林的流量分类方法,基于多分类器集成的思想,采用由多个决策树集成、由随机向量决定决策树构造方式的随机森林,实现对网络流量的分类。实验分析结果表明,所提出方法的分类性能优于常见的基于C4.5和Naive Bayes的流量分类方法。  相似文献   

17.
针对PM2.5浓度的非线性和不确定性,提出了一种基于集成树-梯度提升决策树(EnsembleTrees-GBDT)的PM2.5预测模型.该模型首先在集成树框架下进行特征选择,即选取PM2.5浓度主要影响因素,使用算术均值聚合法计算出各项特征对PM2.5浓度增加的影响程度,并以影响程度由强到弱的次序排序;其次使用网格搜索对GBDT算法进行参数优化,选取树的深度等参数的最优值;最后构建完整的PM2.5浓度集成预测模型.使用北京市2015-2016年的污染物浓度和气象条件观测值2个数据集,对模型进行了预测仿真实验.对比实验结果表明,所提出的EnsembleTrees-GBDT预测模型相比于决策树、随机森林、支持向量机等模型,具有更低的平均绝对误差和均方根误差,同时具有更好的泛化能力,能够更准确地预测PM2.5浓度,并实现对PM2.5浓度影响因素的有效分析.  相似文献   

18.
交通流数据作为交通系统重要的输入变量,交通流数据采集器所采集的交通流数据质量直接影响着交通系统运行的稳定性;针对交通流数据中所出现的采样数据异常情况,提出一种基于随机森林的缺失值填补及孤立森林算法的交通流异常数据筛选方法,在此基础上通过线性回归模型对数据中缺失值及异常值进行填补构建整体交通流数据有效性处理框架;结果表明经过异常值处理模型修复的数据整体满足有效交通流数据要求,可为交通情况预测及交通系统运行提供数据支撑。  相似文献   

19.
新型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集的大小,对3种算法的效率和准确率进行测试.对比分析结果发现,随机森林算法运行的时间和数据量的大小基本呈线性关系,效率较高,且准确率稳定在86%以上,表现较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号