首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
针对传统差分隐私保护方案以剩余隐私预算的一半逐层分配,即等比分配隐私预算,被应用于决策树时,随着决策树高度的增加,分配至顶层的隐私预算过小,随机噪声过大,分类准确率受到影响的问题,作者提出以差分隐私保护结合主流决策树C4.5分类方法为基本思路,依据决策树高度等差分配隐私预算的方案。差分隐私中的Laplace机制和指数机制确保决策树分类的安全性。作者利用大数据Hadoop平台的MapReduce框架,主程序进行MapReduce参数配置以及外层循环。在执行到每一个节点时,主程序将数据集属性的统计任务交给Mapper类,Reducer类接收Mapper类的统计结果并利用Laplace机制添加随机噪声,加噪结果返回主程序中作为计算信息增益率的参数。主程序利用指数机制选择最佳细分方案,递归过程直至样本数为0时停止。实验采用UCI数据库的car数据集进行测试,在不同隐私预算下将等比分配与等差分配两种方案得到的分类结果准确率进行对比。实验结果表明:本文算法在可接受的分类准确率降低的情况下满足差分隐私保护;与传统隐私预算分配相比,本文算法在相同隐私预算下提高了分类准确率;对于car数据集,本文算法在隐私预算为0.7或0.8时可较好兼顾数据集的安全性和有效性。因此,在一定程度上依据决策树高度等差分配隐私预算的方案可改善分类准确率,可实际应用于决策树分类算法。  相似文献   

2.
主要阐述了决策树学习算法在交通方式选择模型中的应用.在基本决策树的基础上,使用随机森林组合学习算法来建立交通方式选择模型,以Bagging预测方法和CART算法为主,以随机特征选择和"投票"方法为辅,并相互融合,结合具体实例详细介绍该模型的建立,从数据的选择到整个森林中树的数目和每个结点处抽取的候选属性的个数调整,并对模型进行了相应的评估.实验结果表明,随机森林预测精度高,且对噪声数据具有较强的稳健性,采用决策树学习算法得出的规则在交通方式选择的分析中具有较好的实用价值.  相似文献   

3.
由于权重社交网络的复杂性和噪声随机性,传统的隐私保护方法无法兼顾社交网络中的隐私和效用需求.针对此问题,融合直方图统计和非交互式差分隐私查询模型,提出社交网络边权重直方图统计发布方法.该方法将边权重统计直方图作为查询结果,并设计低敏感度的边权重拉普拉斯噪声随机扰动算法,实现社交关系的差分隐私保护.为减少噪声量,引入社区...  相似文献   

4.
流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。  相似文献   

5.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

6.
针对助听器应用中背景噪声场景分类算法需同时具备低延时性和高分类准确率的问题,提出一种基于LightGBM集成学习模型的助听器场景分类算法以减少分类过程的计算时间,给出一种新的子带谱相关性特征并联合子带谱熵特征构成分类特征来提高助听器场景分类的准确率,使用双耳差分信号提取子带谱特征减少计算过程中的内存占用率以及模型离线训练工作量,提高计算效率。对双耳助听器声学环境识别数据集中的安静室内、交通环境、风噪声、音乐、鸡尾酒会、汽车噪声6种场景下的背景声音进行测试,实验结果表明,相对于基于随机森林模型和子带信号周期性特征、子带信号熵特征的场景分类算法,该算法在实时性和分类准确率方面的性能均有显著改善。  相似文献   

7.
基于决策树的启发式流分类算法目标是建立结点数目尽可能少,树深度尽可能小的数据结构,从而获得较优的时空性能。本文提出的基于参数评估的可调节式流分类算法(PEA:Parameter Evaluation Adjustable algorithm)一方面沿袭目前主流的决策树类流分类算法思想,一方面引入性能参数的概念,并采取调节参数权值的方式获得性能最佳的数据结构。大量测试结果表明,相同条件下本算法对比同类算法能够获得更优的性能结果。  相似文献   

8.
基于分类问题的特点,设计了适用于分类问题的类电磁机制算法,然后设计了基于改造后的类电磁机制算法的最优决策树生成算法,用以解决支持向量机多分类问题.以最大分类间隔为准则,利用类电磁机制算法进行优化,从而生成最优或次优的决策树.在每个决策结点利用传统的支持向量机二分类方法进行分类,最终实现支持向量机多分类.仿真结果表明:这种方法比传统的1-a-1,1-a-r,DAG-SVM,DT-SVM以及GADT-SVM方法有更优的性能.  相似文献   

9.
针对当前Android恶意软件检测方法对检测出的恶意行为无法进行识别和分类的问题,提出基于随机森林(RF)算法的Android恶意行为的识别与分类方法. 该方法在对Android恶意软件的类型进行定义的基础上,利用融合多种触发机制的Android恶意行为诱导方法触发软件的潜在恶意行为;通过Hook关键系统函数对Android软件行为进行采集并生成行为日志,基于行为日志提取软件行为特征集;使用随机森林算法,对行为日志中的恶意行为进行识别与分类. 实验结果表明,该方法对Android恶意软件识别的准确率达到91.6%,对恶意行为分类的平均准确率达到96.8%.  相似文献   

10.
针对糖尿病风险预测中数据单一导致预测误差较大的问题,本研究基于体检电子病历数据分析搭建空腹血糖预测模型,探究适合进行空腹血糖预测建模的方法,预测血糖指标及糖尿病的患病风险。基于数据挖掘基本流程,进行数据预处理,采用序列后向算法进行特征选择,使用决策树、随机森林、SVM、逻辑回归及朴素贝叶斯分类5种机器学习算法进行建模预测,并验证所构建模型的效果。研究结果表明,五种算法的准确率均高于88%,其中SVM准确率最高,达96.7%;敏感度均高于66%,随机森林敏感度最高,为95.1%;特异度均高于88%,逻辑回归特异度最高,为97.0%;AUC的值均高于0.8,随机森林最高为0.942。综合比较序列后向选择算法,随机森林算法更适合搭建糖尿病风险预测模型。该研究对通过电子病历数据进行空腹血糖预测的准确度更高,具有很高的应用价值。  相似文献   

11.
以太行山区为研究对象,基于Sentinel-2A遥感影像数据,采用基于像元和面向对象分类两种策略,定量分析不同特征组合模式下,最大似然法(ML)、贝叶斯(Bayes)、支持向量机(SVM)、决策树(Decision Tree)以及随机森林(RF) 5种分类方法在该区域地表土地覆被信息分类中的表现差异。结果表明:(1)基于像元的RF分类器取得了最高精度,仅使用光谱特征参与分类和使用光谱、红边、指数特征参与分类的总体精度分别为96. 85%和96. 64%。(2)红边和指数特征的加入能够对各分类器分类精度产生不同程度的影响,即使基于像元的RF和面向对象的CART决策树总体精度有所下降,但降幅均在0. 5%左右,其他分类器精度均有所提升。  相似文献   

12.
基于随机森林的流量分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
网络流量识别在提高网络管理能力和保护网络安全方面有着重要作用。传统的基于端口识别和深度包检测的方法由于无法应对端口随机化、数据加密等原因,识别效率大大降低。近年来,出现了基于流统计特征的识别方法。然而,已有的基于流统计特征的识别方法大多使用单个分类器进行流量识别,存在着精度提高难、环境依赖强等局限性。针对这一问题,提出一种基于随机森林的流量分类方法,基于多分类器集成的思想,采用由多个决策树集成、由随机向量决定决策树构造方式的随机森林,实现对网络流量的分类。实验分析结果表明,所提出方法的分类性能优于常见的基于C4.5和Naive Bayes的流量分类方法。  相似文献   

13.
基于能量特征估计的电能质量扰动消噪方法研究   总被引:1,自引:1,他引:0  
电能质量扰动识别过程中噪声的存在会增加误判,为了提高分类的正确率,消噪对于电能质量扰动识别是一项非常重要的工作。论文应用Daubechies小波时频分解的噪声能量保持特性来估计扰动信号中不同分解尺度上的噪声能量,从而由含噪声信号能量分布和所估计的噪声能量确定实际扰动信号的能量特征,完成了消噪,对消噪处理后电能质量扰动信号应用数据挖掘中的决策树算法进行识别。仿真计算表明,该消噪方法能提高识别精度,是一种非常有效的电能质量扰动信号消噪方法。  相似文献   

14.
针对模式识别中的多分类器集成,通过挖掘测试样本特征属性的相关性,结合训练集的条件独立性分析对每个样本赋予分类规则,构造分类森林(而非单个决策树)进行模型集成。整个学习过程能够自适应确定各决策树结构和数量,并充分发挥集成模型的伸缩性和扩展性。在UCI机器学习数据集上的实验结果验证了本方法的有效性。  相似文献   

15.
针对密码算法识别工作中因密码算法数量增多、密文数据复杂化以及数据间干扰增加,导致单层识别方案的识别准确率和稳定性变差等问题,提出一种基于混合梯度提升决策树和逻辑回归模型,并基于该模型构造分组密码算法识别方案。在该方案中,首先用原始十组特征训练梯度提升决策树模型,然后利用其学习而生成的树来构造新特征,再将新特征做one-hot编码,最后把这些新特征加入到原有特征中,训练逻辑回归模型进行预测。在唯密文情况下,针对AES、3DES、Blowfish、CAST和RC2五种典型的分组密码开展密码算法识别研究。当密文大小及其它实验条件都相同时,其二分类的识别准确率最高可达70%,五分类准确率最高达32%;高于基于单一梯度提升决策树分类方案的52.5%和27.2%分类准确率,以及单一逻辑回归模型分类方案的45%和25.6%分类准确率;显著优于二分类50%以及五分类20%的随机猜测正确率。实验结果表明,在分组密码算法上开展二分类和五分类识别,相较于其它识别方案,当密文长度相同时,该方案具有更高的分类准确率。同时随着密文长度的变化,识别准确率呈波动性变化,该方案波动幅度最小,受影响程度最小,稳定性最高。  相似文献   

16.
A new classification algorithm for web mining is proposed on the basis of general classification algorithm for data mining in order to implement personalized information services. The building tree method of detecting class threshold is used for construction of decision tree according to the concept of user expectation so as to find classification rules in different layers. Compared with the traditional C4.5 algorithm, the disadvantage of excessive adaptation in C4.5 has been improved so that classification results not only have much higher accuracy but also statistic meaning.  相似文献   

17.
1 Introduction D atabases are rich w ith hidden inform ation that can be used for m aking intelligentbusiness decisions. C lassification is one form of data analysis thatcan be used to extractm odels describing im portantdata class- es.There have m any ap…  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号