首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 64 毫秒
1.
长期以来窃电问题一直困扰着电力企业,它不仅损害了供电企业的合法权益,扰乱了正常的供用电秩序,而且给安全用电带来了威胁.通过机器学习算法,对电力用电数据进行分析处理,可以预测用户是否存在窃电行为.基于电力数据中用户用电量提取相关特征,结合随机森林算法,提出了一种预测用户是否具有窃电行为的方法.对比多组实验数据,调节特征数量以及算法参数,以提高预测准确率和预测速度.  相似文献   

2.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate, RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.  相似文献   

3.
随机森林是一种流行的机器学习方法,已经被广泛地应用于生物医学和生物信息学。针对医学数据集的特征高维等固有特点,设计一个基于随机森林的医学数据分析软件系统。本系统基于Web技术,在客户端采用Java语言接收用户数据和参数,并显示数据分析结果,在服务器端用R语言执行机器学习算法,进行数据分析。本系统具有友好的用户界面、操作简单,实现在Web端调用随机森林算法对医学临床数据进行分析,并且能够很容易地扩展到调用其他机器学习方法。  相似文献   

4.
针对糖尿病风险预测中数据单一导致预测误差较大的问题,本研究基于体检电子病历数据分析搭建空腹血糖预测模型,探究适合进行空腹血糖预测建模的方法,预测血糖指标及糖尿病的患病风险。基于数据挖掘基本流程,进行数据预处理,采用序列后向算法进行特征选择,使用决策树、随机森林、SVM、逻辑回归及朴素贝叶斯分类5种机器学习算法进行建模预测,并验证所构建模型的效果。研究结果表明,五种算法的准确率均高于88%,其中SVM准确率最高,达96.7%;敏感度均高于66%,随机森林敏感度最高,为95.1%;特异度均高于88%,逻辑回归特异度最高,为97.0%;AUC的值均高于0.8,随机森林最高为0.942。综合比较序列后向选择算法,随机森林算法更适合搭建糖尿病风险预测模型。该研究对通过电子病历数据进行空腹血糖预测的准确度更高,具有很高的应用价值。  相似文献   

5.
在使用分布式内存计算的机器学习算法进行情感分析时,其训练效率还亟需提升,同时使用单个机器学习算法的准确率也不是很高,因此提出了一种基于Spark的集成算法来进行情感分析。在进行情感分析过程中通过Spark分布式内存计算,来实现算法的并行操作,有利于机器学习算法处理大数据集。Spark自带的机器学习库,使开发过程变得更加简单和快速。采用改进后的TF-IDF特征提取算法,以AdaBoost算法集成决策树和SVM,降低了单个算法的偶然性,提高了整个结果的准确性。实验结果表明:Spark分布式计算提高了效率,集成算法的情感识别更准确。  相似文献   

6.
针对传统的钓鱼站点攻击检测模型时延高、效率低、特征提取复杂的问题,提出一种使用长短期记忆网络(long short term memory,LSTM)和随机森林的混合算法模型。该模型主要包括网址上下文特征提取和混合特征分类两部分。首先,根据循环神经网络特点建立128步长的深度网络结构。实验数据参考开源社区提供的钓鱼网站网址和正常网址情报。利用自然语言处理技术对网址数据进行编码得到具有局部特征的网址序列。通过构建的LSTM网络对网址序列进行字符上下文特征提取,结合传统检测方法中的非字符序列特征,共同构成实验特征集。随后,利用随机森林获取每一个特征的最佳分裂点,构建混合特征分类模型。该模型以网址数据为检测源,一方面降低了随机森林的字符序列特征维度,另一方面结合传统钓鱼网址检测中的非序列特征,弥补了LSTM算法检测特征单一的问题。为验证该模型的有效性,设计了本文模型与随机森林算法、LSTM算法的对比实验,并进一步对不同LSTM训练规模的时间成本进行分析。从实验中发现,基于LSTM与随机森林的混合模型大幅度提高了钓鱼网站的识别准确率,模型准确率达到98.52%,比相同训练规模的LSTM准确率高3%,比实验中的单一随机森林准确率高7%。同时,相比于LSTM算法同等幅度的准确率提升,该混合算法具有更小的时间代价。实验结果表明,作者提出的混合模型克服了传统识别模型在特征提取、识别效率上的问题,适合于海量钓鱼网站攻击的快速识别。  相似文献   

7.
为了全面提升图书馆集成信息检索方法的综合性能,结合随机森林算法,提出一种基于随机森林的图书馆集成信息检索方法。在建立随机森林底层分类器的过程中加入贝叶斯多项式,利用算法中携带的数据提出一种基于二维权重分布的投票机制,根据投票结果进行图书馆集成信息检索。仿真实验结果表明,所提方法能够有效提升检索效率和检索结果准确率,获取满意的图书馆集成信息检索结果。  相似文献   

8.
针对传统工况识别算法在识别有杆抽油系统工况时,存在生产措施调整滞后以及生产效率下降等问题,提出了一种基于改进的随机森林工况识别算法.采用灰度矩阵特征提取算法对泵功图进行特征提取,将灰度特征值通过合成少数类过采样技术进行上采样,实现不平衡数据均衡化;利用蜻蜓优化算法选取随机森林参数对抽油机井工况进行识别,并以辽河油田的生产数据进行实验验证.结果表明,该方法能够避免传统识别方法选取参考工况不准确的问题,减少不平衡数据对工况识别的影响,提高工况识别的准确率,能够满足油田现场的实际需求.  相似文献   

9.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

10.
针对印第安皮玛族成年女性糖尿病数据集进行分类。将迭代随机森林与机器学习方法如随机森林、K最近邻、基于不同核函数的支持向量机、人工神经网络、Logistic回归、梯度提升机、决策树分类等作比较。分析了分类识别精度、查准率、查全率、度量、ROC曲线和AUC值等6个指标。通过实验发现,与上述其它7种分类算法相比,针对该数据集,迭代随机森林在这些性能指标上的表现是最优的。  相似文献   

11.
为了提高短期负荷预测的精度,综合分析了气象、日期等因素,并计算各特征与被预测负荷之间的相关系数,根据各特征与负荷之间的相关性,提出了一种将预测日前几天的负荷作为新特征进行负荷预测的方法。为了验证算法的普适性,采用支持向量回归、随机森林和梯度提升决策树3种机器学习算法,在2016-2018年我国北方某地的真实电力负荷和欧洲智能技术网络(EUNITE)竞赛负荷预测样本数据两个数据集上进行验证,并将预测结果与采用传统特征的算法进行了对比。预测结果显示,相较于传统方法,采用新特征后的短期负荷预测具有更高的预测精度。  相似文献   

12.
针对分布式光伏电站阴影遮挡提出一种基于随机森林算法的人机协同判别方法。通过遮挡机理分析和逆变器遥测参数转换构建组串直流侧电流离散率、太阳高度角、太阳方位角及电站瞬时发电水平等关键特征参数,搭建随机森林遮挡诊断模型。基于网格搜索法和K折交叉验证法优化参数,通过准确率对比确定基于信息增益的分裂方式。对比支持向量、逻辑回归及决策树等主流算法模型,发现随机森林算法在遮挡诊断场景中具有较强的优势,结合专家系统得出诊断方位后,现场验证了“基于信息增益的随机森林和专家系统”方法的有效性。  相似文献   

13.
随着互联网的发展,网上购物成为主流消费方式,随之产生了大量的商品文本数据,需要对商品进行准确而高效的分类。利用机器学习进行文本分类需要进行复杂的人工设计特征和提取特征过程。随着深度学习领域的发展,基于深度学习的文本分类技术效果显著。设计了一个基于长短期记忆网络(LSTM)的中文文本多分类器。首先对数据进行预处理,利用Tokenizer分词技术将文本处理为计算机可理解的词向量传入LSTM网络,并加入Dropout算法以防止过拟合得出最终的分类模型。将该模型与逻辑回归、多项式朴素贝叶斯、线性支持向量机、随机森林模型进行对比发现,基于LSTM的中文文本多分类方法具有较好的效果。  相似文献   

14.
为改善动态卷积神经网络在文本情感分类方法中的泛化能力,提出了一种动态卷积超限学习算法.对动态卷积神经网络的输出层加以改进,使用浅层随机神经网络替代全连接层,利用参数随机生成的扰动性能,降低分类端对训练样本的依赖,避免过拟合,提升分类性能.在公共数据集上的实验证明:相对改进前的动态卷积学习算法以及超限学习机,所提出的方法在准确率、F1测度等多个标准指标上均体现了更优的分类性能.  相似文献   

15.
入侵检测对于网络安全至关重要,不平衡或易混淆的训练样本往往导致传统入侵检测算法效率不佳。为此,提出一种小样本纠错的多层检测分类模型。首先,通过正交投影降维分类算法,使用入侵检测数据集的训练集构建第一层的初筛分类器,将待测样本粗分为三类;然后基于支持向量机及随机森林算法构造第二层和第三层的级联分类器组,每层逐步纠错前面层,并细分至五类;最后,用开源入侵检测评测数据集NSL-KDD进行实验。实验结果表明,本文的方法显著提高了对于拒绝服务攻击(Denial of Service,DoS)、探测攻击(Probe)、未经授权的远程访问(Remote to Local,R2L)类攻击样本的准确率,整体召回率及准确率优于同类研究。  相似文献   

16.
基于K邻近(KNN)算法和随机森林算法,提出了一种无线网络中丢失数据的重建方法。首先将多维原始数据通过不稳定无线信道进行发送,接收端将接收到的完整原始数据集中,利用KNN算法筛选出部分和重建特征相关性较高的特征,用于构造随机森林模型。然后输入缺失的数据样本,随机森林模型自适应地对数据样本进行分类,并利用完整样本对缺失特征值进行预测,从而完成丢失数据的重建。最后通过仿真实验表明,该方案可以有效地提升数据重建的精确度,在数据丢失率达到80%的情况下,重建数据的准确率仍然优于现有的解决方案。  相似文献   

17.
随着机器学习技术的不断发展,机器学习算法种类的增多以及模型复杂度提高,造成了实践应用中的两大难题:算法模型选择及模型超参数优化。为了实现模型选择和超参数优化的自动处理,该文提出了一种基于深度强化学习的优化方法。利用长短期记忆(LSTM)网络构建一个智能体(Agent),自动选择机器学习算法模型及对应的超参数组合。该智能体以最大化机器学习模型在验证数据集上的准确率为目标,利用所选择的模型在验证数据集上的准确率作为奖赏值(reward),通过强化学习算法不断学习直到找到最优的模型以及超参数组合。为了验证该方法的可行性及性能,在UCI标准数据集上将其与传统优化方法中基于树状结构Parzen的估计方法和随机搜索方法进行比较。多次实验结果证明该优化方法在稳定性、时间效率、准确度方面均具有优势。  相似文献   

18.
深度学习模型训练需要大量的有标签数据进行训练,现实生活中数据大多没有标签,需要进行人工标注,对于小样本的训练存在过拟合现象,针对此问题,本文提出一种算法:首先采用稀疏编码器对数据进行降维处理,然后利用T-SNE算法继续将数据维度降低到二维空间,最后采用高斯混合模型对数据进行聚类分析。该算法采用无监督斱法,不需要预先对数据进行标签化。该算法对数据过拟合具有一定的泛化能力,在手写数据集的训练集取得0.89205的准确度,在测试集中取得0.896的精度。该算法为小样本的学习提供了新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号