首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对一般相关反馈的基于内容图像检索(CBIR)方法不能有效处理相关图像和非相关图像的问题,提出了一种基于最佳路径森林分类(OPF)的贪婪学习方法(GL OPF),该方法旨在返回每次迭代查询的最相关图像。首先,查询图像和数据集图像通过Gabor小波变换提取特征向量;然后,通过GL OPF主动学习方法获得图像关联性反馈,生成标记训练集;最后,标记训练集通过OPF分类器进一步评估形成相关性和非相关性原型集,每次迭代都会返回查询的最相关图像。3个公开图像数据集Caltch101、Corel和Pascal上的实验验证了本文方法的有效性。实验结果表明,在3个数据集中,迭代8次时,GL OPF的查询精度比其他3种方法均有较大提高,此外,GL OPF的迭代运行时间和查询时间与OPF几乎相同,很大程度改进了OPF方法。  相似文献   

2.
为提高在CT图像中结直肠息肉的筛选效率,提出一种基于深度森林的结直肠息肉CT图像检测方法.通过灰度化、归一化、中值滤波、随机旋转的手段对数据集进行预处理,将处理后的数据输入一个调整后的深度森林进行预测分类,得到输出结果.实验结果表明,该模型与其他分类算法采用不同指标对比后,具有较好的分类效果,分类精度达到了99.67%...  相似文献   

3.
基于PCA改进SMOTE算法,能实现不平衡数据集的均衡化,并以随机森林作为分类器,应用于地质数据进行分类与预测。因原始数据集中的噪声数据可能会引起插值后的数据分布形态的改变,故提出结合PCA算法与SMOTE算法,先进行除噪降维再进行数据插值,改善不平衡数据集的分类性能,并对东天山化探样本数据进行实验,结果表明,新算法能较好地提高分类精度,为地质不平衡数据的分类与预测提供新的思路。  相似文献   

4.
基于差分隐私下包外估计的随机森林算法   总被引:1,自引:0,他引:1  
针对差分隐私随机森林算法在对高维数据进行分类时准确率不理想的问题,本文通过引入差分隐私下的包外估计来计算决策树权重以及特征权重,从而提出一种基于差分隐私下包外估计的随机森林算法(random forest under differential privacy based on the out-of-bag estimate, RFDP_OOB).本算法首先在差分隐私保护下生成一部分的随机森林,利用差分隐私下包外估计的特性对决策树和特征的重要性进行评估,从而计算出决策树权重以及特征权重,然后通过特征权重对特征进行划分,得到非重要特征集.接着在生成剩下的一部分随机森林的过程中,对最佳特征为非重要特征的结点进行预剪枝操作,使其成为叶子结点,从而减小噪声、提高决策树分类准确率,并具有较好的执行效率.最后在预测分类结果时,取所对应的决策树权重最大的分类结果作为随机森林算法的分类结果,从而提高随机森林算法的分类准确率.本文还对算法的有效性和隐私性进行了理论分析,并通过实验结果验证了本算法的有效性,本算法可以在保护数据隐私性的同时提高算法的分类准确率.  相似文献   

5.
将一种新的特征选择算法(F-sco re)与多种机器学习算法相结合用于多分类问题中.使用十折交叉验证对比模型的分类效果,利用分类误差验证该方法的鲁棒性.实验结果表明,文中使用的新的基于F-score的特征选择方法与传统机器学习算法相结合具有很好的性能,能够使用比原始数据集更少特征并产生良好分类结果,尤其在与迭代随机森林方法相结合的情况下,能够显著提高模型分类精度.  相似文献   

6.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

7.
当前遥感影像空间分辨率越来越高,对分类方法的要求也越来越高.针对城市地区高空间分辨率遥感影像,选取了两种不同数据源的高分城区遥感数据,先进行多尺度分割、特征提取,然后使用BF+CFS方法进行特征选择,再通过K最近邻、贝叶斯、支持向量机、决策树、随机森林等五种分类方法对遥感影像进行分类,并对比分析不同分类方法的分类结果及精度.研究结果表明,贝叶斯、决策树和随机森林分类对城区高分影像的分类精度较高.其中随机森林分类方法的分类结果最准确,但分类时涉及参数设置较多,对于实际生产应用的适用性不高;而贝叶斯分类操作简单,分类精度较高,更适用于城区高分遥感数据的生产应用.  相似文献   

8.
流式计算形态下的大数据分析一直是当前需要解决的问题,而且研究成果和实践经验较少。随机森林方法是目前应用较多的分类算法,但在流式计算应用场景中,数据所呈现出来的实时性、易失性、无序性等特征会使得算法准确度逐渐降低。针对这个问题,分析了随机森林的算法特点,提出了根据决策树的准确度进行随机森林剪枝的思路。同时为了适应数据的变化,结合准确度间隔的概念提出生成、验证并补充新决策树的方法,最终形成可以不断随数据更新的随机森林,满足流式大数据环境对算法的要求。使用实际数据对改进后方法的可行性进行了验证,证明新方法在真实流式大数据场景中有着更高的分类准确度,最后分析讨论了随机森林方法如何进一步研究改进的主题。  相似文献   

9.
在得到了局部放电绝缘缺陷模式识别所需的特征集后,针对特征维度较高,建立分类模型复杂的问题,提出了基于方差分析的随机森林前向特征选择方法。从两个方面进行了改进:一是提出一种基于方差分析的方法,度量特征在不同类别上的差异性,得到了修改之后的排列置换方案,用来指导某一个特征在袋外数据样本上的取值顺序的重新排列;二是采用序列前向搜索方法进行特征选择,得到迭代的特征评估结果,解决了现有算法中决定特征子集大小的随意性及结果的不稳定性问题。将基于方差分析的随机森林前向特征选择方法、主成分分析法和稀疏主成分分析法对单一特征集和组合特征集进行特征降维之后的结果输入到分类器进行测试,结果表明基于方差分析的随机森林前向特征选择方法能够获得较好的特征子集,用于局部放电特征降维是可行的,有效提高了局部放电缺陷类型识别率。  相似文献   

10.
为适应优化算法的模型,用K近邻方法对数据进行预处理,提出了KNN-RF模型。对数据集用K近邻进行缺失补充,并进行归一化等预处理操作,以随机森林算法为基础,并采用交叉检验和网格搜索寻找最佳参数。在比较流行的UCI心脏病数据集和克利夫兰医学中心公开数据集分别进行实验,建立了心脏病预测模型,用于辅助医生对患者是否患有心脏病进行诊断预测。通过对实验结果中的准确率、AUC值进行分析,随机森林预测结果最优,准确率达到了83.2%,AUC值达到0.965,实验结果表明:该算法分类效果较好,泛化能力强,对辅助医生进行心脏病预测具有可行性。  相似文献   

11.
基于随机森林的特征选择算法   总被引:2,自引:0,他引:2  
提出了一种基于随机森林的封装式特征选择算法RFFS,以随机森林算法为基本工具,以分类精度作为准则函数,采用序列后向选择和广义序列后向选择方法进行特征选择。在UCI数据集上的对比实验结果表明,RFFS算法在分类性能和特征子集选择两方面具有较好的性能。  相似文献   

12.
新型智能电表普及后,为了准确检测出电网中的窃电用户,可以结合机器学习的方法.为此,选择了支持向量机、随机森林和迭代决策树3种机器学习中较常用的大数据算法进行分析,通过不断调整试验数据集的大小,对3种算法的效率和准确率进行测试.对比分析结果发现,随机森林算法运行的时间和数据量的大小基本呈线性关系,效率较高,且准确率稳定在86%以上,表现较好.  相似文献   

13.
针对采用马氏距离进行直推式学习的一类分类椭球学习机,在训练样本点较少而待分类样本点较多的情况中出现的处理较大规模数据集时间较长的问题,提出了一种改进的直推式马氏椭球学习机。采用样本协方差初始化策略构建初始化矩阵,在每次迭代中将距离当前超椭球中心最远的待分类样本点加入到学习机中形成新的训练集,进行训练直到得到最终的超椭球。通过对实际数据集进行实验验证,结果表明改进的算法在确保较高分类准确率的前提下,能有效地提高处理较大规模数据集的计算效率。  相似文献   

14.
针对单模型分类算法在训练样本数量较少时成功率偏低的问题,提出一种集成学习算法,并在DPA_Contest_V4数据集上进行实验。首先使用传统方法破解循环掩码,再使用SVM(support vector machine)、随机森林和k近邻(k-nearest neighbor,kNN)等分类算法进行训练和预测,最后将这些模型的结果集成。实验结果表明,集成模型优于单一模型,尤其当训练集中的能量迹数目较少时集成模型的成功率比单一模型高10%左右。  相似文献   

15.
随机森林是一种流行的机器学习方法,已经被广泛地应用于生物医学和生物信息学。针对医学数据集的特征高维等固有特点,设计一个基于随机森林的医学数据分析软件系统。本系统基于Web技术,在客户端采用Java语言接收用户数据和参数,并显示数据分析结果,在服务器端用R语言执行机器学习算法,进行数据分析。本系统具有友好的用户界面、操作简单,实现在Web端调用随机森林算法对医学临床数据进行分析,并且能够很容易地扩展到调用其他机器学习方法。  相似文献   

16.
数据高维且不平衡时,产生的分类器易过度拟合且倾向于牺牲少数类准确率.为降低分类器复杂度且提高少数类识别率,提出了一种代价敏感随机森林算法.以随机森林算法框架为基础,利用Bagging平衡数据,并在基分类器属性分裂度量以及评价函数中引入误分类和测试双重代价,其中测试代价由分裂属性与少数类的相关度决定,使得基决策树在建模过程中向少数类倾斜.与随机森林和仅引入误分类代价的随机森林相比,引入双重代价的随机森林的分类准确率较高,尤其在少数类识别上具有较大优势.  相似文献   

17.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

18.
由于分类型数据相异度度量的局限性以及分类型数据在高维空间中的稀疏性,使得传统的相异度度量在高维分类型数据聚类中失效,针对上述问题,本研究提出了一个基于信息熵的理论高维分类型数据聚类算法。该算法综合考虑对应子空间和噪声空间的维度信息熵设计了一个高效、无监督的子空间搜索对高维数据进行有效降维,同时提出了基于整体数据的平均信息熵的全局优化方法对聚类结果进行迭代寻优。通过用人工数据和Votes、Mushroom和Soybean 3个典型的真实分类数据集试验,与其他分类型聚类算法相比,新算法在聚类准确性、熵值、CU(category utility)以及类个数等指标上有明显提高。  相似文献   

19.
针对大光斑激光雷达波形数据扰动大、树高分布不均匀的问题,基于Boosting集成算法的思想,提出了一种改进的核函数——核梯度提升树(kernel gradient boosting decision tree,KeGBDT).KeGBDT通过梯度提升树叶子节点的输出值计算连接函数的权值,使用连接函数的加权作为核函数的表达形式,从而避免叶子节点中观测值分布不均匀造成的误差.在实验部分,使用星载激光雷达(geoscience laser altimeter system,GLAS)数据提取的波形特征作为森林高度估测数据集,在该数据集上将KeGBDT与核随机森林(kernel random forests,KeRF)、线性核、高斯核等常用核函数在岭回归和支持向量回归(support vector regression,SVR)算法中进行了森林高度估测对比实验.另外,基于KeGBDT的岭回归和SVR模型与线性回归、梯度提升树(gradient boosting decision tree,GBDT)、随机森林等回归算法进行了森林高度估测对比分析.实验结果表明,基于KeGBDT的回归算法在决定系数与均方根误差两方面都优于常用核函数与回归算法,可以有效减小森林高度估测模型的回归误差.  相似文献   

20.
建立有效的数学模型可以提高消费者判定轿车级别的准确率。首先,将数据集分为训练数据集和测试数据集,针对训练数据集分别采用支持向量机算法、随机森林算法、k-近邻算法以及朴素贝叶斯算法建立4种模型。其次,用测试数据集比较和分析模型的性能,详细分析了每个模型的优缺点,以准确率作为评价指标,并根据消费者的购买需求,选择相应的模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号