首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
复杂数据流中所存在的概念漂移及不平衡问题降低了分类器的性能。传统的批量学习算法需要考虑内存以及运行时间等因素,在快速到达的海量数据流中性能并不突出,并且其中还包含着大量的漂移及类失衡现象,利用在线集成算法处理复杂数据流问题已经成为数据挖掘领域重要的研究课题。从集成策略的角度对bagging、boosting、stacking集成方法的在线版本进行了介绍与总结,并对比了不同模型之间的性能。首次对复杂数据流的在线集成分类算法进行了详细的总结与分析,从主动检测和被动自适应两个方面对概念漂移数据流检测与分类算法进行了介绍,从数据预处理和代价敏感两个方面介绍不平衡数据流,并分析了代表性算法的时空效率,之后对使用相同数据集的算法性能进行了对比。最后,针对复杂数据流在线集成分类研究领域的挑战提出了下一步研究方向。  相似文献   

2.
针对基于频繁子图的图分类算法不能有效解决高效和分类正确率并存的矛盾,提出G-Bagging图分类算法。该算法利用传统图分类算法训练出多个基图分类器,集成学习加权构造集成分类器,余度管理实时更新权值。通过实验,表明G-Bagging算法降低了对最小支持度和训练样本空间大小的要求,即在算法效率提高的同时,保证了分类正确率。  相似文献   

3.
遥感影像分类一直是遥感领域的研究热点.集成学习通过多个单一分类器得到的分类信息进行综合来提高分类的精度.论文阐述了集成技术的常用算法和策略,给出了遥感数据分类采用单分类算法,Bagging,Boosting以及MCS集成分类的实验结果的比较和分析.实验表明,集成技术能有效提高遥感数据的分类精度.在训练样木少的情况下,提供了一种保证分类性能和泛化性的有效途径.  相似文献   

4.
不平衡数据的集成分类算法综述   总被引:1,自引:0,他引:1  
集成学习是通过集成多个基分类器共同决策的机器学习技术,通过不同的样本集训练有差异的基分类器,得到的集成分类器可以有效地提高学习效果。在基分类器的训练过程中,可以通过代价敏感技术和数据采样实现不平衡数据的处理。由于集成学习在不平衡数据分类的优势,针对不平衡数据的集成分类算法得到广泛研究。详细分析了不平衡数据集成分类算法的研究现状,比较了现有算法的差异和各自存在的优点及问题,提出和分析了有待进一步研究的问题。  相似文献   

5.
虞瑶  范雪婷  丁婷 《遥感信息》2023,(4):161-167
近年来,协同表示分类(collaborative representation classification, CRC)算法成为高光谱遥感影像分类的研究热点,其中基于bagging的协同表示集成学习算法(bagging-based collaborative representation classification, BagsCRC)利用bagging集成方式有效地提高了基分类器协同表示分类算法的精度。为进一步提升BagsCRC算法的有效性,文章提出了一种联合自适应形状邻域和bagging协同表示集成学习算法(shape-adaptive bagging-based collaborative representation classification, SABagsCRC)。该算法通过构建训练样本和测试样本的自适应形状邻域,进而构建空间信息约束的分类器集成模式。实验采用Indian pines和Washington DC Mall两组高光谱遥感影像,对所提出算法的性能进行了评价。实验结果表明,SABagsCRC算法在分类效果上比BagsCRC算法有明显的提升。  相似文献   

6.
曹阳  闫秋艳  吴鑫 《计算机应用》2021,41(3):651-656
针对现有集成分类方法对不平衡时间序列数据学习能力欠佳的问题,采用优化组件算法性能和集成策略的思路,以异构集成方法即基于变换的集合的层次投票集合(HIVE-COTE)为基础,提出一种不平衡时间序列集成分类算法IMHIVE-COTE。该算法主要包含两个改进内容:首先,增加了一个新的不平衡分类组件SBST-HESCA,引入Boosting结合重采样的思路,并通过交叉验证预测结果来更新样本权重,从而使数据集的重采样过程更有利于提升少数类样本的分类质量;其次,结合SBST-HESCA组件对HIVE-COTE计算框架进行改进,通过优化组件算法的权重使不平衡时间序列分类算法对分类结果拥有更高的投票比重,从而再次提升集成算法整体的分类质量。实验部分对IMHIVE-COTE的性能进行了验证和分析:和对比方法相比,IMHIVE-COTE有最高的整体分类评价,并且在三个不平衡分类指标值上分别得到了最优、最优、第三优的整体分类评价,可以证明IMHIVE-COTE解决不平衡时间序列分类问题的能力明显较高。  相似文献   

7.
针对概念漂移数据流集成分类算法的基本概念、相关工作、适用范围及优缺点等方面进行具体阐述,重点分析突变型、渐变型、重复型和增量型集成分类算法,以及集成分类中的Bagging、Boosting、基分类器组合学习策略与在线学习、基于块的集成、增量学习关键技术,指出现阶段概念漂移数据流集成分类算法所需解决的主要问题,并对集成基分类器的动态更新与加权组合、多类型概念漂移的快速检测等研究方向进行分析和展望。  相似文献   

8.
提出了一种新的基于边缘分类能力排序准则,用于基于排序聚集(ordered aggregation,OA)的分类器选择算法.为了表征分类器的分类能力,使用随机参考分类器对原分类器进行模拟,从而获得分类能力的概率模型.为了提高分类器集成性能,将提出的基于边缘分类能力的排序准则与动态集成选择算法相结合,首先将特征空间划分成不同能力的区域,然后在每个划分内构造最优的分类器集成,最后使用动态集成选择算法对未知样本进行分类.在UCI数据集上进行的实验表明,对比现有的排序准则,边缘分类能力的排序准则效果更好,进一步实验表明,基于边缘分类能力的动态集成选择算法较现有分类器集成算法具有分类正确率更高、集成规模更小、分类时间更短的优势.  相似文献   

9.
集成学习算法的构造属于机器学习领域的重要研究内容,尽管弱学习定理指出了弱学习算法与强学习算法是等价的,但如何构造好的集成学习算法仍然是一个未得到很好解决的问题.Freund和Schapire提出的AdaBoost算法和Schapire和Singer提出的连续AdaBoost算法部分解决了该问题.提出了一种学习错误定义,以这种学习错误最小化为目标,提出了一种通用的集成学习算法,算法可以解决目前绝大多数分类需求的学习问题,如多分类、代价敏感分类、不平衡分类、多标签分类、模糊分类等问题,算法还对AdaBoost系列算法进行了统一和推广.从保证组合预测函数的泛化能力出发,提出了算法中的简单预测函数可统一基于样本的单个特征来构造.理论分析和实验结论均表明,提出的系列算法的学习错误可以任意小,同时又不用担心出现过学习现象.  相似文献   

10.
近年来,集成学习(Ensemble Learning,EL)分类方法成为土地覆被分类的研究热点,尤其是Boosting集成分类方法具有分类精度高、泛化能力强,在土地覆被分类中得到了显著的应用。但是,Boosting集成分类方法对噪声很敏感,如果训练样本含有噪声时,Boosting算法可能会失效,这是该方法的局限性。为了解决Boosting集成方法在土地覆被分类中存在的问题,有效克服噪声的影响,减少分类结果中的“椒盐”现象和提高分类精度,提出了基于双树复小波分解的Boosting集成学习分类方法。该方法对影像的光谱波段进行一层双树复小波分解,降低图像的噪声,将分解后的各波段作为Boosting集成学习的输入,得到最终的分类结果。实验先后比较了GBDT、XGBoost、LightGBM 3种Boosting集成学习算法在SPOT 6和Sentinel-2A影像上的分类效果。结果表明:(1)在SPOT 6影像上,3种Boosting集成算法总体分类精度均高于90%;DTCWTLightGBM分类总体精度最高,达到94.73%,Kappa系数为0.93,比LightGBM总体精度提高了1.1%...  相似文献   

11.
多标签代价敏感分类集成学习算法   总被引:12,自引:2,他引:10  
付忠良 《自动化学报》2014,40(6):1075-1085
尽管多标签分类问题可以转换成一般多分类问题解决,但多标签代价敏感分类问题却很难转换成多类代价敏感分类问题.通过对多分类代价敏感学习算法扩展为多标签代价敏感学习算法时遇到的一些问题进行分析,提出了一种多标签代价敏感分类集成学习算法.算法的平均错分代价为误检标签代价和漏检标签代价之和,算法的流程类似于自适应提升(Adaptive boosting,AdaBoost)算法,其可以自动学习多个弱分类器来组合成强分类器,强分类器的平均错分代价将随着弱分类器增加而逐渐降低.详细分析了多标签代价敏感分类集成学习算法和多类代价敏感AdaBoost算法的区别,包括输出标签的依据和错分代价的含义.不同于通常的多类代价敏感分类问题,多标签代价敏感分类问题的错分代价要受到一定的限制,详细分析并给出了具体的限制条件.简化该算法得到了一种多标签AdaBoost算法和一种多类代价敏感AdaBoost算法.理论分析和实验结果均表明提出的多标签代价敏感分类集成学习算法是有效的,该算法能实现平均错分代价的最小化.特别地,对于不同类错分代价相差较大的多分类问题,该算法的效果明显好于已有的多类代价敏感AdaBoost算法.  相似文献   

12.
基于MultiBoost分类组装技术,提出了一种用增量交叉验证技术求MultiBoost最小分类误差的算法,以使之在指定分类器数量T的范围内找出具有最小分类误差的舍戍分类器.  相似文献   

13.
为提高数据分类的性能,提出了一种基于信息熵[1]的多分类器动态组合方法(EMDA)。此方法在多个UCI标准数据集上进行了测试,并与由集成学习算法—AdaBoost,训练出的各个基分类器的分类效果进行比较,证明了该算法的有效性。  相似文献   

14.
基于改进离散二进制粒子群的SVM选择集成算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对基于离散二进制粒子群(BPSO)的SVM选择集成算法的分类精度不高,以及所选分类器个数过多等问题,利用改进的离散二进制粒子群算法(IBPSO)和SVM选择集成算法相结合,提出基于IBPSO的SVM选择集成算法。通过选用合适的适应度函数以及调节因子[k],进行多次仿真,实验表明,对由boostrap方式生成的SVM集合,基于IBPSO的SVM选择集成在精度和分类器个数方面均优于基于BPSO的SVM选择集成,证明了IBPSO算法的优越性。  相似文献   

15.
极限学习机的相异性集成算法(Dissimilarity Based Ensemble of Extreme Learning Machine,D-ELM)在基因表达数据分类中能够得到较稳定的分类效果,然而这种分类算法是基于分类精度的,当所给样本的误分类代价不相等时,不能直接实现代价敏感分类过程中的最小平均误分类代价的要求。通过在分类过程中引入概率估计以及误分类代价和拒识代价重新构造分类结果,提出了基于相异性集成极限学习机的代价敏感算法(CS-D-ELM)。该算法被运用到基因表达数据集上,得到了较好的分类效果。  相似文献   

16.
It is demonstrated that the use of an ensemble of neural networks for routine land cover classification of multispectral satellite data can lead to a significant improvement in classification accuracy. Specifically, the AdaBoost.M1 algorithm is applied to a sequence of three-layer, feed-forward neural networks. In order to overcome the drawback of long training time for each network in the ensemble, the networks are trained with an efficient Kalman filter algorithm. On the basis of statistical hypothesis tests, classification performance on multispectral imagery is compared with that of maximum likelihood and support vector machine classifiers. Good generalization accuracies are obtained with computation times of the order of 1 h or less. The algorithms involved are described in detail and a software implementation in the ENVI/IDL image analysis environment is provided.  相似文献   

17.
针对解决数据缺少和单个卷积网络模型性能的限制造成细粒度分类准确率不高的问 题,提出了一种数据增强和多模型集成融合的分类算法。首先通过镜像、旋转、多尺度缩放、高 斯噪声、随机剪切和色彩增强6 种变换对CompCars 数据集进行增强处理,然后采用差异化采样 数据集的方法训练CaffeNet、VGG16 和GoogleNet 3 种差异化的网络。然后采用多重集成的方法 集成多种模型的输出结果。实验中测试网络结构在不同数据增强算法和不同模型集成下的分类结 果。模型集成的分类准确率达到94.9%,比最好的单GoogleNet 模型的分类精确率提高了9.2 个 百分点。实验结果表明该算法可以有效地提高分类的准确率。  相似文献   

18.
集成分类通过将若干个弱分类器依据某种规则进行组合,能有效改善分类性能。在组合过程中,各个弱分类器对分类结果的重要程度往往不一样。极限学习机是最近提出的一个新的训练单隐层前馈神经网络的学习算法。以极限学习机为基分类器,提出了一个基于差分进化的极限学习机加权集成方法。提出的方法通过差分进化算法来优化集成方法中各个基分类器的权值。实验结果表明,该方法与基于简单投票集成方法和基于Adaboost集成方法相比,具有较高的分类准确性和较好的泛化能力。  相似文献   

19.
张枭山  罗强 《计算机科学》2015,42(Z11):63-66
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号