共查询到18条相似文献,搜索用时 375 毫秒
1.
提出一种应用于回归问题,以分类回归树为基学习器,并综合Boosting和Bagging算法的特点,利用变相似度聚类技术和贪婪算法来进行选择性集成学习的算法——SER-BagBoosting Trees算法。将其与几种常用的机器学习算法进行比较研究,得出该算法往往比其他集成学习算法具有更好的泛化性能和更高的运行效率。 相似文献
2.
基于分类问题的选择性集成学习研究* 总被引:1,自引:0,他引:1
提出了一种应用于分类问题,以分类回归树为基学习器,并综合了AdaBoost.M1和Bagging算法特点,利用变相似度聚类技术和贪婪算法来进行选择性集成学习的算法——SECAdaBoostBagging Trees,并将其与几种常用的机器学习算法比较研究得出,该算法往往比其他算法具有更好的泛化性能和更高的运行效率。 相似文献
3.
基于Bagging的选择性聚类集成 总被引:27,自引:2,他引:25
使用集成学习技术来提高聚类性能.由于聚类使用的训练样本缺乏期望输出,与监督学习下的集成相比,在对个体学习器进行结合时更加困难.通过对不同的聚类结果进行配准,并基于互信息权进行个体学习器的选择,提出了基于Bagging的选择性聚类集成算法.实验表明,该算法能够有效地改善聚类结果. 相似文献
4.
模型聚类及在集成学习中的应用研究 总被引:2,自引:0,他引:2
聚类技术是一种重要的数据分析工具,在数据挖掘、模式识别等领域具有广泛的应用前景.通常,聚类算法的聚类对象为传统的数据集合,它们可以表示为欧式空间中的点.然而,在一些任务中,聚类的对象并不是显式的数据点,而是一些抽象的数据模型,例如神经网络、决策树、支持向量机等模型.通过定义广义的距离(实际任务中的距离定义可能各不相同),研究了数据对象为一般模型的聚类方法,提出了基于模型对象的一般聚类算法框架;作为模型聚类的一个应用,研究了应用神经网络模型的聚类提高集成学习差异性的方法,实验研究了聚类的簇数、集成学习的规模以及集成学习性能间的关系. 相似文献
5.
基于自组织特征映射的聚类集成算法 总被引:1,自引:0,他引:1
为改善单一聚类算法的聚类性能,提出一种基于自组织特征映射(SOM)的聚类集成算法.该算法利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵;然后计算各个聚类成员的聚类综合质量,并将其作为新特征空间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果.实验结果表明,与集成前的基聚类算法和其它聚类集成算法相比,该算法能够有效地提高聚类质量. 相似文献
6.
谱聚类可以任意形状的数据进行聚类,在聚类集成中能够有效的提高基聚类的质量.以往的聚类集成算法中,聚类集成得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散-连续-离散的转变.提出了一种基于谱聚类的双边聚类集成算法.算法首先在生成阶段使用谱聚类算法来获得基聚类,通过标准互信息来选取基聚类.将选出来基聚类和样本作为图的顶点,并对构建的图利用双边聚类算法对基聚类和样本同时聚类直接得到最终聚类结果.在实验中,将所提方法与一些聚类集成算法进行了比较,取得了较好的结果. 相似文献
7.
数据流具有数据量无限且流速快等特点,使得传统的聚类算法不能直接应用于数据流聚类问题.针对上述问题,提出了一种可以聚类单数据流和多数据流的聚类算法.此算法现阶段应用了两种概化技术,基于小波的技术和基于回归的技术来构造摘要层次结构.基于回归的拟合模型可以得到较精确的摘要层次结构,而基于小波的拟合模型可以快速地建立摘要层次结构并且所需的存储空间比较小. 相似文献
8.
9.
聚类集成可以有效提高传统聚类算法的精度,其关键问题在于如何根据聚类成员提供的信息获得更加优越的聚类结果.设计一种聚类集成算法,它结合K均值算法与基于拉普拉斯矩阵的谱聚类算法,充分利用聚类成员提供的属性信息与关系信息.为了降低算法计算复杂度,通过代数变换方法有效避免了大规模矩阵的特征值分解问题.在多组真实数据集上的实验结果表明,提出的算法优于其他聚类集成算法. 相似文献
10.
11.
基于集成学习的自训练算法是一种半监督算法,不少学者通过集成分类器类别投票或平均置信度的方法选择可靠样本。基于置信度的投票策略倾向选择置信度高的样本或置信度低但投票却一致的样本进行标记,后者这种情形可能会误标记靠近决策边界的样本,而采用异构集成分类器也可能会导致各基分类器对高置信度样本的类别标记不同,从而无法将其有效加入到有标记样本集。提出了结合主动学习与置信度投票策略的集成自训练算法用来解决上述问题。该算法合理调整了投票策略,选择置信度高且投票一致的无标记样本加以标注,同时利用主动学习对投票不一致而置信度较低的样本进行人工标注,以弥补集成自训练学习只关注置信度高的样本,而忽略了置信度低的样本的有用信息的缺陷。在UCI数据集上的对比实验验证了该算法的有效性。 相似文献
12.
选择性集成学习是为解决同一个问题而训练多个基分类器,并依据某种规则选取部分基分类器的结果进行整合的学习算法。通过选择性集成可以获得比单个学习器和全部集成学习更好的学习效果,可以显著地提高学习系统的泛化性能。提出了一种多层次选择性集成学习算法Ada_ens。试验结果表明,Ada_ens具有更好的学习效果和泛化性能。 相似文献
13.
一种基于神经网络集成的规则学习算法 总被引:8,自引:0,他引:8
将神经网络集成与规则学习相结合,提出了一种基于神经网络集成的规则学习算法.该算法以神经网络集成作为规则学习的前端,利用其产生出规则学习所用的数据集,在此基础上进行规则学习.在UCl机器学习数据库上的实验结果表明,该算法可以产生泛化能力非常强的规则. 相似文献
14.
k近邻学习器将复杂的全局非线性关系映射为大量局部线性关系的组合,具有易解释、易扩展、抗噪能力强等优点,被广泛应用于说话人识别领域并取得了良好的效果。而集成学习算法因其强泛化能力和易于应用的特性得到了许多领域研究者的关注,但是研究表明通过重采样产生训练集差异的集成算法并不能有效地提高k近邻学习器系统的泛化能力。提出了一种新的BagWithProb采样算法产生训练集。实验表明,该算法可以有效地扩展训练集差异,提高集成系统性能。此外,还提出了基于环域分层采样的算法以加快k近邻识别算法在识别阶段的运算速度。 相似文献
15.
针对传统BP神经网络的随机初始权值和阈值易导致网络学习速度慢、容易陷入局部解及运算精度低等缺陷,提出基于改进二进制萤火虫算法(IBGSO)的BP神经网络并行集成学习算法.首先构建以高斯变异函数作为概率映射函数的IBGSO,并从理论上分析算法的有效性.然后结合IBGSO与BP神经网络构建并行集成学习算法,并将算法应用于农业干旱灾害评估中.实验表明,相比传统算法,文中算法在计算速度及精度方面更优,可以提高旱情等级评估的准确性. 相似文献
16.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。 相似文献
17.