首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
周尔昊  高尚 《计算机与数字工程》2021,49(9):1763-1766,1883
分类器集成通过将弱学习器提升为强学习器,提高了分类器分类的准确性.但当它面对不平衡数据问题时,虽然比单个分类器效果要好,但依旧无法达到预期效果.基于此提出了一种代价敏感的旋转森林算法(CROF),利用旋转森林进行数据预处理,并将代价函数引入基分类器构造中,最终获得面向不平衡数据问题的新的集成分类器.经实验表明,CROF算法能够有效提高少数类的分类能力,可以较好处理不平衡问题.  相似文献   

2.
为提高决策树的集成分类精度,介绍了一种基于特征变换的旋转森林分类器集成算法,通过对数据属性集的随机分割,并在属性子集上对抽取的子样本数据进行主成分分析,以构造新的样本数据,达到增大基分类器差异性及提高预测准确率的目的。在Weka平台下,分别采用Bagging、AdaBoost及旋转森林算法对剪枝与未剪枝的J48决策树分类算法进行集成的对比试验,以10次10折交叉验证的平均准确率为比较依据。结果表明旋转森林算法的预测精度优于其他两个算法,验证了旋转森林是一种有效的决策树分类器集成算法。  相似文献   

3.
人体行为识别中的一个关键问题是如何表示高维的人体动作和构建精确稳定的人体分类模型.文中提出有效的基于混合特征的人体行为识别算法.该算法融合基于外观结构的人体重要关节点极坐标特征和基于光流的运动特征,可更有效获取视频序列中的运动信息,提高识别即时性.同时提出基于帧的选择性集成旋转森林分类模型(SERF),有效地将选择性集成策略融入到旋转森林基分类器的选择中,从而增加基分类器之间的差异性.实验表明SERF模型具有较高的分类精度和较强的鲁棒性.  相似文献   

4.
《计算机科学与探索》2017,(10):1570-1578
旋转森林(rotation forest,Ro F)是一种运用线性分析理论和决策树的集成分类算法,在分类器个数较少的情况下仍可以取得良好的结果,同时能保证集成分类的准确性。但对于部分基因数据集,存在线性不可分的情况,原始的算法分类效果不佳。提出了一种运用核主成分分析变换的旋转森林算法(rotation forest algorithm based on kernel principal component analysis,KPCA-Ro F),选择高斯径向基核函数和主成分分析的方法对基因数据集进行非线性映射和差异性变化,着重于参数的选择问题,再利用决策树算法进行集成学习。实验证明,改进后的算法能很好地解决数据线性不可分的情形,同时也提高了基因数据集上的分类精度。  相似文献   

5.
针对现有集成入侵检测算法的多样性不足或基分类器强度不足问题,提出基于SPCA的增强型旋转森林算法(SPCA-ERoF).通过引入旋转作用增加集成多样性,为提升旋转数据可分性,分析PCA算法,提出SPCA算法;利用随机森林作为旋转森林的基分类器,解决基分类器强度不足,进一步提升集成多样性.实验结果表明,SPCA相比PCA能在一定程度上提升旋转数据的可分性;SPCA-ERoF在KDD99入侵数据集上取得了良好的检测结果,各类样本的综合性能指标F1_Score均能达到90%以上,有效提升了入侵检测系统的性能.  相似文献   

6.
针对单个分类器方法在滚动轴承故障诊断中精度较低、故障样本标记稀缺、特征空间维度高等问题,提出一种将协同训练与集成学习相结合的Co-Forest轴承故障诊断算法。Co-Forest是半监督学习中的协同训练算法,包含多个基分类器,通过投票实现协同训练中的置信度估算。从滚动轴承的振动信号中提取时域、频域特征指标。利用少量带标签和大量未标记样本重复地训练基分类器。集成基分类器,实现对滚动轴承故障的诊断。实验结果表明,与同类型的协同训练算法(Co-Training、Tri-Training)相比,Co-Forest算法在轴承故障诊断中具有更高的正确率,与当前针对特征向量高维、标记样本稀缺问题的ISS-LPP算法,SS-LLTSA算法相比,Co-Forest算法在保持很高诊断正确率的情况下,不需要降维、参数设置简单,具有一定的实际应用价值。  相似文献   

7.
特征选择有助于增强集成分类器成员间的随机差异性,从而提高泛化精度。研究了随机子空间法(RandomSub-space)和旋转森林法(RotationForest)两种基于特征选择的集成分类器构造算法,分析讨论了两算法特征选择的方式与随机差异程度之间的关系。通过对UCI数据集引入噪声,比较两者在噪声环境下的分类精度。实验结果表明:当噪声增加及特征关联度下降时,基本学习算法及噪声程度对集成效果均有影响,当噪声增强到一定程度后。集成效果和单分类器的性能趋于一致。  相似文献   

8.
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。  相似文献   

9.
甲状腺疾病是内分泌领域的常见疾病,准确识别不同类型的甲状腺疾病是临床医疗诊断中的首要问题。针对甲状腺检测指标数据,提出一种新的甲状腺疾病分类方法,该方法首先采用主成分分析法对数据集进行特征选择,降低数据维度,然后基于旋转森林集成分类算法实现分类。旋转森林算法使基分类器的差异性更加明显,进而提高分类器的精度,同时可以减少处理时间。实验中,同时分析了UCI标准数据集和真实临床医疗数据集,结果表明该方法的分类准确率分别可以达到96.28%和96.37%。  相似文献   

10.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

11.
移动设备上难以获取大量标签样本,而训练不足导致分类模型在人体动作识别上表现欠佳.针对这一问题,提出一种基于多视图半监督集成学习的人体动作识别算法.首先,利用两种内置传感器收集的数据构建两个特征视图,将两个视图和两种基分类器进行组合构建协同学习框架;然后,根据多分类任务重新定义置信度,结合主动学习思想在迭代过程中控制预测...  相似文献   

12.
基分类器的差异性对于集成学习来说至关重要,从直观上讲,对约束重采样有潜力获得比对样本重采样更好的多样性。文中在典型相关分析算法基础上,通过引入成对约束作为监督信息对样本进行特征抽取从而形成新的训练数据。算法中集成学习的思想主要体现在成对约束的选取上,对约束进行随机重采样以获得具有多样性的基分类器。在多特征手写体数据集以及人脸数据集(Yale和AR)上进行实验考察该算法随选取的约束比例变化的情况,结果表明该方法获得比传统集成学习方法更好的性能。  相似文献   

13.
传统高光谱遥感影像逐像素分类方法未考虑像元之间的空间关联性且泛化性能较低。形态学属性剖面是表征影像空间结构的有效方法,同时集成学习可显著提升分类算法的泛化能力。为了在高光谱影像分类中充分利用影像的空间信息并提高分类的稳定性,提出一种基于形态学属性剖面高光谱遥感影像集成学习分类方法。首先,用主成分分析和最小噪声变换进行特征提取,并借助形态学属性剖面获取影像的多重空间特征;然后用极限学习和支持向量机的方法进行分类;最后将多个分类结果以多数投票的方式集成。区别于已有集成学习方法,综合考虑了不同特征提取和不同分类方法的联合集成,并将形态学属性剖面引入其中以充分利用影像的空间信息。采用AVIRIS和ROSIS两组高光谱数据检验该方法的分类性能,实验结果表明该方法可获得高精度和高稳定性的分类结果,总体精度分别达到83.41%和95.14%。  相似文献   

14.
《Information Fusion》2005,6(1):83-98
Ensembles of learnt models constitute one of the main current directions in machine learning and data mining. Ensembles allow us to achieve higher accuracy, which is often not achievable with single models. It was shown theoretically and experimentally that in order for an ensemble to be effective, it should consist of base classifiers that have diversity in their predictions. One technique, which proved to be effective for constructing an ensemble of diverse base classifiers, is the use of different feature subsets, or so-called ensemble feature selection. Many ensemble feature selection strategies incorporate diversity as an objective in the search for the best collection of feature subsets. A number of ways are known to quantify diversity in ensembles of classifiers, and little research has been done about their appropriateness to ensemble feature selection. In this paper, we compare five measures of diversity with regard to their possible use in ensemble feature selection. We conduct experiments on 21 data sets from the UCI machine learning repository, comparing the ensemble accuracy and other characteristics for the ensembles built with ensemble feature selection based on the considered measures of diversity. We consider four search strategies for ensemble feature selection together with the simple random subspacing: genetic search, hill-climbing, and ensemble forward and backward sequential selection. In the experiments, we show that, in some cases, the ensemble feature selection process can be sensitive to the choice of the diversity measure, and that the question of the superiority of a particular measure depends on the context of the use of diversity and on the data being processed. In many cases and on average, the plain disagreement measure is the best. Genetic search, kappa, and dynamic voting with selection form the best combination of a search strategy, diversity measure and integration method.  相似文献   

15.
异常检测系统在网络空间安全中起着至关重要的作用,为网络安全提供有效的保障.对于复杂的网络流量信息,传统的单一的分类器往往无法同时具备较高检测精确度和较强的泛化能力.此外,基于全特征的异常检测模型往往会受到冗余特征的干扰,影响检测的效率和精度.针对这些问题,本文提出了一种基于平均特征重要性的特征选择和集成学习的模型,选取决策树(DT)、随机森林(RF)、额外树(ET)作为基分类器,建立投票集成模型,并基于基尼系数计算基分类器的平均特征重要性进行特征选择.在多个数据集上的实验评估结果表明,本文提出的集成模型优于经典集成学习模型及其他著名异常检测集成模型.且提出的基于平均特征重要性的特征选择方法可以使集成模型准确率平均进一步提升约0.13%,训练时间平均节省约30%.  相似文献   

16.
点击欺诈是近年来最常见的网络犯罪手段之一,互联网广告行业每年都会因点击欺诈而遭受巨大损失。为了能够在海量点击中有效地检测欺诈点击,构建了多种充分结合广告点击与时间属性关系的特征,并提出了一种点击欺诈检测的集成学习框架——CAT-RFE集成学习框架。CAT-RFE集成学习框架包含3个部分:基分类器、递归特征消除(RFE,recursive feature elimination)和voting集成学习。其中,将适用于类别特征的梯度提升模型——CatBoost(categorical boosting)作为基分类器;RFE是基于贪心策略的特征选择方法,可在多组特征中选出较好的特征组合;Voting集成学习是采用投票的方式将多个基分类器的结果进行组合的学习方法。该框架通过CatBoost和RFE在特征空间中获取多组较优的特征组合,再在这些特征组合下的训练结果通过voting进行集成,获得集成的点击欺诈检测结果。该框架采用了相同的基分类器和集成学习方法,不仅克服了差异较大的分类器相互制约而导致集成结果不理想的问题,也克服了RFE在选择特征时容易陷入局部最优解的问题,具备更好的检测能力。在实际互联网点击欺诈数据集上的性能评估和对比实验结果显示,CAT-RFE集成学习框架的点击欺诈检测能力超过了CatBoost模型、CatBoost和RFE组合的模型以及其他机器学习模型,证明该框架具备良好的竞争力。该框架为互联网广告点击欺诈检测提供一种可行的解决方案。  相似文献   

17.
在集成学习中使用平均法、投票法作为结合策略无法充分利用基分类器的有效信息,且根据波动性设置基分类器的权重不精确、不恰当。以上问题会降低集成学习的效果,为了进一步提高集成学习的性能,提出将证据推理(evidence reasoning, ER)规则作为结合策略,并使用多样性赋权法设置基分类器的权重。首先,由多个深度学习模型作为基分类器、ER规则作为结合策略,构建集成学习的基本结构;然后,通过多样性度量方法计算每个基分类器相对于其他基分类器的差异性;最后,将差异性归一化实现基分类器的权重设置。通过多个图像数据集的分类实验,结果表明提出的方法较实验选取的其他方法准确率更高且更稳定,证明了该方法可以充分利用基分类器的有效信息,且多样性赋权法更精确。  相似文献   

18.
Rotation Forest, an effective ensemble classifier generation technique, works by using principal component analysis (PCA) to rotate the original feature axes so that different training sets for learning base classifiers can be formed. This paper presents a variant of Rotation Forest, which can be viewed as a combination of Bagging and Rotation Forest. Bagging is used here to inject more randomness into Rotation Forest in order to increase the diversity among the ensemble membership. The experiments conducted with 33 benchmark classification data sets available from the UCI repository, among which a classification tree is adopted as the base learning algorithm, demonstrate that the proposed method generally produces ensemble classifiers with lower error than Bagging, AdaBoost and Rotation Forest. The bias–variance analysis of error performance shows that the proposed method improves the prediction error of a single classifier by reducing much more variance term than the other considered ensemble procedures. Furthermore, the results computed on the data sets with artificial classification noise indicate that the new method is more robust to noise and kappa-error diagrams are employed to investigate the diversity–accuracy patterns of the ensemble classifiers.  相似文献   

19.
结构化集成学习垃圾邮件过滤   总被引:4,自引:0,他引:4  
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5).  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号