首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 31 毫秒
1.
如何准确检测出用户侧窃电行为是长期存在于各供电公司一个难点,传统的窃电检测方案均存在一定的局限性。针对窃电检测领域正负类样本高度不平衡,且单一分类模型表现不佳的问题,提出一种基于改进旋转森林算法的窃电检测方法。旋转森林算法采用主成分分析(principal component analysis,PCA)进行特征提取,利用原始训练集的所有主成分训练每个基分类器。在经典的旋转森林算法基础上,使用改进合成少数类过采样(synthetic minority oversampling technique,SMOTE)算法平衡样本子集中的正负类样本;使用Bagging算法中的Bootstrap抽样对训练子集进一步抽样;按准确率对基分类器进行选择性集成等3个方面的改进。算例使用华东某地区实际用户数据,结果表明所提窃电检测方法对比单一分类模型和现有集成学习策略,在多项评价指标下均取得更好的效果。  相似文献   

2.
基于传感器的人类活动识别(HAR)在健康医疗领域具有重要的研究价值及研究意义。以往的关于传感器人类活动分类识别算法的研究,并没有考虑不同类别行为数据间的不平衡性。为了解决不同行为类别数据间的不平衡性影响算法精确度的问题,此算法采用下采样方法从大类和小类数据集中随机抽取选出若干组数量上相等的两种数据的集合,将多个不平衡数据变成平衡数据。其次,多个平衡数据集上训练多个弱分类器。然后,此算法以弱分类器的负相关和预测精度为代价函数,使用遗传算法挑选出能够使代价函数值最高的弱分类器来构成集成分类器。使集成算法内的弱学习器具有较高预测精度和多样性。最后,此算法使用挑选出的弱学习器构成集成学习器对人的行为进行集成分类。此算法在已有的行为数据集上进行了仿真实验研究,实验结果证明本文提出的基于遗传的负相关剪切集成不平衡行为识别算法相对于传统算法能够有效提高不平衡行为识别的正确率。  相似文献   

3.
为了准确识别潜在换网电信用户,建立一种电信用户网别更换预测模型。根据用户历史数据生成网别更换标签,确定其多数类和少数类样本。利用具有噪声的密度聚类欠采样方法对多数类样本进行聚类,删除聚类后的噪声样本和各簇的边界样本,并选择各簇核心样本点进行随机欠采样;结合人工合成少数类过采样方法对少数类样本进行过采样。将构成混合采样后的平衡样本集合,输入到两层的Stacking集成学习算法中训练,得出分类结果。实验结果表明,该模型具有较好的数据集均衡性能,且预测准确率高,能够更好地识别潜在的网别更换用户。  相似文献   

4.
鉴于在数据流中无法一次性收集完整的训练集,同时数据可能会处于不平衡状态并夹杂概念漂移而影响分类性能,提出一种在线动态集成选择的不平衡漂移数据流Boosting分类算法。该算法采用多种平衡措施,使用泊松分布对数据流进行重采样,如果数据处于高度不平衡状态则采用存储少数类的窗口进行二次采样以达到当前数据平衡。为了提高算法的处理效率,提出分类器选择集成策略动态调整分类器数目,算法运行过程使用自适应窗口检测器检测概念漂移。试验结果表明,该算法在一定程度上提高了少数类的真阳性率和运行效率,可以对带有概念漂移的不平衡数据流有较好的分类性能。  相似文献   

5.
原始Tri-training算法对有标记的数据集通过随机采样方法,形成3个训练集去训练3个分类器。但是由这种随机采样形成的训练集中,可能出现有标记数据集中的不同类别数据数量相差较大,从而导致训练集中样本类别不平衡问题,影响分类器的分类正确率。本文通过分类采样对Tri-training算法的随机采样方法进行改进,根据该改进的Tri-training算法,建立分类模型,并利用其对哈工大中文问句集和本文扩展问句集进行分类实验。结果表明,本文算法有良好的适应性,且分类正确率明显提高;适当增大训练集和未标记样本数据可以增强分类器的泛化能力,从而使分类正确率提高。  相似文献   

6.
基于AdaBoost的欠抽样集成学习算法   总被引:1,自引:0,他引:1  
不平衡数据集分类中,采用欠抽样方法容易忽略多数类中部分有用信息,为此提出一种基于AdaBoost的欠抽样集成学习算法U-Ensemble。该方法首先使用AdaBoost算法对数据集预处理,得到各样例权重。训练基分类器时,针对多数类数据不再采用bootstrap抽样方法,而是分别随机选择部分权重较大的样例与部分权重较小的样例,使两部分样例个数与少数类样例个数相同,并组成Bagging成员分类器的训练数据。实验结果证明了算法的有效性。  相似文献   

7.
基于LS-SVM的多标签分类算法   总被引:2,自引:0,他引:2  
多标签分类是指部分样本同时归属多个类别.基于数据分解的算法因训练速度快、性能良好而得到广泛的应用.本文采用一对一分解策略,将k标签数据集分解为k(k-1)/2个两类单标签和两类双标签的数据子集.对每一训练子集统一用LS-SVM模型建立子分类器,当出现双标签样本时将其函数值设为0,并确定适当的分类阈值.对情感、景象和酵母数据集的实验结果表明,本文算法的某些性能指标优于现有一些常用的多标签分类方法.  相似文献   

8.
对于平衡数据集支持向量机(support vector machine,SVM)通常具有很好的分类性能和泛化能力,然而对于不平衡数据集,SVM只能得到次优结果,针对该问题提出了一种基于SVM的AS-Ada Boost SVM分类算法.首先,通过使用ADASYN采样,提高少类样本在边界区域的密度;然后,使用基于径向基核支持向量机(radial basis function kernel mapping support vector machine,RBFSVM)模型弱分类器的Ada Boost SVM算法训练得到决策分类器.通过将该算法在各种不平衡数据集上的测试结果与单纯运用ADASYN技术、Ada Boost SVM、SMOTEBoost等其他分类器进行比较,验证了该算法的有效性和鲁棒性.  相似文献   

9.
为了增强集成系统中各分类器之间的差异性,提出了一种使用旋转森林策略集成两种不同模型分类器的方法,即异构多分类器集成学习算法.首先采用旋转森林对原始样本集进行变换划分,获得新的样本集;然后通过特定比例选择分类精度高的支撑矢量机或分类速度较快的核匹配追踪作为基本的集成个体分类器,并对新样本集进行分类,获得其预测标记;最后结合两种模型下的预测标记.该算法通过结合两种不同分类器模型,实现了精度和速度互补,将二者混合集成后改善了集成系统泛化误差,相比单个模型集成提高了系统分类性能.对UCI数据集和遥感图像数据集的仿真实验结果表明,文中算法相比单一分类器集成缩短了运行时间,同时提高了系统的分类准确率.  相似文献   

10.
目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用过采样技术SMOTE合成少数类样本,减轻数据集中两类样本的不平衡程度;在算法层面,采用Boosting方法提高弱分类器的性能,两者结合起来,既改善对少数类样本的预测能力,又保证了对整个数据集的分类精度.为了满足息肉检测对算法实时性的需求,采用MRMR(Minimum Redundancy Maximum Relevance)方法挑选最大相关、最小冗余的简单特征组成级联第1层强分类器,拒绝大多数负样本,极大地提高了分类器的处理速度.实验结果表明:设计的分类器检测直径大于5 mm息肉的敏感度达到90%,每个数据体6个假阳.  相似文献   

11.
针对贝叶斯(Naive Bayes,NB)分类器的集成学习方法,研究如何提高分类器集成中各成员分类器之间的多样性,同时提高分类器系统准确率。实现方法是把训练集的所有属性特征划分特征子集,并处理所划分的属性特征子集,最后为每个成员分类器构造出不同的完整特征属性训练集。研究结果表明采用的NB集成方法(Ensemble of Naive Bayes,ENB)提高了分类性能,把ENB机器学习方法应用到自动图像标注中也获得了很好的效果。  相似文献   

12.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

13.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

14.
基于随机子空间的多分类器集成   总被引:2,自引:0,他引:2  
提出了一种基于随机子空间的多分类器集成算法RFSEn.首先选择一个合适的子空间大小,然后随机选择特征子集并投影,并得到子空间上的基分类器,从而通过基分类器构成集成分类器,并由集成分类器来进行文本的分类.将该算法与单一分类器和基于重抽样技术的bagging算法进行了比较,在标准数据集上进行了实验.结果表明,该方法不仅优于单一分类器的分类性能,而且一定程度上优于bagging算法.  相似文献   

15.
This paper presents a hybrid ensemble classifier combined synthetic minority oversampling technique (SMOTE), random search (RS) hyper-parameters optimization algorithm and gradient boosting tree (GBT) to achieve efficient and accurate rock trace identification. A thirteen-dimensional database consisting of basic, vector, and discontinuity features is established from image samples. All data points are classified as either “trace” or “non-trace” to divide the ultimate results into candidate trace samples. It is found that the SMOTE technology can effectively improve classification performance by recommending an optimized imbalance ratio of 1:5 to 1:4. Then, sixteen classifiers generated from four basic machine learning (ML) models are applied for performance comparison. The results reveal that the proposed RS-SMOTE-GBT classifier outperforms the other fifteen hybrid ML algorithms for both trace and non-trace classifications. Finally, discussions on feature importance, generalization ability and classification error are conducted for the proposed classifier. The experimental results indicate that more critical features affecting the trace classification are primarily from the discontinuity features. Besides, cleaning up the sedimentary pumice and reducing the area of fractured rock contribute to improving the overall classification performance. The proposed method provides a new alternative approach for the identification of 3D rock trace.  相似文献   

16.
针对核空间中大数据集的计算代价高问题, 提出用NSVM方法减少分类器的训练数据. 先用NSVM、核主成分分析(KPCA)和贪婪KPCA分别从全部训练数据中提取训练分类器的子集; 再用子集训练分类器, 并用训练和测试数据的错分率对分类结果进行评价. 在两个数据集和两种分类器中, 用KPCA提取的子集训练的分类器的分类性能弱于NSVM和贪婪KPCA, 但用贪婪KPCA提取的子集训练的分类器的泛化能力弱于NSVM. 仿真结果表明, 用NSVM方法提取的子集训练的分类器, 不仅保证了分类器的泛化能力, 也降低了分类算法的计算复杂度.  相似文献   

17.
基于选择性集成分类器的通用隐写分析   总被引:2,自引:0,他引:2  
面对高维度的特征集和大规模的样本集,隐写分析技术对分类器的要求越来越高.在集成分类器的基础上提出了一种面向通用隐写分析的选择性集成分类器.首先基于随机森林生成若干个基分类器,然后利用基于遗传算法的选择性集成算法剔除掉个别影响整体性能的基分类器,最后根据遗传优化得到的最优权值向量赋予剩余的基分类器不同权值以用来加权投票集成.实验表明,提出的选择性集成分类器测试性能优于现有分类器,特别在基分类器数量较大、特征维数较高时与现有集成分类器相比,有效降低了检测错误率.  相似文献   

18.
高维特征检测是提升海面小目标探测性能的一种有效途径,其主要难点在于高维空间分类器设计.本文提出一种基于虚警可控梯度提升树(Gradient Boosting Decision Tree,GBDT)的特征检测方法.首先,从一维长时观测向量中,提取时域、频域、时频域等多个特征,构建高维特征向量,从而将检测问题转换为二分类问题.其次,通过仿真含目标回波,解决两类训练样本非均衡的问题.然后,引入GBDT算法,将高维特征向量凝聚为一维概率预测值,并以预测值作为检测统计量,解决二分类器难以控制虚警的问题.最后,采用IPIX实测数据验证,结果表明:本文所提的检测器充分利用了高维特征的全部信息,性能平均提升13%以上.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号