首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
为提高不平衡数据集中少数类的分类性能,本研究提出一种改进的AdaBoost算法(UnAdaBoost算法)来解决数据不平衡问题。该方法首先改进基分类器,使其在损失一定程度的多数类分类性能的情况下提高少数类的分类性能,而多数类分类性能的损失可通过后面的多个分类器集成弥补回来,这样既提高了少数类的分类性能又不会损失多数类的分类精度。本研究把改进的朴素贝叶斯方法作为基分类器,用改进投票权值的AdaBoost算法对基分类器进行融合。实验结果表明,与传统的Adaboost算法相比,该方法可以有效地提高不平衡数据的分类性能。  相似文献   

2.
基于选择性集成分类器的通用隐写分析   总被引:2,自引:0,他引:2  
面对高维度的特征集和大规模的样本集,隐写分析技术对分类器的要求越来越高.在集成分类器的基础上提出了一种面向通用隐写分析的选择性集成分类器.首先基于随机森林生成若干个基分类器,然后利用基于遗传算法的选择性集成算法剔除掉个别影响整体性能的基分类器,最后根据遗传优化得到的最优权值向量赋予剩余的基分类器不同权值以用来加权投票集成.实验表明,提出的选择性集成分类器测试性能优于现有分类器,特别在基分类器数量较大、特征维数较高时与现有集成分类器相比,有效降低了检测错误率.  相似文献   

3.
针对现有多标签学习算法较少兼顾标签间关联性和不平衡性的问题,提出一种同时考虑多标签间相关性与多标签不平衡问题的学习模型(A Multi-label Learning Model based on Label Correlation and Imbalance,MLCI).该学习模型针对每个标签类别,通过耦合其他标签类别以考量标签间的关联性,并降低缓解标签间不均衡比率,MLCI是一个将当前标签的二类不平衡学习器和多个与其他标签耦合的多类不平衡学习器结合的集成分类器.采用7种常用的多标签算法作为对比算法,针对yeast、scene、emotions和CAL500这4个开放数据集进行分类处理.实验结果表明,MLCI相比其他对比算法,在精度均值(Average-Precision)、排序损失(Ranking-Loss)、宏观平均AUC(Macro-Averaging AUC)和微观平均AUC(Micro-Averaging AUC) 4个性能评估指标上总体占明显优势.  相似文献   

4.
Web spam是指采用某些技术手段,使得网页在搜索引擎检索结果中的排名高于其应得排名的行为,它严重影响搜索结果的质量。考虑到Web spam数据集的严重不平衡情况,本研究提出先使用SMOTE过抽样方法平衡数据集,再利用随机森林算法训练分类器。通过对常见的单分类器和集成学习分类器的对比实验,发现SMOTE+RF方法表现较为突出,并根据实验结果优化了方法中的重要参数,对使用SMOTE方法后AUC值提高的原因进行了分析。在WEBSPAM UK2007数据集上的实验证明,该方法可以显著提高分类器的分类效果,其AUC值已经超过了Web Spam Challenge 2008上的最好成绩。  相似文献   

5.
不平衡数据分类方法综述   总被引:9,自引:0,他引:9  
分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,但在现实世界中数据往往都是不平衡的,而现有的分类器的设计都是基于类分布大致平衡这一假设的,如果用这些方法来对不平衡数据进行分类就会导致分类器的性能下降,因而研究用于处理不平衡数据集的分类方法显得相当重要.为便于读者更清晰地了解数据不平衡分类问题的研究现状和未来研究的动向,本文对相关的研究进行了综述和展望.  相似文献   

6.
用4种过采样算法,并结合1种样本过滤算法,对12份类别不平衡程度不同的数据进行类别平衡处理,对平衡后的数据与不平衡的数据使用xgboost算法建立分类器,并对各数据集上的分类效果进行综合比较,为提升机器学习分类器在类别不平衡问题上的性能提供参考。  相似文献   

7.
鉴于在数据流中无法一次性收集完整的训练集,同时数据可能会处于不平衡状态并夹杂概念漂移而影响分类性能,提出一种在线动态集成选择的不平衡漂移数据流Boosting分类算法。该算法采用多种平衡措施,使用泊松分布对数据流进行重采样,如果数据处于高度不平衡状态则采用存储少数类的窗口进行二次采样以达到当前数据平衡。为了提高算法的处理效率,提出分类器选择集成策略动态调整分类器数目,算法运行过程使用自适应窗口检测器检测概念漂移。试验结果表明,该算法在一定程度上提高了少数类的真阳性率和运行效率,可以对带有概念漂移的不平衡数据流有较好的分类性能。  相似文献   

8.
目前CT结肠镜的息肉检测分类器面临着数据集不平衡问题,数据集中的正样本(息肉)的数量远远小于负样本.针对这个问题,息肉检测分类器采用SMOTEBoost,结合SMOTE(Synthetic Minority Over-Sampling Technique)和Boosting:在数据层面,采用过采样技术SMOTE合成少数类样本,减轻数据集中两类样本的不平衡程度;在算法层面,采用Boosting方法提高弱分类器的性能,两者结合起来,既改善对少数类样本的预测能力,又保证了对整个数据集的分类精度.为了满足息肉检测对算法实时性的需求,采用MRMR(Minimum Redundancy Maximum Relevance)方法挑选最大相关、最小冗余的简单特征组成级联第1层强分类器,拒绝大多数负样本,极大地提高了分类器的处理速度.实验结果表明:设计的分类器检测直径大于5 mm息肉的敏感度达到90%,每个数据体6个假阳.  相似文献   

9.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

10.
针对水声目标识别中常被忽略的数据不平衡问题,提出一种随机子空间AdaBoost算法(RSBoost)。通过随机子空间法在不同水声特征空间上提取子训练样本集,在各个子训练样本集上训练基分类器,将其中少类间隔均值最大的基分类器作为本轮选定的分类器,迭代形成最终集成分类器。在实测数据上进行试验,利用F-measure和G-mean两个准则对RSBoost算法和AdaBoost算法在不同特征集上的性能进行评价。试验结果表明:相对于AdaBoost算法, RSBoost算法在F-measure准则下的平均值由0.07提升到0.22,在G-mean准则下的平均值由0.18提升到0.25,说明在处理水声数据不平衡分类问题上, RSBoost算法优于AdaBoost算法。  相似文献   

11.
不均衡问题中的特征选择新算法:Im-IG   总被引:2,自引:2,他引:0  
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

12.
为了处理大规模数据和不平衡数据分类问题,提出了一种新的分类方法,利用基于最大夹角间隔的核心集向量机算法实现对大样本数据的分类;针对不平衡数据分类问题,通过对不同的样本给予不同的权重,来提高算法的分类性能。加权最大夹角间隔核心集向量机方法不仅能够有效地解决不平衡数据的分类问题,而且能够实现对大样本数据的快速训练。  相似文献   

13.
在湖南地区中小学建筑抗震性能调研的基础上,针对中小学校建筑抗震现状,提出了用建筑的结构形式及其合理性、整体性、地震烈度等8个特征因素作为震害因子,并利用模糊理论建立多层次综合评价模型.采用不同方法确定了数量因子和状态因子的隶属度,并用层次分析法确定各因素权重,用最大隶属度原则结合加权平均法对中小学建筑作出模糊综合评判,最后通过实例验证了该方法的可靠性.  相似文献   

14.
针对雷达高分辨距离像的平移不变特征——功率谱特征,提出了一种基于Fisher判决率的加权特征压缩方法.该方法利用目标功率谱特征的Fisher判决率迭代搜索最优权向量,并根据最优权值的大小对特征向量降维.与直接使用原始功率谱特征及基于Fisher可分性判据的几种现有的特征压缩方法相比,加权特征压缩方法在降维的同时可提高识别性能,且运算简单,在基于外场实测数据的识别实验中对测试数据具有良好的稳健性.  相似文献   

15.
目标航迹质量评估属多指标评估问题,包括目标状态的精确性和连续性等指标,但是现有评估指标不适用于目标航迹质量的实时评估。此外,在航迹质量综合评估中,各指标加权系数直接由经验给定,缺乏理论依据。针对上述问题,该文提出了一种基于位置信息的目标航迹质量实时评估方法。该方法首先根据目标位置信息,建立目标航迹质量实时评估指标体系,给出评估指标的递推计算方法,然后基于层次分析法确定评估指标加权系数,最后利用加权求和方式,实现目标航迹的综合质量评估。基于仿真数据的实验结果验证了该方法的有效性。  相似文献   

16.
针对无线Mesh网络网关节点和网络链路承载的负载不均问题,择优选择网关节点,并设计链路权重,构建以网络加权吞吐量为优化目标的资源分配模型.在构建的资源分配模型下,提出一种基于Q学习和差分进化的联合功率控制与信道分配算法(QDJPCA).该算法通过获取功率控制的反馈结果,采用基于多重变异和自适应交叉因子的差分进化算法进行信道分配;针对每次迭代产生的信道分配结果,采用基于状态聚类和状态修正的Q学习算法实现功率控制.NS-3仿真结果表明,QDJPCA能够有效求解所提资源分配模型,在优先保证网关负载均衡和高负载链路吞吐量性能的基础上提升网络整体性能.  相似文献   

17.
针对不平衡数据集数据分布不均匀及边界模糊的特点,提出基于近邻密度改进的SVM(NDSVM)不平衡数据集分类算法.该算法先计算多数类内每个样本的近邻密度值,然后依据该密度值选出多数类中位于边界区域、靠近边界区域的与少数类数目相等的样本分别与少数类完成SVM初始分类,最后用所得的支持向量机和剩余的多数类样本完成初始分类器迭代优化.人工数据集和UCI数据集的实验结果表明,与WSVM、ALSMOTE -SVM和基本SVM算法相比,本文算法分类效果良好,能有效改进SVM算法在分布不均匀及边界模糊数据集上的分类性能.  相似文献   

18.
在分析了传统特征选择方法构造的4项基本信息元素的基础上提出一种强类别信息的度量标准,并在此基础上,提出一种适用于不平衡文本的特征选择方法。该方法综合考虑了类别信息因子、词频因子,分别用于提高少数类和多数类类别分类精度。该方法在reuter-21578数据集上进行了实验,实验结果表明,该特征选择方法比IG、CHI方法都更好,不但微平均指标有一定程度的提高,而且宏平均指标也有一定程度的提高。  相似文献   

19.
The risk and performance of ST stocks are studied.The SVM method is applied on 100 general stocks and 100 ST stocks selected from the website,and a criterion is gotten to select stocks,then the risk of these sample stocks is analysed.In the performance evaluation,the SVM method is also applied on the 100 general stocks and 100 ST stocks according to the return per share,and 57 stocks which are all 1 are selected.Their equally weighted return rate is only-0.02%,but equally weighted return rate of 31 general stocks is 13.23%,that of 26 ST stocks is-96.15%.Naturally,we conclude that ST stocks are unsteady and do not deserve long-term investment.From the Chinese fund website,we know that equally weighted return rate of stock fund in 2004 was-3.3%,so the equally weighted return rate of the selected stocks(except ST stocks)is much higher than that of average return rate.  相似文献   

20.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(5):16-23, 74
针对不均衡数据下分类超平面偏移、少数类识别率较低的问题,提出一种基于样本密度的不均衡数据分类算法。该算法首先计算样本密度和类样本密度,依据类样本密度之间的关系确定聚类类数, 然后利用K-means聚类算法对多数类样本进行聚类,用聚类所得类中心作为样本集取代原多数类样本集, 最后对新构造的训练集进行训练得到最终决策函数。其实验结果表明,该算法能够提高SVM在不均衡数据下的分类性能,尤其是少数类的分类性能。    相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号