首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能。然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动。针对这种不足,提出一种基于权重选择虚拟样本的新分类算法。该方法首先利用TrAdaBoost算法对扩充后的样本集进行预处理,然后选取权重大于某一给定阈值的样本构造新训练样本集,最后根据新样本集进行训练得到分类器。由于排出了不重要的样本,因此在新样本集上得到的分类器具有更高的精度。在部分UCI标准数据集与KDD cup 99网络入侵检测数据集上的对比实验说明了该算法较不产生虚拟样本的直接分类算法和利用虚拟样本全集进行训练的分类算法具有更高的精度。  相似文献   

2.
多类指数损失函数逐步添加模型(SAMME)是一种多分类的AdaBoost算法,为进一步提升SAMME算法的性能,针对使用加权概率和伪损失对算法的影响进行研究,在此基础上提出了一种基于基分类器对样本有效邻域分类的动态加权AdaBoost算法SAMME.RD。首先,确定是否使用加权概率和伪损失;然后,求出待测样本在训练集中的有效邻域;最后,根据基分类器针对有效邻域的分类结果确定基分类器的加权系数。使用UCI数据集进行验证,实验结果表明:使用真实的错误率计算基分类器加权系数效果更好;在数据类别较少且分布平衡时,使用真实概率进行基分类器筛选效果较好;在数据类别较多且分布不平衡时,使用加权概率进行基分类器筛选效果较好。所提的SAMME.RD算法可以有效提高多分类AdaBoost算法的分类正确率。  相似文献   

3.
针对SAMME算法对于不平衡数据集的分类效果不理想,对不同数据集的适应能力弱的缺陷,将其和极限学习机(ELM)结合并进行有针对性的改进,根据样本分布对训练样本的初始化权值进行重新分配,对训练过程中样本的权值和弱分类器的权值更新策略进行改进,给予弱分类器一个与其对少数类样本识别能力成正比的奖励项,增强了所得分类器对难分类样本的敏感性,使最终集成分类器性能有了显著提升.经过该集成算法与组成该算法的子算法的对比实验,论文方法取得了更优的G-mean以及F1值,验证了论文算法的有效性.其次,论文算法和其他分类算法的对比实验结果表明论文算法在大多数数据集上同样可以取得更高的G-mean以及F1值,实现更优的分类效果.  相似文献   

4.
王莉莉  付忠良  陶攀  朱锴 《计算机应用》2017,37(8):2253-2257
针对超声图像样本冗余、不同标准切面因疾病导致的高度相似性、感兴趣区域定位不准确问题,提出一种结合特征袋(BOF)特征、主动学习方法和多分类AdaBoost改进算法的经食管超声心动图(TEE)标准切面分类方法。首先采用BOF方法对超声图像进行描述;然后采用主动学习方法选择对分类器最有价值的样本作为训练集;最后,在AdaBoost算法对弱分类器的迭代训练中,根据临时强分类器的分类情况调整样本更新规则,实现对多分类AdaBoost算法的改进和TEE标准切面的分类。在TEE数据集和三个UCI数据集上的实验表明,相比AdaBoost.SAMME算法、多分类支持向量机(SVM)算法、BP神经网络和AdaBoost.M2算法,所提算法在各个数据集上的G-mean指标、整体分类准确率和大多数类别分类准确率都有不同程度的提升,且比较难分的类别分类准确率提升最为显著。实验结果表明,在包含类间相似样本的数据集上,分类器的性能有显著提升。  相似文献   

5.
针对传统网络流量分类方法要求训练和测试数据分布一致、训练数据充足的假设在实际中难以满足的问题,引入迁移学习理论对其研究,提出从特征属性和样本域内相似性两个角度对网络流量数据优化,改进TrAdaBoost(boosting for transfer learning)算法的权重更新机制使其适应多分类任务,添加抑制因子解决源域权重转移现象。在数据集Moore上对该方法检验,结果表明,当目标样本量不足,该模型能根据相似性迁移,有效避免负迁移问题,相比其它流量分类模型具有更高的分类准确率。  相似文献   

6.
针对标准遗传算法的不稳定性、准确性低等问题,为了提高遗传分类算法的稳定性和准确性,基于贝叶斯算法的有关理论,提出一种新的遗传算法分类方法.将初始样本集随机的分成数量相等的几组,通过朴素贝叶斯算法从初始样本集中选出部分“区分度”比较高的样本作为新的样本集,通过改进的遗传算法对选出的新样本集进行处理,从而得到最优分类规则.通过两种算法的组合对数据分类时,使分类的稳定性和准确性得到了明显的改善.仿真实验结果表明,该算法有较高的稳定性和准确性.  相似文献   

7.
针对少数类样本合成过采样技术(Synthetic Minority Over-Sampling Technique, SMOTE)在合成少数类新样本时会带来噪音问题,提出了一种改进降噪自编码神经网络不平衡数据分类算法(SMOTE-SDAE)。该算法首先通过SMOTE方法合成少数类新样本以均衡原始数据集,考虑到合成样本过程中会产生噪音的影响,利用降噪自编码神经网络算法的逐层无监督降噪学习和有监督微调过程,有效实现对过采样数据集的降噪处理与数据分类。在UCI不平衡数据集上实验结果表明,相比传统SVM算法,该算法显著提高了不平衡数据集中少数类的分类精度。  相似文献   

8.
针对不平衡数据集上的分类问题,提出了基于Lévy分布的过采样方法,其核心思想是根据初始数据集的分布,利用Lévy分布构造新样本的密度分布。基于Lévy分布的特性,使得从边界样本合成的新样本密度最大,靠近多数类的样本合成的新样本密度次之,靠近少数类的样本合成的新样本密度最小。因此,该算法可以增强分类边界,同时可以减小噪声生成。通过在多个数据集上的实验,表明所提算法可以有效改善不平衡数据的分类效果。  相似文献   

9.
为抑制噪声数据对分类结果的影响,将噪声处理算法与高斯随机域算法相结合,提出一种带噪声系数的高斯随机域学习算法;针对样本集不平衡性数据分类问题,考虑主动学习在样本不平衡问题中的应用,将主动学习与图半监督算法相结合,提出一种鲁棒性强的主动学习图半监督分类算法。利用基于样本划分的主动学习方法,对正类的近邻样本集中样本与特定类样本形成的新样本集做总体散度排序,筛选出能使新样本集中总体散度最小的样本,代替正类的近邻样本集中所有样本,形成平衡类。在UCI标准数据集上的实验结果表明,与标准的图半监督算法相比,该算法的分类精度更高、泛化能力更强。  相似文献   

10.
现实生活中存在大量的非平衡数据,大多数传统的分类算法假定类分布平衡或者样本的错分代价相同,因此在对这些非平衡数据进行分类时会出现少数类样本错分的问题。针对上述问题,在代价敏感的理论基础上,提出了一种新的基于代价敏感集成学习的非平衡数据分类算法--NIBoost(New Imbalanced Boost)。首先,在每次迭代过程中利用过采样算法新增一定数目的少数类样本来对数据集进行平衡,在该新数据集上训练分类器;其次,使用该分类器对数据集进行分类,并得到各样本的预测类标及该分类器的分类错误率;最后,根据分类错误率和预测的类标计算该分类器的权重系数及各样本新的权重。实验采用决策树、朴素贝叶斯作为弱分类器算法,在UCI数据集上的实验结果表明,当以决策树作为基分类器时,与RareBoost算法相比,F-value最高提高了5.91个百分点、G-mean最高提高了7.44个百分点、AUC最高提高了4.38个百分点;故该新算法在处理非平衡数据分类问题上具有一定的优势。  相似文献   

11.
针对传统网络流量分类方法准确率低、开销大、应用范围受限等问题,提出一种支持向量机(SVM)的半监督网络流量分类方法。该方法在SVM训练中,使用增量学习技术在初始和新增样本集中动态地确定支持向量,避免不必要的重复训练,改善因出现新样本而造成原分类器分类精度降低、分类时间长的情况;改进半监督Tri-training方法对分类器进行协同训练,同时使用大量未标记和少量已标记样本对分类器进行反复修正, 减少辅助分类器的噪声数据,克服传统协同验证对分类算法及样本类型要求苛刻的不足。实验结果表明,该方法可明显提高网络流量分类的准确率和效率。  相似文献   

12.
TL-SVM:一种迁移学习新算法   总被引:2,自引:1,他引:1  
迁移学习旨在利用大量已标签源域数据解决相关但不相同的目标域问题. 当与某领域相关的新领域出现时, 若重新标注新领域, 则样本代价昂贵, 丢弃所有旧领域数据又十分浪费. 对此, 基于SVM算法提出一种新颖的迁移学习算法—–TL-SVM, 通过使用目标域少量已标签数据和大量相关领域的旧数据来为目标域构建一个高质量的分类模型, 该方法既继承了基于经验风险最小化最大间隔SVM的优点, 又弥补了传统SVM不能进行知识迁移的缺陷. 实验结果验证了该算法的有效性.  相似文献   

13.
支持向量机(SVM)作为一种有效的模式分类方法,当数据集规模较大时,学习时间长、泛化能力下降;而核向量机(CVM)分类算法的时间复杂度与样本规模无关,但随着支持向量的增加,CVM的学习时间会快速增长。针对以上问题,提出一种CVM与SVM相结合的二阶段快速学习算法(CCS),首先使用CVM初步训练样本,基于最小包围球(MEB)筛选出潜在核向量,构建新的最有可能影响问题解的训练样本,以此降低样本规模,并使用标记方法快速提取新样本;然后对得到的新训练样本使用SVM进行训练。通过在6个数据集上与SVM和CVM进行比较,实验结果表明,CCS在保持分类精度的同时训练时间平均减少了30%以上,是一种有效的大规模分类学习算法。  相似文献   

14.
跨镜行人追踪是计算机视觉和视频监控公共安全体系构建等领域的重要课题。伴随大规模数据集的发展和深度学习网络的广泛研究,深度学习在跨镜行人追踪问题中取得了良好效果。然而在应用中,除了监控视频自身的不同摄像头、不同视角引起的不同视觉表象变化外,面向跨镜行人追踪的整体数据集偏小,具有标记的训练数据样本量更小,从而制约了基于深度学习的跨镜行人追踪效果。提出了改进型深度迁移学习的跨镜行人追踪算法,将在大数据集上训练好的成熟模型进行微调并迁移到目标数据集上,结合目标数据进行优化,使其能更好地针对新数据集做特征提取。在模型训练过程中,通过改进三元组损失函数,拉近相同样本之间的距离,加大不同样本之间的距离,同时设定正样本之间的最大距离阈值,从而保证特征空间生成的簇不会太大,利于模型的优化。该算法减少了深度学习训练模型的时间,避免了小数据集上数据量不足等缺点,提高了跨镜行人追踪的准确度。在五个基准数据集上的跨镜行人追踪对比实验显示,改进算法取得了良好效果。  相似文献   

15.
由于内存限制使得单机环境下的P2P流量识别方法只能对小规模数据集进行处理,并且基于朴素贝叶斯分类的识别方法所使用的属性特征均为人工选择,因此,识别率受到了限制并且缺乏客观性。基于以上问题分析提出了云计算环境下的朴素贝叶斯分类算法并改进了在云计算环境下属性约简算法,结合这两个算法实现了对加密P2P流量的细粒度识别。实验结果表明该方法可以高效处理大数据集网络流量,并且有很高的P2P流量识别率,同时结果也具备客观性。  相似文献   

16.
针对网络流量特征选择过程中监督信息缺乏的问题,提出一种基于成对约束扩展的半监督网络流量特征选择算法。该算法同时考虑少量成对约束和大量无标记样本,利用样本集合间的相关性和自相关性,扩展成对约束集到无标记样本上,产生更多可靠性强的成对约束,以揭示样本空间分布信息。最后,利用扩展的成对约束集进行特征选择。实验证明:与未进行成对约束扩展的算法相比,该算法在少量初始成对约束的情况下能获得更好的分类性能。  相似文献   

17.
18.
蒋新华    高晟  廖律超    邹复民 《智能系统学报》2015,10(5):690-698
针对交通场景运动车辆检测中车辆数目统计准确率不高、自适应性不强等问题,提出了一种基于半监督支持向量机(SVM)分类算法的交通视频车辆检测方法。利用人工标记的少量样本,分别训练2个基于方向梯度直方图(HOG)特征与基于局部二值模式(LBP)特征的不同核函数的SVM分类器;结合半监督算法的思想,构建SVM的半监督分类方法(SEMI-SVM),标记未知样本并加入到原样本库中,该方法支持样本库动态更新,避免了繁重的人工标记样本的工作,提高了自适应性;最后,通过三帧差分法提取运动区域,加载分类器在该区域进行多尺度检测,标记检测出来的运动车辆,统计车辆数目。实验结果表明:该方法在具有一定的自适应性的同时,有较高的车辆检测准确率,即使在复杂交通情况下,对运动车辆依然有很好的检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号