共查询到18条相似文献,搜索用时 500 毫秒
1.
2.
针对标签均值半监督支持向量机在图像分类中随机选取无标记样本会导致分类正确率不高,以及算法的稳定性较低的问题,提出了基于聚类标签均值的半监督支持向量机算法。该算法修改了原算法对于无标记样本的惩罚项,对选取的无标记样本聚类,使用聚类标签均值替换标签均值。实验结果表明,使用聚类标签均值训练的分类器大大减少了背景与目标的错分情况,提高了分类的正确率以及算法的稳定性,适合用于图像分类。 相似文献
3.
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。 相似文献
4.
针对直推式支持向量机(TSVM)学习模型求解难度大的问题,提出了一种基于k均值聚类的直推式支持向量机学习算法——TSVMKMC。该算法利用k均值聚类算法,将无标签样本分为若干簇,对每一簇样本赋予相同的类别标签,将无标签样本和有标签样本合并进行直推式学习。由于TSVMKMC算法有效地降低了状态空间的规模,因此运行速度较传统算法有了很大的提高。实验结果表明,TSVMSC算法能够以较快的速度达到较高的分类准确率。 相似文献
5.
针对直推式支持向量机(TSVM)需要遍历所有无标签样本花费时间长的缺点,提出一种基于改进k近邻法的直推式支持向量机学习算法--k2TSVM。该算法首先使用k均值聚类将无标签样本分成若干簇,然后求出每簇中心点的k近邻并根据其中正负样本个数对无标签样本进行删减,将删减后的数据集输入直推式支持向量机进行训练。k2TSVM改善传统TSVM需要遍历所有无标签数据的缺点,有效减少训练样本规模,能够提高运行速度。实验结果表明,k2TSVM在降低运行时间的同时,能够取得比类似TSVM改进算法更好的分类结果。
相似文献
6.
毕孝儒 《电脑与微电子技术》2014,(10):3-6
针对标准支持向量机在P2P网络流量识别中不支持增量学习的问题.提出一种适于P2P网络流量识别的SVM快速增量学习方法。在对违背Karush—Kuhn—Tucker条件的新增正负样本集分别进行聚类分析基础上,运用聚类簇中心对支持向量机训练生成一个接近增量学习最优分类超平面的过渡超平面.并以此超平面为基准确定初始训练样本集上非支持向量和支持向量的互相转化.进而生成新的样本集实现SVM增量学习。理论分析和实验结果表明。该方法能有效简化增量学习的训练样本集.在不降低P2P网络流量识别精度的前提下.明显缩短SVM的增量学习时间和识别时间。 相似文献
7.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。 相似文献
8.
9.
10.
为了在标记样本数目有限时尽可能地提高支持向量机的分类精度,提出了一种基于聚类核的半监督支持向量机分类方法。该算法依据聚类假设,即属于同一类的样本点在聚类中被分为同一类的可能性较大的原则去对核函数进行构造。采用K-均值聚类算法对已有的标记样本和所有的无标记样本进行多次聚类,根据最终的聚类结果去构造聚类核函数,从而更好地反映样本间的相似程度,然后将其用于支持向量机的训练和分类。理论分析和计算机仿真结果表明,该方法充分利用了无标记样本信息,提高了支持向量机的分类精度。 相似文献
11.
基于贝叶斯网络的半监督聚类集成模型 总被引:2,自引:0,他引:2
已有的聚类集算法基本上都是非监督聚类集成算法,这样不能利用已知信息,使得聚类集成的准确性、鲁棒性和稳定性降低。把半监督学习和聚类集成结合起来,设计半监督聚类集成模型来克服这些缺点。主要工作包括:第一,设计了基于贝叶斯网络的半监督聚类集成(semi-supervised cluster ensemble,简称SCE)模型,并对模型用变分法进行了推理求解;第二,在此基础上,给出了EM(expectation maximization)框架下的具体算法;第三,从UCI(University of Califor 相似文献
12.
对于机器学习在P2P网络流识别中需要大量标记训练数据的问题,提出一种基于改进图半监督支持向量机的P2P流识别方法。采用自动调节的高斯核函数计算少量标识数据和大量未标识训练样本之间的相似距离以构建图模型,并在标记传播过程中嵌入训练样本局部分布信息以获取未标记样本的标识;在此基础上使用所有已标记样本对SVM训练实现P2P网络流识别。实验结果表明该方法能够兼顾整个训练样本集的信息,在提高SVM识别精度的同时,极大降低了人工标记训练样本的成本。 相似文献
13.
传统的分类算法大都建立在平衡数据集的基础上,当样本数据不平衡时,这些学习算法的性能往往会明显下降.对于非平衡数据分类问题,提出了一种优化的支持向量机(SVM)集成分类器模型,采用KSMOTE和Bootstrap对非平衡数据进行预处理,生成相应的SVM模型并用复合形算法优化模型参数,最后利用优化的参数并行生成SVM集成分类器模型,采用投票机制得到分类结果.对5组UCI标准数据集进行实验,结果表明采用优化的SVM集成分类器模型较SVM模型、优化的SVM模型等分类精度有了明显的提升,同时验证了不同的bootNum取值对分类器性能效果的影响. 相似文献
14.
将集成学习的思想引入到增量学习之中可以显著提升学习效果,近年关于集成式增量学习的研究大多采用加权投票的方式将多个同质分类器进行结合,并没有很好地解决增量学习中的稳定-可塑性难题。针对此提出了一种异构分类器集成增量学习算法。该算法在训练过程中,为使模型更具稳定性,用新数据训练多个基分类器加入到异构的集成模型之中,同时采用局部敏感哈希表保存数据梗概以备待测样本近邻的查找;为了适应不断变化的数据,还会用新获得的数据更新集成模型中基分类器的投票权重;对待测样本进行类别预测时,以局部敏感哈希表中与待测样本相似的数据作为桥梁,计算基分类器针对该待测样本的动态权重,结合多个基分类器的投票权重和动态权重判定待测样本所属类别。通过对比实验,证明了该增量算法有比较高的稳定性和泛化能力。 相似文献
15.
16.
提出一种基于SVM的P2P网络流量分类的方法。这种方法利用网络流量的统计特征和基于统计理论的SVM方法,对不同应用类型的P2P网络流量进行分类研究。主要对文件共享中的BitTorrent,流媒体中的PPLive,网络电话中的Skype,即时通讯中的MSN 4种P2P网络流量进行分类研究。介绍了基于SVM的P2P流量分类的整体框架,描述了流量样本的获取及处理方法,并对分类器的构建及实验结果进行了介绍。实验结果验证了提出方法的有效性,平均分类精确率为92.38%。 相似文献
17.
为了提高预测的准确性,文中结合机器学习中堆积(Stacking)集成框架,组合多个分类器对标记分布进行学习,提出基于标记分布学习的异态集成学习算法(HELA-LDL).算法构造两层模型框架,通过第一层结构将样本数据采用组合方式进行异态集成学习,融合各分类器的学习结果,将融合结果输入到第二层分类器,预测结果是带有置信度的标记分布.在专用数据集上的对比实验表明,HELA-LDL可以发挥各种算法在不同场景下的性能较优,稳定性分析进一步说明算法的有效性. 相似文献
18.
基于偏袒性半监督集成的SVM主动反馈方案 总被引:1,自引:0,他引:1
现有的SVM主动反馈算法普遍受到小样本问题和不对称分布问题的制约。针对这些问题,文中提出一种基于偏袒性半监督集成的SVM主动反馈技术。该算法在集成学习框架中使用未标记数据以增加个体分类器之间的差异性,从而获得高效的集成分类模型。同时,高效的集成分类模型更有利于寻找富有信息样本,进而也提高主动反馈的效率。此外,文中还设计一种偏袒加权策略,使得集成分类模型对正样本给予更大的关注程度,以应对正负样本间的不对称分布问题。实验结果表明,偏袒性半监督集成可有效改进SVM主动反馈的性能,且文中算法的检索精度明显优于其它同类相关反馈算法。 相似文献