共查询到19条相似文献,搜索用时 78 毫秒
1.
针对大规模训练集的支持向量机的学习策略 总被引:29,自引:0,他引:29
当训练集的规模很大特别是支持向量很多时.支持向量机的学习过程需要占用大量的内存,寻优速度非常缓慢,这给实际应用带来了很大的麻烦.该文提出了一种针对大规模样本集的学习策略:首先用一个小规模的样本集训练得到一个初始的分类器,然后用这个分类器对大规模训练集进行修剪,修剪后得到一个规模很小的约减集,再用这个约减集进行训练得到最终的分类器.实验表明,采用这种学习策略不仅大幅降低了学习的代价,而且这样获得的分类器的分类精度完全可以与直接通过大规模样本集训练得到的分类器的分类精度相媲美,甚至更优,同时分类速度也得到大幅提高. 相似文献
2.
大规模训练数据的支持向量机学习新方法 总被引:1,自引:1,他引:0
支持向量机不能直接对大规模的训练数据进行学习。提出一种新的减小样本集规模的方法;在映射后的高维空间中寻找两种类别的交界部分,交界部分上的样本作为学习样本。并且指出,不需涉及具体映射的形式只用核函数即可找到交界部分的样本。实验表明,新方法优于直接在低维样本空间中寻找交界部分样本的方法。 相似文献
3.
4.
5.
支持向量机训练算法比较研究 总被引:11,自引:2,他引:11
论文介绍了一种年轻的机器学习方法——支持向量机,详细论述了目前主要的支持向量机的训练算法,包括:二次规划算法,分解算法和增量算法。通过实验验证了普通二次规划算法的缺陷,比较了三种典型的SVM分解训练算法的性能,说明了其相对于二次规划算法的优点和对SVM训练问题的适用性,指出了训练速度优劣的原因。最后指出了未来支持向量机训练算法研究的方向。 相似文献
6.
基于支持向量机集成的分类 总被引:6,自引:0,他引:6
支持向量机是一种基于结构风险最小化原理的分类技术,本文提出了将支持向量机分类器进行集成的分类思想。首先.在原始样本的基础上形成子支持向量机,得到待检样本的子预测;进而对子预测进行适当的组合,以确定样本最终的类别预报。模拟实验结果表明,该方法具有明显优于单一支持向量机的更高的分类准确率。 相似文献
7.
8.
9.
10.
训练SVM的本质是解决二次规划问题,在实际应用中,如果用于训练的样本数很大,标准的二次型优化技术就很难应用.针对这个问题,研究人员提出了各种解决方案,这些方案的核心思想是先将整个优化问题分解为多个同样性质的子问题,通过循环解决子问题来求得初始问题的解.由于这些方法都需要不断地循环迭代来解决每个子问题,所以需要的训练时间很长,这也是阻碍SVM广泛应用的一个重要原因.文章系统回顾了SVM训练的三种主流算法:块算法、分解算法和顺序最小优化算法,并且指出了未来发展方向. 相似文献
11.
12.
13.
支持向量机是在统计学习理论基础上发展起来的新一代学习算法,适宜构造高维有限样本模型,具有很好的分类精度和泛化性能。文中介绍了中文文本分类过程,将支持向量机应用于中文文本分类模型中,对分类器参数选择进行了分析和讨论。实验分析表明,该系统在较小训练集条件下可以取得较好的分类效果。 相似文献
14.
提出了一种传感器动态模型辩识新方法,给出了相应的辩识过程及学习算法.该方法采用支持向量机模型,与常规模型辩识方法比较,其优点是明显的.其采用了结构风险最小化准则,在最小化样本误差的同时减小模型泛化误差的上界,提高了模型的泛化能力;而且将学习算法转换为求解二次规划问题,使得整个模型参数辩识过程中有且仅有一个全局极值点,确定了结果的唯一性.最后,仿真和实际试验结果均表明应用支持向量机对传感器动态模型进行辩识有效. 相似文献
15.
为改进SVM对不均衡数据的分类性能,提出一种基于拆分集成的不均衡数据分类算法,该算法对多数类样本依据类别之间的比例通过聚类划分为多个子集,各子集分别与少数类合并成多个训练子集,通过对各训练子集进行学习获得多个分类器,利用WE集成分类器方法对多个分类器进行集成,获得最终分类器,以此改进在不均衡数据下的分类性能.在UCI数据集上的实验结果表明,该算法的有效性,特别是对少数类样本的分类性能. 相似文献
16.
一种核心子集选择训练的大规模中文网页分类方法 总被引:1,自引:0,他引:1
针对Web页面分类方法一般只能处理小规模数据的问题,提出一种核心子集选择训练的大规模中文网页分类方法.该方法通过将支持向量机的最优化求解问题转化为等价的近似最小闭包球求解问题,使得只需选择数据集的核心子集参与分类器训练;并且,在特征选择阶段采用改进的基于词性的互信息特征选择模型,有效提高Web页面分类的大规模数据处理能力.在搜狗实验室提供的大规模Web页面数据集上进行了实验,实验结果表明不仅准确率可达到支持向量机同等的效果,且训练时间大大减少;而对不均衡类别数据的测试结果表明,该方法在处理不均衡类别数的Web网页分类上也能获得很好的效果. 相似文献
17.
The Internet has been flooded with spam emails, and during the last decade there has been an increasing demand for reliable anti-spam email filters. The problem of filtering emails can be considered as a classification problem in the field of supervised learning. Theoretically, many mature technologies, for example, support vector machines (SVM), can be used to solve this problem. However, in real enterprise applications, the training data are typically collected via honeypots and thus are always of huge amounts and highly biased towards spam emails. This challenges both efficiency and effectiveness of conventional technologies. In this article, we propose an undersampling method to compress and balance the training set used for the conventional SVM classifier with minimal information loss. The key observation is that we can make a trade-off between training set size and information loss by carefully defining a similarity measure between data samples. Our experiments show that the SVM classifier provides a better performance by applying our compressing and balancing approach. 相似文献
18.
支持向量机集成是提高支持向量机泛化性能的有效手段,个体支持向量机的泛化能力及其之间的差异性是影响集成性能的关键因素。为了进一步提升支持向量机整体泛化性能,提出利用动态粗糙集的选择性支持向量机集成算法。首先在利用Boosting算法对样本进行扰动基础上,采用遗传算法改进的粗糙集与重采样技术相结合的动态约简算法进行特征扰动,获得稳定、泛化能力较强的属性约简集,继而生成差异性较大的个体学习器;然后利用模糊核聚类根据个体学习器在验证集上的泛化误差来选择最优个体;并用支持向量机算法对最优个体进行非线性集成。通过在UCI数据集进行仿真,结果表明算法能明显提高支持向量机的泛化性能,具有较低的时、空复杂性,是一种高效、稳定的集成方法。 相似文献