首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 186 毫秒
1.
曾志强  廖备水  高济 《计算机科学》2009,36(11):208-212
标准SVM学习算法运行所需的时间和空间复杂度分别为O(l~3)和O(l~2),l为训练样本的数量,因此不适用于对超大数据集进行训练.提出一种基于近似解的SVM训练算法:Approximate Vector Machine(AVM).AVM采用增量学习的策略来寻找近似最优分类超平面,并且在迭代过程中采用热启动及抽样技巧来加快训练速度.理论分析表明,该算法的计算复杂度与训练样本的数量无关,因此具有良好的时间与空间扩展性.在超大数据集上的实验结果表明,该算法在极大提高训练速度的同时,仍然保持了原始分类器的泛化性能,并且训练完毕具有较少的支持向量,因此结果分类器具有更快的分类速度.  相似文献   

2.
一种改进的支持向量机NN-SVM   总被引:39,自引:0,他引:39  
支持向量机(SVM)是一种较新的机器学习方法,它利用靠近边界的少数向量构造一个最优分类超平面。在训练分类器时,SVM的着眼点在于两类的交界部分,那些混杂在另一类中的点往往无助于提高分类器的性能,反而会大大增加训练器的计算负担,同时它们的存在还可能造成过学习,使泛化能力减弱.为了改善支持向量机的泛化能力,该文在其基础上提出了一种改进的SVM—NN-SVM:它先对训练集进行修剪,根据每个样本与其最近邻类标的异同决定其取舍,然后再用SVM训练得到分类器.实验表明,NN-SVM相比SVM在分类正确率、分类速度以及适用的样本规模上都表现出了一定的优越性.  相似文献   

3.
支持向量机方法具有良好的分类准确率、稳定性与泛化性,在网络流量分类领域已有初步应用,但在面对大规模网络流量分类问题时却存在计算复杂度高、分类器训练速度慢的缺陷。为此,提出一种基于比特压缩的快速SVM方法,利用比特压缩算法对初始训练样本集进行聚合与压缩,建立具有权重信息的新样本集,在损失尽量少原始样本信息的前提下缩减样本集规模,进一步利用基于权重的SVM算法训练流量分类器。通过大规模样本集流量分类实验对比,快速SVM方法能在损失较少分类准确率的情况下,较大程度地缩减流量分类器的训练时间以及未知样本的预测时间,同时,在无过度压缩前提下,其分类准确率优于同等压缩比例下的随机取样SVM方法。本方法在保留SVM方法较好分类稳定性与泛化性能的同时,有效提升了其应对大规模流量分类问题的能力。  相似文献   

4.
通过多维关联规则挖掘,将粒度计算(Granular Computing,GrC)和支持向量机(Support Vector Machine,SVM)有效融合,提出一种粒度支持向量机(Granular SVM,GSVM)学习方法,称为AR-GSVM。该方法用于非平衡数据处理时,不仅可以有效降低分类器的复杂性,而且本质上可以进行并行计算以提高学习效率,同时提高分类器的泛化能力。考虑到保持数据在原始空间和特征空间的分布一致性,在AR-GSVM的基础上又提出核空间上的粒度支持向量机学习方法,称为AR-KGSVM,该方法具有更好的泛化性能。通过在UCI数据集上的实验表明:AR-GSVM和AR-KGSVM的泛化能力优于一些常用非平衡数据处理的方法。  相似文献   

5.
王晶  卫金茂 《计算机应用》2006,26(2):508-0509
为了改善支持向量机的泛化能力,提出了一种改进的支持向量机——SUB SVM,它把对所有训练数据训练得到的主支持向量再次训练,用得到的次支持向量构造SVM非线性分类器,将该算法应用在癌症诊断中,取得了比传统SVM分类器更高的识别率。  相似文献   

6.
基于子聚类约简支持向量机的说话人识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
由于支持向量具有边界性,在利用语音训练集对基于支持向量机(SVM)的说话人识别系统进行训练之前,需要对该训练集进行约简。考虑到该训练集一般十分庞大且具有非线性可分的特性,提出子聚类约简的概念。首先对训练集进行模糊核子聚类并过滤掉非边界的聚类区,然后依照提出的算法对保留的聚类区中的向量集做进一步地约简,使支持向量集更加集中在边界。理论和实践表明,经过两层的约简既保留了充足支持向量,保证了SVM良好的泛化性能,又提高了系统的时间和空间效率。  相似文献   

7.
针对数据识别分类在传统的支持向量机(SVM)个体分类器上正确识别率不理想的问题,提出一种基于代价敏感思想(cost-sensitive)和自适应增强(AdaBoost)的SVM集成数据分类算法(CAB-SVM)。在自适应增强算法每次迭代训练SVM弱分类器之前,根据样本总数设置初始样本权值,并抽取样本组成临时训练集训练SVM弱分类器。其中在权重迭代更新阶段,赋予被分错样本更高的误分代价,使得被分错样本权重增加更快,有效地减少了算法迭代次数。同时,算法迭代过程极大地优化了个体分类器的识别鲁棒性能,使得提出的CAB-SVM算法获得了更优越的数据分类性能。利用UCI数据样本集的实验结果表明CAB-SVM分类算法的正确识别率高于SVM和SVME算法。  相似文献   

8.
针对支持向量机(Support Vector Machine,SVM)处理大规模数据集的学习时间长、泛化能力下降等问题,提出基于边界样本选择的支持向量机加速算法。首先,进行无监督的K均值聚类;然后,在各个聚簇内依照簇的混合度、支持度因素应用K近邻算法剔除非边界样本,获得最终的类别边界区域样本,参与SVM模型训练。在标准数据集上的实验结果表明,算法在保持传统支持向量机的分类泛化能力的同时,显著降低了模型训练时间。  相似文献   

9.
为了对目标进行快速的检测,提出了一种新的基于支持向量机的级联式分类器的构造方法。该级联分类器由若干个线性SVM弱分类器构成,结构简单,分类时间极快。针对级联结构中的每个节点的训练给出了一个新的SVM框架下的二次规划模型,这使得每个节点都有较高的正样本检测率和适当的负样本错检率。实际的实验结果表明,与经典非线性SVM分类器相比,这种分类器在保持SVM较强泛化性能的优点的同时,在检测效率方面更是具有明显的优势。  相似文献   

10.
针对标准支持向量机方法需要存储、计算和处理核矩阵而学习效率很低,不能有效处理较大规模数据挖掘的问题,提出一种基于近邻边缘检测的支持向量机方法 (SVM Method Based on Neighbor Edge Detection, ED_SVM)。该方法将近邻边缘检测技术引入SVM的训练过程,即首先对数据进行划分,选择混合类样本,通过边缘检测技术提取其中位于近似最优分类边界附近的含有较多重要支持向量信息的样本,构成新的小规模训练集,以在压缩训练集的同时保持原始支持向量信息的分布特性;并在新构成的训练集上训练标准SVM,在提高SVM学习效率的同时得到优秀的泛化性能。实验结果表明,本文提出的ED_SVM方法能够同时获得较高的测试精度和学习效率。  相似文献   

11.
针对传统的半监督SVM训练方法把大量时间花费在非支持向量优化上的问题,提出了在凹半监督支持向量机方法中采用遗传FCM(Genetic Fuzzy C Mean,遗传模糊C均值)进行工作集样本预选取的方法。半监督SVM优化学习过程中,在原来训练集上(标签数据)加入了工作集(无标签数据),从而构成了新的训练集。该方法首先利用遗传FCM算法将未知数据划分成某个数量的子集,然后用凹半监督SVM对新数据进行训练得到决策边界与支持矢量,最后对无标识数据进行分类。这样通过减小工作样本集,选择那些可能成为支持向量的边界向量来加入训练集,减少参与训练的样本总数,从而减小了内存开销。并且以随机三维数据为例进行分析,实验结果表明,工作集减小至原工作集的一定范围内,按比例减少工作集后的分类准确率、支持向量数与用原工作集相比差别不大,而分类时间却大为减少,获得了较为理想的样本预选取效果。  相似文献   

12.
样例约简支持向量机   总被引:1,自引:0,他引:1       下载免费PDF全文
支持向量机(support vector machine,SVM)仅利用靠近分类边界的支持向量构造最优分类超平面,但求解SVM需要整个训练集,当训练集的规模较大时,求解SVM需要占用大量的内存空间,寻优速度非常慢。针对这一问题,提出了一种称为样例约简的寻找候选支持向量的方法。在该方法中,支持向量大多靠近分类边界,可利用相容粗糙集技术选出边界域中的样例,作为候选支持向量,然后将选出的样例作为训练集来求解SVM。实验结果证实了该方法的有效性,特别是对大型数据库,该方法能有效减少存储空间和执行时间。  相似文献   

13.
标准的SVM分类计算过程中有大量的支持向量参与了计算,导致了分类速度缓慢。该文为提高SVM的分类速度,提出了一种快速的多项式核函数SVM分类算法,即将使用多项式核的SVM分类决策函数展开为关于待分类向量各分量的多项式,分类时通过计算各个多项式的值而得到分类结果,使分类计算量和支持向量数量无关,又保留了全部支持向量的信息。当多项式核函数的阶数或待分类向量的维数较低而支持向量数量较多时,使用该算法可以使SVM 分类的速度得到极大的提高。针对实际数据集的实验表明了该算法的有效性。  相似文献   

14.
支持向量机在训练过程中,将很多时间都浪费在对非支持向量的复杂计算上,特别是对于大规模数据量的语音识别系统来说,支持向量机在训练时间上不必要的开销将会更加显著。核模糊C均值聚类是一种常用的典型动态聚类算法,并且有核函数能够把模式空间的数据非线性映射到高维特征空间。在核模糊C均值聚类的基础上,结合了多类分类支持向量机中的一对一方法,按照既定的准则把训练样本集中有可能属于支持向量的样本数据进行预选取,并应用到语音识别中。实验取得了较好的结果,该方法有效地提高了支持向量机分类器的学习效率和泛化能力。  相似文献   

15.
This paper presents a four-step training method for increasing the efficiency of support vector machine (SVM). First, a SVM is initially trained by all the training samples, thereby producing a number of support vectors. Second, the support vectors, which make the hypersurface highly convoluted, are excluded from the training set. Third, the SVM is re-trained only by the remaining samples in the training set. Finally, the complexity of the trained SVM is further reduced by approximating the separation hypersurface with a subset of the support vectors. Compared to the initially trained SVM by all samples, the efficiency of the finally-trained SVM is highly improved, without system degradation.  相似文献   

16.
This paper presents the implementation of a new text document classification framework that uses the Support Vector Machine (SVM) approach in the training phase and the Euclidean distance function in the classification phase, coined as Euclidean-SVM. The SVM constructs a classifier by generating a decision surface, namely the optimal separating hyper-plane, to partition different categories of data points in the vector space. The concept of the optimal separating hyper-plane can be generalized for the non-linearly separable cases by introducing kernel functions to map the data points from the input space into a high dimensional feature space so that they could be separated by a linear hyper-plane. This characteristic causes the implementation of different kernel functions to have a high impact on the classification accuracy of the SVM. Other than the kernel functions, the value of soft margin parameter, C is another critical component in determining the performance of the SVM classifier. Hence, one of the critical problems of the conventional SVM classification framework is the necessity of determining the appropriate kernel function and the appropriate value of parameter C for different datasets of varying characteristics, in order to guarantee high accuracy of the classifier. In this paper, we introduce a distance measurement technique, using the Euclidean distance function to replace the optimal separating hyper-plane as the classification decision making function in the SVM. In our approach, the support vectors for each category are identified from the training data points during training phase using the SVM. In the classification phase, when a new data point is mapped into the original vector space, the average distances between the new data point and the support vectors from different categories are measured using the Euclidean distance function. The classification decision is made based on the category of support vectors which has the lowest average distance with the new data point, and this makes the classification decision irrespective of the efficacy of hyper-plane formed by applying the particular kernel function and soft margin parameter. We tested our proposed framework using several text datasets. The experimental results show that this approach makes the accuracy of the Euclidean-SVM text classifier to have a low impact on the implementation of kernel functions and soft margin parameter C.  相似文献   

17.
序贯最小优化的改进算法   总被引:26,自引:0,他引:26  
李建民  张钹  林福宗 《软件学报》2003,14(5):918-924
序贯最小优化(sequential minimal optimization,简称SMO)算法是目前解决大量数据下支持向量机(support vector machine,简称SVM)训练问题的一种十分有效的方法,但是确定工作集的可行方向策略会降低缓存的效率.给出了SMO的一种可行方向法的解释,进而提出了一种收益代价平衡的工作集选择方法,综合考虑与工作集相关的目标函数的下降量和计算代价,以提高缓存的效率.实验结果表明,该方法可以提高SMO算法的性能,缩短SVM分类器的训练时间,特别适用于样本较多、支持向量较多、非有界支持向量较多的情况.  相似文献   

18.
支持向量机(SVM)因为核函数应用内积运算造成了模型较强的“黑箱性”。目前SVM的“黑箱性”研究主要采用规则提取方法解决分类问题,而回归问题鲜有提及。针对回归问题,尝试性提出基于回归树算法的SVM回归规则提取方法,算法充分利用支持向量的特殊性以及回归树的优势,建立支持向量的决策树模型,成功提取出决策能力高,包含变量少,计算量小且容易读取的规则。通过标准数据集Auto MPG和实际的煤制甲醇生产数据集进行了验证,与其他算法对比分析结果表明,所提取的回归规则在训练精度和预测精度等方面都有一定程度的提高。  相似文献   

19.
针对SVM在对大规模数据分类时求解规模过大的问题,提出了一种缩减数据集以提高训练速度的方法。该算法的第一步利用基于密度的方法大致定位能代表某个局域的质点,然后用SVM训练缩减后的数据得到一组支持向量,第二步的训练数据由支持向量以及其所代表的样本点构成。仿真实验证明该算法在保证分类准确率的情况下能有效地提高分类速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号