首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
针对SVM方法在大样本情况下学习和分类速度慢的问题,提出了大样本情况下的一种新的SVM迭代训练算法。该算法利用K均值聚类算法对训练样本集进行压缩,将聚类中心作为初始训练样本集,减少了样本间的冗余,提高了学习速度。同时为了保证学习的精度,采用往初始训练样本集中加入边界样本和错分样本的策略来更新训练样本集,迭代训练直到错分样本数目不变为止。该文提出的基于K均值聚类的SVM迭代算法能在保持学习精度的同时,减小训练样本集及决策函数的支持向量集的规模,从而提高学习和分类的速度。  相似文献   

2.
为实现对历史训练数据有选择地遗忘,并尽可能少地丢失训练样本集中的有用信息,分析了KKT条件与样本分布间的关系并得出了结论,给出了增量训练中当前训练样本集的构成.为了提高SVM增量训练速度,进一步利用训练样本集的几何结构信息对当前训练样本集进行约减,用约减后的当前训练样本集进行SVM增量训练,从而提出一种利用KKT务件与类边界包向量的快速SVM增量学习算法.实验结果表明,该算法在保持较高分类精度的同时提高了SVM增量学习速度.  相似文献   

3.
一种文本分类的在线SVM学习算法   总被引:5,自引:4,他引:5  
本文提出了一种用于文本分类的RBF 支持向量机在线学习算法。利用RBF 核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa 泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC - 5 真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。  相似文献   

4.
曾志强  廖备水  高济 《计算机科学》2009,36(11):208-212
标准SVM学习算法运行所需的时间和空间复杂度分别为O(l~3)和O(l~2),l为训练样本的数量,因此不适用于对超大数据集进行训练.提出一种基于近似解的SVM训练算法:Approximate Vector Machine(AVM).AVM采用增量学习的策略来寻找近似最优分类超平面,并且在迭代过程中采用热启动及抽样技巧来加快训练速度.理论分析表明,该算法的计算复杂度与训练样本的数量无关,因此具有良好的时间与空间扩展性.在超大数据集上的实验结果表明,该算法在极大提高训练速度的同时,仍然保持了原始分类器的泛化性能,并且训练完毕具有较少的支持向量,因此结果分类器具有更快的分类速度.  相似文献   

5.
基于类边界壳向量的快速SVM增量学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为进一步提高SVM增量训练的速度,在有效保留含有重要分类信息的历史样本的基础上,对当前增量训练样本集进行了约简,提出了一种基于类边界壳向量的快速SVM增量学习算法,定义了类边界壳向量。算法中增量训练样本集由壳向量集和新增样本集构成,在每一次增量训练过程中,首先从几何角度出发求出当前训练样本集的壳向量,然后利用中心距离比值法选择出类边界壳向量后进行增量SVM训练。分别使用人工数据集和UCI标准数据库中的数据进行了实验,结果表明了方法的有效性。  相似文献   

6.
PU文本分类(以正例和未标识实例集训练分类器的分类方法)关键在于从U(未标识实例)集中提取尽可能多的可靠反例,然后在正例与可靠反例的基础上使用机器学习的方法构造有效分类器,而已有的方法可靠反例的数量少或不可靠,同样构造的分类器也精度不高,基于SVM主动学习技术的PU文本分类算法提出一种利用SVM与改进的Rocchio分类器进行主动学习的PU文本分类方法,并通过spy技术来提高SVM分类器的准确度,解决某些机器学习中训练样本获取代价过大,尤其是反例样本较难获取的实际问题。实验表明,该方法比目前其它的主动学习方法及面向PU的文本分类方法具有更高的准确率和召回率。  相似文献   

7.
罗军  况夯 《计算机应用》2008,28(9):2386-2388
提出一种新颖的基于Boosting模糊分类的文本分类方法。首先采用潜在语义索引(LSI)对文本特征进行选择;然后提出Boosting算法集成模糊分类器学习,在每轮迭代训练过程中,算法通过调整训练样本的分布,利用遗传算法产生分类规则。减少分类规则能够正确分类样本的权值,使得新产生的分类规则重点考虑难于分类的样本。实验结果表明,该文本分类算法具有良好分类的性能。  相似文献   

8.
提出基于近邻域比率的支持向量机NDR-SVM.该算法对每个训练样本构造一个近邻域,在此邻域中计算与中心同类的样本占邻域中总样本的比率;根据比率与剔除闲值的大小关系决定邻域中心的取舍,并将所保留的样本带入SVM分类.通过修剪训练集,该算法减弱了噪声对SVM泛化能力的影响.实验结果表明,与已有算法相比,NDR-SVM具有更高的分类精度,大大提高了训练速度.  相似文献   

9.
支持向量机(Support Vector Machines,简称SVM)根据有限的样本信息在对文本分类的精度和学习能力之间,相比其他的文本分类算法寻求了最佳折中,从而获得了较好的推广能力。而SVM是从线性可分情况下的最优分类面发展而来的,因此对于线性可分文本具有更好的分类效果。给出了一种效率较高的线性可分文本的SVM算法,它在训练的时间复杂度上具有明显的改进,从而可以提高训练效率。结果表明:改进后的SVM算法相比以前的算法大大提高了运行效率。  相似文献   

10.
SVM分类算法处理高维数据具有较大优势,但其未考虑语义的相似性度量问题,而LDA主题模型可以解决传统的文本分类中相似性度量和主题单一性问题.为了充分结合SVM和LDA算法的优势并提高分类精确度,提出了一种新的LDA-wSVM高效分类算法模型.利用LDA主题模型进行建模和特征选择,确定主题数和隐主题—文本矩阵;在经典权重计算方法上作改进,考虑各特征项与类别的关联度,设计了一种新的权重计算方法;在特征词空间上使用这种基于权重计算的wSVM分类器进行分类.实验基于R软件平台对搜狗实验室的新闻文本集进行分类,得到了宏平均值为0.943的高精确度分类结果.实验结果表明,提出的LDA-wSVM模型在文本自动分类中具有很好的优越性能.  相似文献   

11.
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。  相似文献   

12.
支持向量机的中文文本分类研究   总被引:9,自引:0,他引:9  
支持向量机是一种基于统计学习理论的新型机器学习方法,在文本分类领域取得了很好的效果。使用支持向量机进行了文本分类的研究,实现了一个中文文本自动分类系统,并给出了实验结果。  相似文献   

13.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

14.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

15.
基于向量空间模型的中文文本层次分类方法研究   总被引:8,自引:0,他引:8  
肖雪  何中市 《计算机应用》2006,26(5):1125-1126
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。针对层次分类的结构特点,考虑到不同的层次对特征选择和分类方法有不同的要求,提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。二重特征选择方法对每一层均进行一次特征选择,并逐层改变特征数量和权重计算方法;HTC算法把分别对粗分和细分更有效的类中心向量法与SVM方法相结合。实验表明,该方法相对于平面分类和一般的层次分类方法,有较高的准确率。  相似文献   

16.
一种SVM增量训练淘汰算法   总被引:8,自引:0,他引:8  
基于KKT条件分析了样本增加后支持向量集的变化情况,深入研究了支持向量分布特点,提出了一种新的支持向量机增量训练淘汰机制——挖心淘汰算法。该算法只需设定一个参数,即可对训练数据进行有效的遗忘淘汰。通过对标准数据集的实验结果表明,使用该方法进行增量训练在保证训练精度的同时,能有效地提高训练速度并降低存储空间的占用。  相似文献   

17.
为解决网络入侵检测系统中检测算法分类精度不高训练样本数需要较多以及训练学习时间较长等问题,在基于支持向量机的基础上,提出一种新的利用隐空间支持向量机设计IDS的检测算法.仿真实验结果表明本算法较基于支持向量机的检测算法具有更良好的泛化性能,更快的迭代速度,更高的检测精度和更低的误报率.  相似文献   

18.
基于流形学习和SVM的Web文档分类算法   总被引:7,自引:4,他引:3       下载免费PDF全文
王自强  钱旭 《计算机工程》2009,35(15):38-40
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号