首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
线性可分文本的SVM算法研究与改进   总被引:1,自引:0,他引:1  
在分析SVM算法的二次规划问题及利用可行性方向法求解二次规划问题的基础上,将效率较高的可行性方向法应用于求解SVM算法中的二次规划问题,给出线性可分文本的SVM算法的改进算法,改进后的SVM算法在时间复杂度上有着明显的提高,从而有效提高SVM算法的训练效率.  相似文献   

2.
一种基于改进的支持向量机的多类文本分类方法   总被引:19,自引:0,他引:19       下载免费PDF全文
提出了一种基于二叉树、预抽取支持向量机及循环迭代算法的改进的支持向量机(SVM)的多类文本分类方法, 与现有的多类分类SVM算法相比,该方法具有较高的计算效率。给出了具体实现过程并将其用于文本分类中,实验表明该算法用于文本分类的有效性及其高效率。  相似文献   

3.
局部线性与One-Class结合的科技文本分类方法   总被引:1,自引:0,他引:1  
结合了局部线性和One-Class的思想对科技文本分类问题进行了研究,利用局部线性的思想寻找文本样本的内在支撑流形,利用One-Class的思想确定正负样本的分界面.与K近邻算法、线性SVM算法和One-Class问题的SVM算法相比,给出的科技文本分类方法具有分类精度高、参数估计简便、正负样本分类精度可控制等优点,为解决科技文献的分类问题提供了一条有效的途径.  相似文献   

4.
为提高传统神经模糊系统(NFS)在植物识别领域对于相似植物样本的识别能力,提出了AdaBoost.M2-NFS算法。该算法首先对传统NFS进行改进以便融合,然后将新NFS与AdaBoost.M2结合得到AdaBoost.M2-NFS新模型。在Iris数据集上实验结果表明:新模型与单个NFS相比,识别率增加了3.33个百分点;与线性支持向量机(SVM)相比,识别率增加了1.11个百分点;与Softmax相比,识别率增加了3.33个百分点。根据敏感性和特异性分析可知,所提模型对于线性不可分数据分类效果比对线性可分数据分类效果好;同时,由于AdaBoost.M2的改进,使得所提算法在植物识别领域具备快速成型和高泛化能力。  相似文献   

5.
基于改进粒子群算法的支持向量机   总被引:1,自引:0,他引:1       下载免费PDF全文
对求解含线性约束优化问题的粒子群算法(LPSO)进行了改进,给出了应用其训练支持向量机(SVM)的方法。改进后的算法在基本PSO惯性权重策略的基础上加入了基于种群收敛速度的自适应扰动,能够较好地调整算法的全局与局部搜索能力之间的平衡。对双螺旋问题的分类实验表明本文提出的方法稳定性好,训练出的SVM具有较高的分类正确率。  相似文献   

6.
线性SVM具有算法简单、训练和测试速度快等优点,但不能用于解决线性不可分问题。为此,将样本数据集划分为多个集合并分别构造它们的LSVM,然后运用径向基函数的非线性组合来拟合非线性的决策函数,从而解决线性不可分问题。鉴于此,提出了一种适合非线性大样本分类的LSVM快速集成模型FMELSVM。该模型利用径向基函数RBF改善了LSVM的非线性输出能力,同时引进了优化权来提升LSVM的集成效果。UCI数据集的实验结果表明,FMELSVM在处理大样本方面具有较好的性能优势。  相似文献   

7.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

8.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

9.
基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良好的寻优能力搜索SVM的最优参数组合。在相同的数据集上进行实验,结果表明模拟退火具有稳定的全局搜索性能,是优化SVM参数的一种有效方式。相比其他文本分类算法,基于SA-SVM的中文文本分类的分类准确率更高,泛化能力更强,具有良好的分类性能。  相似文献   

10.
改进的K均值聚类算法在支持矢量机中的应用   总被引:1,自引:0,他引:1       下载免费PDF全文
将一种改进的K均值聚类算法应用于支持矢量机(SVM)的训练。基于这一改进的聚类算法,设计了SVM的增量式训练步骤,并给出了在训练过程中删除无用样本的的方法。模式分类的实验结果表明,这种改进的K均值聚类算法在SVM中的应用不仅大幅度地缩短了SVM的训练时间,而且进一步提高了它的分类能力。  相似文献   

11.
面对海量数据的特征空间高维性及训练样本的有限性,高光谱遥感影像若采用常规统计模式的分类方法难以获得较好的分类结果。因此探讨支持向量机(SVM)分类器的基本原理,针对EO-1Hyperion高光谱影像的分类特点及现有多类SVM算法所存在的训练时间长及分类精度低等问题,引入二叉决策树SVM(BDT-SVM)分类算法,并提出一种新的类间分离度定义方法及相应的客观确定二叉树结构的策略,由此生成改进的BDT-SVM算法。实验结果表明:与其他多类分类方法相比,基于改进的BDT-SVM算法的高光谱影像地物分类效果更好,总体精度达到90.96%,Kappa系数为0.89,该算法还解决了经典SVM多类分类可能存在的不可分区域问题。  相似文献   

12.
基于闭凸包收缩的最大边缘线性分类器   总被引:12,自引:1,他引:12  
SVM(support vector machines)是一种基于结构风险最小化原理的分类技术.给出实现结构风险最小化原理(最大边缘)的另一种方法.对线性可分情形,提出一种精确意义下的最大边缘算法,并通过闭凸包收缩的概念,将线性不可分的情形转化为线性可分情形.该算法与SVM算法及其Cortes软边缘算法异曲同工,但理论体系简单、严谨,其中的优化问题几何意义清楚、明确.  相似文献   

13.
针对二类支持向量机分类器在图像密写分析应用中训练步骤复杂与推广性弱的缺点,提出了基于一类支持向量机分类器的真彩隐秘图像盲检测算法,算法选用小波包高阶统计特征,仅对正常图像训练建立分类器。实验表明,算法在检测系统效率和推广性方面有较好的表现。  相似文献   

14.
基于支持向量机与无监督聚类相结合的中文网页分类器   总被引:74,自引:0,他引:74  
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题。该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器,任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类。该算法充分利用了SVM准确率高与无监督聚类速度快的优点。实验表明它不仅具有较高的训练效率,而且有很高的精确度。  相似文献   

15.
俸世洲  周尚波 《计算机应用》2017,37(11):3323-3329
高校招生在线咨询通常采用人工回复或基于关键词匹配的问答系统来处理,常存在人工回复效率低下,问答系统答非所问的问题;此外,咨询文本往往比较简短,文本向量化表示易导致高维稀疏问题。针对上述问题,提出一种基于栈式降噪稀疏自编码网络(SDSAE)的招生咨询算法。首先,利用自编码网络对短文本进行特征提取和降维,引入数据集增强技术和添加噪声技术解决训练样本规模较小且分类不均问题,提高算法的泛化能力;获得短文本低维特征表示后,结合反向传播(BP)算法对文本进行分类。所提算法分类效果优于BP、支持向量机(SVM)、极限学习机(ELM)等算法,能显著提高招生咨询文本的分类效果。  相似文献   

16.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

17.
A novel training method has been proposed for increasing efficiency and generalization of support vector machine (SVM). The efficiency of SVM in classification is directly determined by the number of the support vectors used, which is often huge in the complicated classification problem in order to represent a highly convoluted separation hypersurface for better nonlinear classification. However, the separation hypersurface of SVM might be unnecessarily over-convoluted around extreme outliers, as these outliers can easily dominate the objective function of SVM. This situation eventually affects the efficiency and generalization of SVM in classifying unseen testing samples. To avoid this problem, we propose a novel objective function for SVM, i.e., an adaptive penalty term is designed to suppress the effects of extreme outliers, thus simplifying the separation hypersurface and increasing the classification efficiency. Since maximization of the margin distance of hypersurface is no longer dominated by those extreme outliers, our generated SVM tends to have a wider margin, i.e., better generalization ability. Importantly, as our designed objective function can be reformulated as a dual problem, similar to that of standard SVM, any existing SVM training algorithm can be borrowed for the training of our proposed SVM. The performances of our method have been extensively tested on the UCI machine learning repository, as well as a real clinical problem, i.e., tissue classification in prostate ultrasound images. Experimental results show that our method is able to simultaneously increase the classification efficiency and the generalization ability of the SVM.  相似文献   

18.
为了解决模式识别中的近似线性可分问题,提出了一种新的近似线性支持向量机(SVM).首先对近似线性分类中的训练集所形成的两类凸壳进行了相似压缩,使压缩后的凸壳线性可分;基于压缩后线性可分的凸壳,再用平分最近点和最大间隔法求出最优的分划超平面.然后再通过求解最大间隔法的对偶问题,得到基于相似压缩的近似线性SVM.最后,从理论和实证分析两个方面,将该方法与线性可分SVM及推广的平分最近点法进行了对比分析,说明了该方法的优越性与合理性.  相似文献   

19.
提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。  相似文献   

20.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号