共查询到20条相似文献,搜索用时 343 毫秒
1.
线性可分文本的SVM算法研究与改进 总被引:1,自引:0,他引:1
在分析SVM算法的二次规划问题及利用可行性方向法求解二次规划问题的基础上,将效率较高的可行性方向法应用于求解SVM算法中的二次规划问题,给出线性可分文本的SVM算法的改进算法,改进后的SVM算法在时间复杂度上有着明显的提高,从而有效提高SVM算法的训练效率. 相似文献
2.
3.
局部线性与One-Class结合的科技文本分类方法 总被引:1,自引:0,他引:1
结合了局部线性和One-Class的思想对科技文本分类问题进行了研究,利用局部线性的思想寻找文本样本的内在支撑流形,利用One-Class的思想确定正负样本的分界面.与K近邻算法、线性SVM算法和One-Class问题的SVM算法相比,给出的科技文本分类方法具有分类精度高、参数估计简便、正负样本分类精度可控制等优点,为解决科技文献的分类问题提供了一条有效的途径. 相似文献
4.
为提高传统神经模糊系统(NFS)在植物识别领域对于相似植物样本的识别能力,提出了AdaBoost.M2-NFS算法。该算法首先对传统NFS进行改进以便融合,然后将新NFS与AdaBoost.M2结合得到AdaBoost.M2-NFS新模型。在Iris数据集上实验结果表明:新模型与单个NFS相比,识别率增加了3.33个百分点;与线性支持向量机(SVM)相比,识别率增加了1.11个百分点;与Softmax相比,识别率增加了3.33个百分点。根据敏感性和特异性分析可知,所提模型对于线性不可分数据分类效果比对线性可分数据分类效果好;同时,由于AdaBoost.M2的改进,使得所提算法在植物识别领域具备快速成型和高泛化能力。 相似文献
5.
对求解含线性约束优化问题的粒子群算法(LPSO)进行了改进,给出了应用其训练支持向量机(SVM)的方法。改进后的算法在基本PSO惯性权重策略的基础上加入了基于种群收敛速度的自适应扰动,能够较好地调整算法的全局与局部搜索能力之间的平衡。对双螺旋问题的分类实验表明本文提出的方法稳定性好,训练出的SVM具有较高的分类正确率。 相似文献
6.
7.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。 相似文献
8.
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。 相似文献
9.
基于支持向量机SVM的中文文本分类方法的泛化能力与其参数选取紧密相关,参数优化对文本分类精度有较大影响。为解决优化SVM参数难题,提出一种基于模拟退火(SA)优化SVM的文本分类方法。将文本分类准确率作为模拟退火的优化目标,利用SA良好的寻优能力搜索SVM的最优参数组合。在相同的数据集上进行实验,结果表明模拟退火具有稳定的全局搜索性能,是优化SVM参数的一种有效方式。相比其他文本分类算法,基于SA-SVM的中文文本分类的分类准确率更高,泛化能力更强,具有良好的分类性能。 相似文献
10.
将一种改进的K均值聚类算法应用于支持矢量机(SVM)的训练。基于这一改进的聚类算法,设计了SVM的增量式训练步骤,并给出了在训练过程中删除无用样本的的方法。模式分类的实验结果表明,这种改进的K均值聚类算法在SVM中的应用不仅大幅度地缩短了SVM的训练时间,而且进一步提高了它的分类能力。 相似文献
11.
面对海量数据的特征空间高维性及训练样本的有限性,高光谱遥感影像若采用常规统计模式的分类方法难以获得较好的分类结果。因此探讨支持向量机(SVM)分类器的基本原理,针对EO-1Hyperion高光谱影像的分类特点及现有多类SVM算法所存在的训练时间长及分类精度低等问题,引入二叉决策树SVM(BDT-SVM)分类算法,并提出一种新的类间分离度定义方法及相应的客观确定二叉树结构的策略,由此生成改进的BDT-SVM算法。实验结果表明:与其他多类分类方法相比,基于改进的BDT-SVM算法的高光谱影像地物分类效果更好,总体精度达到90.96%,Kappa系数为0.89,该算法还解决了经典SVM多类分类可能存在的不可分区域问题。 相似文献
12.
13.
针对二类支持向量机分类器在图像密写分析应用中训练步骤复杂与推广性弱的缺点,提出了基于一类支持向量机分类器的真彩隐秘图像盲检测算法,算法选用小波包高阶统计特征,仅对正常图像训练建立分类器。实验表明,算法在检测系统效率和推广性方面有较好的表现。 相似文献
14.
15.
高校招生在线咨询通常采用人工回复或基于关键词匹配的问答系统来处理,常存在人工回复效率低下,问答系统答非所问的问题;此外,咨询文本往往比较简短,文本向量化表示易导致高维稀疏问题。针对上述问题,提出一种基于栈式降噪稀疏自编码网络(SDSAE)的招生咨询算法。首先,利用自编码网络对短文本进行特征提取和降维,引入数据集增强技术和添加噪声技术解决训练样本规模较小且分类不均问题,提高算法的泛化能力;获得短文本低维特征表示后,结合反向传播(BP)算法对文本进行分类。所提算法分类效果优于BP、支持向量机(SVM)、极限学习机(ELM)等算法,能显著提高招生咨询文本的分类效果。 相似文献
16.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率. 相似文献
17.
A novel training method has been proposed for increasing efficiency and generalization of support vector machine (SVM). The efficiency of SVM in classification is directly determined by the number of the support vectors used, which is often huge in the complicated classification problem in order to represent a highly convoluted separation hypersurface for better nonlinear classification. However, the separation hypersurface of SVM might be unnecessarily over-convoluted around extreme outliers, as these outliers can easily dominate the objective function of SVM. This situation eventually affects the efficiency and generalization of SVM in classifying unseen testing samples. To avoid this problem, we propose a novel objective function for SVM, i.e., an adaptive penalty term is designed to suppress the effects of extreme outliers, thus simplifying the separation hypersurface and increasing the classification efficiency. Since maximization of the margin distance of hypersurface is no longer dominated by those extreme outliers, our generated SVM tends to have a wider margin, i.e., better generalization ability. Importantly, as our designed objective function can be reformulated as a dual problem, similar to that of standard SVM, any existing SVM training algorithm can be borrowed for the training of our proposed SVM. The performances of our method have been extensively tested on the UCI machine learning repository, as well as a real clinical problem, i.e., tissue classification in prostate ultrasound images. Experimental results show that our method is able to simultaneously increase the classification efficiency and the generalization ability of the SVM. 相似文献
18.
19.
提出了一种基于K近邻(KNN)原理的快速文本分类算法。该算法不仅具有原始K近邻算法分类效果好的优点,还通过对训练样本进行压缩,消除相似度之间的比较,提高了分类效率。实验表明,该算法用于邮件过滤系统时,分类效果要优于基于朴素贝叶斯分类器的二项独立模型和多项式模型,而分类的时间复杂度与其相当,完全可以应用于实时邮件过滤。 相似文献
20.
最大信息熵原理已被成功地应用于各种自然语言处理领域,如机器翻译、语音识别和文本自动分类等,提出了将其应用于互联网异常流量的分类。由于最大信息熵模型利用二值特征函数来表达和处理符号特征,而KDD99数据集中存在多种连续型特征,因此采用基于信息熵的离散化方法对数据集进行预处理,并利用CFS算法选择合适的特征子集,形成训练数据集合。最后利用BLVM算法进行参数估计,得到满足最大熵约束的指数形式的概率模型。通过实验,比较了最大信息熵模型和Naive Bayes、Bayes Net、SVM与C4.5决策树方法之间的精度、召回率、F-Measure,发现最大信息熵模型具有良好的综合性能,尤其在训练数据集样本数量有限的情况下仍然能保持较高的分类精度,在实际应用中具有广阔的前景。 相似文献