首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
一种新的基于SVM-KNN的Web文本分类算法   总被引:1,自引:0,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。  相似文献   

2.
现代社会环境下机电职业学习者特征与其他学科学习者特征存在着显著差别,为了对机电职业学习者属性特征进行智能预测,提出一种结合SVM与优化KNN的算法模型。该模型首先对传统KNN模型进行加权来应对处理数据时的不均衡问题;在此之后结合SVM算法和加权KNN算法各自的优点对机电职业学习者样本进行分类,即距离超平面分类较远距离的学习者样本选择SVM算法,较近距离的则采用加权KNN算法。实验结果表明,融合各自优点的SVM-KNN算法具有更高的数据分类准确率,对机电职业学习者的属性特征分类和预测具有较好的适用性。  相似文献   

3.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

4.
中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷.单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出One Class SVM-KNN算法,并给出了算法的定义及详细分析.通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法  相似文献   

5.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

6.
情绪识别与日常生活的诸多领域都有很大联系.然而,通过单一算法难以获得较高的情绪识别准确率,为此,提出一种基于支持向量机(support vector machine,SVM)和K近邻(K-nearest neighbors,KNN)融合算法(SVMKNN)的情绪脑电识别模型.在情绪分类时,首先计算待识别样本与最优分类超平面的空间距离,若两者距离大于提前设定的阈值,选用SVM分类器对情绪样本分类,否则选用KNN分类器.最后在SEED情感数据集上进行实验测试,通过对比实验,得出SVM-KNN算法提高了情绪三分类的准确率.运用该模型可有效地对情绪类型进行识别,对于医疗护理方面获取表达障碍患者的情绪状态有积极意义.  相似文献   

7.
在Web文本分类中当类别数量庞大或者类别复杂情况下,层次分类是一种有效的分类方法,但其不足之一是在大类正确划分的前提下,由于子类之间存在较多共性,导致分类精度下降.而层次结构本质决定了同一大类下的子类存在特征交叉现象,针对这一局限性,结合KNN的优越性能,提出了一种结合层次结构和KNN的Web文本分类方法.该方法通过建立层次结构模型(树形结构),分类时先从层次结构模型获得相似度最大的k0个类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法,最后由一种改进的相似度计算方法决定最终的所属类别.实验表明,结合层次结构和KNN的方法在Web文本分类中能够获得较好的分类效果.  相似文献   

8.
针对KNN分类算法在面对海量Web文本处理情况时在单机上训练和测试效率低下的问题,提出基于Hadoop分布式平台以及Spark并行计算模型的无中间结果输出的改进型Web文本分类系统。同时为了充分利用Spark的迭代计算能力,在文本向量化阶段,在传统TFIDF文本特征加权算法的基础上充分考虑特征项在类内和类间的信息分布,提出一种改进的特征加权算法。实验结果表明,该文本分类系统结合Spark计算模型在提高文本预处理、文本向量化以及KNN文本分类算法的性能上有着优异的表现。  相似文献   

9.
针对支持向量机(SVM)在超平面附近进行不平衡数据(imbalanced datasets)分类的不准确性,提出了一种改进SVM-KNN算法,该算法在分类阶段计算测试样本与最优超平面的距离,如果距离差大于给定阈值可直接应用支持向量机分类;如果距离差小于给定阈值,则将所有支持向量都作为测试样本的近邻样本,进行KNN分类。通过对UCI数据集的大量实验表明,该算法在少数类样本的识别率和分类器的整体性能上有明显改善。  相似文献   

10.
基于聚类改进的KNN文本分类算法   总被引:3,自引:0,他引:3  
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法,但是KNN算法在处理文本分类的过程中需要不断的计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好的进行文本分类。  相似文献   

11.
在文本分类领域中,KNN与SVM算法都具有较高的分类准确率,但两者都有其内在的缺点,KNN算法会因为大量的训练样本而导致计算量过大;SVM算法对于噪声数据过于敏感,对分布在分类超平面附近的数据点无法进行准确的分类,基于此提出一种基于变精度粗糙集理论的混合分类算法,该算法能够充分利用二者的优势同时又能克服二者的弱点,最后通过实验证明混合算法能够有效改善计算复杂度与分类精度。  相似文献   

12.
为了获得更好的文本分类准确率和更快的执行效率, 研究了多种Web文本的特征提取方法, 通过对互信息(MI)、文档频率(DF)、信息增益(IG)和χ2统计(CHI)算法的研究, 利用其各自的优势互补, 提出一种基于主成分分析(PCA)的多重组合特征提取算法(PCA-CFEA)。通过PCA算法的正交变换快速地将文本特征空间降维, 再通过多重组合特征提取算法在降维后的特征空间中快速提取出更具代表性的特征项, 过滤掉一些代表性较弱的特征项, 最后使用SVM分类器对文本进行分类。实验结果表明, PCA-CFEA能有效地提高文本分类的正确率和执行效率。  相似文献   

13.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

14.
针对遥感图像分类问题提出了一种基于遗传算法和K近邻的SVM决策树方法。算法以基于类分布的类间分离性测度为准则,利用遗传算法对传统的SVM决策树进行优化,生成最优(较优)决策树。在分类阶段,对容易分的节点利用SVM进行分类,而对可分离性差的节点采用SVM和K近邻相结合的分类方法,最终实现多类别分类。实验结果表明,与传统的分类方法相比,该算法的实验效果较好,可有效地提高遥感图像的分类精度。  相似文献   

15.
文本分类是文本挖掘中最重要的研究内容之一。为了克服目前以距离衡量的近似分类算法在海量数据下耗费大量时间的缺陷,提出了结合基于余弦距离的局部敏感哈希的方式将KNN算法在TF-IDF下对中文文本进行快速分类。同时结合文本数据的特性给出了不同的哈希函数级联方式分别进行实验。在实验过程采用了布尔向量的方式规避重复访问,使分类的结果在可以允许的范围内,分类速度比原始KNN提高了许多。  相似文献   

16.
一种采用聚类技术改进的KNN文本分类方法   总被引:4,自引:0,他引:4  
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.  相似文献   

17.
徐海瑞  张文生  吴双 《计算机工程》2011,37(17):133-135
提出一种基于流形学习的文本分类方法以解决高维文本数据分类问题.利用近邻保持嵌入流形学习算法获得高维Web文本空间中的低维流形结构,采用K近邻分类器对低维流形进行分类.实验结果表明,基于流形学习的方法能获得较好的分类效果,具有稳定的性能.  相似文献   

18.
刘文  吴陈 《微机发展》2012,(5):83-86
中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷。单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出OneClassSVM—KNN算法,并给出了算法的定义及详细分析。通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号