首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
针对大规模文本的自动层次分类问题,K近邻(KNN)算法分类效率较高,但是对于处于类别边界的样本分类准确度不是很高。而支持向量机(SVM)分类算法准确度比较高,但以前的多类SVM算法很多基于多个独立二值分类器组成,训练过程比较缓慢并且不适合层次类别结构等。提出一种融合KNN与层次SVM的自动分类方法。首先对KNN算法进行改进以迅速得到K个最近邻的类别标签,以此对文档的候选类别进行有效筛选。然后使用一个统一学习的多类稀疏层次SVM分类器对其进行自上而下的类别划分,从而实现对文档的高效准确的分类过程。实验结果表明,该方法在单层和多层的分类数据集上的分类准确度比单独使用其中任何一种要好,同时分类时间上也比较接近其中最快的单个分类器。  相似文献   

2.
一种新的基于SVM-KNN的Web文本分类算法   总被引:1,自引:0,他引:1  
在应用基本的支持向量机算法的基础上,提出了一种新的Web文本分类算法。将SVM算法和KNN算法进行结合,提出了基于SVM-KNN的Web文本分类算法,用KNN算法来弥补传统SVM算法的不足,以简单的思想和较小的实现代价对传统SVM算法进行有效的改进,收到了良好的分类效果。  相似文献   

3.
网络信息规模随着互联网与信息技术的发展而不断增大,在这些信息中,各种类型的文本信息占据了相当大的比重。因此,高效、快速地对文本信息进行分类是网络信息处理中一个关键问题。本文分析比较了SVM算法、朴素Bayes算法和KNN算法3种算法,并通过实验证明了这3种算法在中文文本分类中的效果。实验结果表明:SVM算法比KNN算法和朴素Bayes算法更优,SVM算法是一种较好的中文文本分类算法。  相似文献   

4.
本文提出一种基于损失最小化的SVM多类网页分类算法,该算法在多类的网页分类问题上将基于损失最小化的SVM分类算法和KNN相结合,在选择分类器顺序的问题上采用剩余样本最小错误率方法。实验表明该方法简单有效,较大地提高了SVM分类算法的准确性。  相似文献   

5.
《计算机科学与探索》2019,(7):1165-1173
针对目前符号数据的分类性能较低,通过挖掘属性值与标签之间可能存在的空间结构关系,提出了一种基于空间相关性分析的符号数据分类方法。该方法首先采用独热编码的方式对符号数据进行特征扩容,然后基于互信息和条件熵信息度量方法,定义了一种符号数据空间关系表示方法。在此基础上,分别结合支持向量机(support vector machine,SVM)和K-最近邻(K-nearest neighbor,KNN)模型分类器,提出了基于空间相关性分析的SVM分类算法(SVM classification algorithm based on space correlation analysis,SCA_SVM)和基于空间相关性分析的KNN分类算法(KNN classification algorithm based on space correlation analysis,SCA_KNN)两种分类算法。该方法既能够体现出属性值与标签之间的关联关系,也可以有效地度量不同属性值之间的距离或差异性。在标准UCI数据集上的实验结果表明,该方法在分类性能上更加有效。  相似文献   

6.
在SVM分类识别中,分类器模型一经训练得到,对所有测试样本进行无差别的识别。但在高速列车故障中,样本的分类识别是存在区域分类精度的。本文提出了一种基于选择性集成学习的SVM多分类器融合算法,该方法选取测试样本最邻近的k个训练样本,然后选择对其分类效果好的SVM分类器进行融合,以提高分类准确率。最后使用高速列车故障数据进行了实验,并与AdaBoost、KNN、Bayes、SVM分类方法进行了比较。实验结果表明,该算法提高了分类识别准确率。  相似文献   

7.
基于多分类SVM-KNN的实体关系抽取方法   总被引:1,自引:0,他引:1  
实体关系抽取是信息抽取领域的重要研究课题之一。传统的实体关系抽取研究注重于从实体对出现的上下文中提取词法和语义等特征,然后利用分类器(如SVM)进行实体关系抽取,但该类方法忽略了分类器对实体抽取性能的影响。针对SVM分类器对超平面附近样本分类正确率低的问题,本文设计了一种基于双投票机制的SVM模糊样本选择方法。在此基础上,对确定区域样本直接使用SVM分类器进行分类,并利用KNN算法对模糊区域样本进行二次分类。在SemEval-2010评测任务提供的实体关系抽取数据上进行实验,实验结果表明该方法能较大提高实体关系抽取的性能。  相似文献   

8.
刘文  吴陈 《微机发展》2012,(5):83-86
中文文本分类在数据库及搜索引擎中得到广泛的应用,K-近邻(KNN)算法是常用于中文文本分类中的分类方法,但K-近邻在分类过程中需要存储所有的训练样本,并且直到待测样本需要分类时才建立分类,而且还存在类倾斜现象以及存储和计算的开销大等缺陷。单类SVM对只有一类的分类问题具有很好的效果,但不适用于多类分类问题,因此针对KNN存在的缺陷及单类SVM的特点提出OneClassSVM—KNN算法,并给出了算法的定义及详细分析。通过实验证明此方法很好地克服了KNN算法的缺陷,并且查全率、查准率明显优于K-近邻算法。  相似文献   

9.
比较了ICA方法进行面部表情识别的两种架构ICA1和ICA2。采用欧式、城区、余弦KNN和6种核函数的SVM算法进行识别,比较了不同的距离函数和核函数对整体识别率和单个表情识别率的影响。实验表明:ICA1整体上优于ICA2;对于KNN算法,在ICA1下KNN+城区距最优,t检验不显著,在ICA2下,KNN+余弦距最优,t检验显著;SVM算法对ICA1有效,对ICA2失效;在ICA1下,对SVM算法,线性、径向基和Sigmoid核取得相同的识别率;惊奇是最好识别的表情,高兴是最难识别的表情。最后利用神经科学对视觉脑区的最新研究,得出稀疏的特征比稀疏的编码能够取得更好的表情识别率。  相似文献   

10.
在文本分类领域中,KNN与SVM算法都具有较高的分类准确率,但两者都有其内在的缺点,KNN算法会因为大量的训练样本而导致计算量过大;SVM算法对于噪声数据过于敏感,对分布在分类超平面附近的数据点无法进行准确的分类,基于此提出一种基于变精度粗糙集理论的混合分类算法,该算法能够充分利用二者的优势同时又能克服二者的弱点,最后通过实验证明混合算法能够有效改善计算复杂度与分类精度。  相似文献   

11.
曾俊 《计算机应用研究》2012,29(5):1926-1928
将SVM和KNN算法结合在一起,组成一种新的Web文本分类算法——SVM-KNN算法。当Web文本和SVM最优超平面的距离大于预选设定的阈值,则采用SVM进行分类,反之采用SVM作为代表点的KNN算法对样本分类。实证结果表明,SVM-KNN分类算法的分类精度比单纯SVM或KNN分类算法有不同程度的提高,为Web数据挖掘提供了一种有效的分类方法。  相似文献   

12.
SVM-KNN分类算法研究   总被引:1,自引:0,他引:1  
SVM-KNN分类算法是一种将支持向量机(SVM)分类和最近邻(NN)分类相结合的新分类方法。针对传统SVM分类器中存在的问题,该算法通过支持向量机的序列最小优化(SMO)训练算法对数据集进行训练,将距离差小于给定阈值的样本代入以每类所有的支持向量作为代表点的K近邻分类器中进行分类。在UCI数据集上的实验结果表明,该分类器的分类准确率比单纯使用SVM分类器要高,它在一定程度上不受核函数参数选择的影响,具有较好的稳健性。  相似文献   

13.
情绪识别与日常生活的诸多领域都有很大联系.然而,通过单一算法难以获得较高的情绪识别准确率,为此,提出一种基于支持向量机(support vector machine,SVM)和K近邻(K-nearest neighbors,KNN)融合算法(SVM-KNN)的情绪脑电识别模型.在情绪分类时,首先计算待识别样本与最优分类...  相似文献   

14.
针对支持向量机方法在标记用户数据不充分的情况下无法有效实现托攻击检测的不足,提出一种基于SVM-KNN的半监督托攻击检测方法。根据少量标记用户数据训练一个初始SVM分类器,利用初始SVM对大量未标记用户数据进行分类,挑选出分类边界附近有可能成为支持向量的样本点,利用KNN分类器优化边界向量的标记质量,再将重新标注过的边界向量融入训练集,迭代训练逐步改善SVM的分类边界,最终获得系统决策函数。实验结果表明在标记用户数据较少的情况下,方法能有效提高托攻击的检测精度和效率,具有较强的推广能力。  相似文献   

15.
Text classification has been recognized as one of the key techniques in organizing digital data. The intuition that each algorithm has its bias data and build a high performance classifier via some combination of different algorithm is a long motivation. In this paper, we proposed a two-level hierarchical algorithm that systematically combines the strength of support vector machine (SVM) and k nearest neighbor (KNN) techniques based on variable precision rough sets (VPRS) to improve the precision of text classification. First, an extension of regular SVM named variable precision rough SVM (VPRSVM), which partitions the feature space into three kinds of approximation regions, is presented. Second, a modified KNN algorithm named restrictive k nearest neighbor (RKNN) is put forward to reclassify texts in boundary region effectively and efficiently. The proposed algorithm overcomes the drawbacks of sensitive to noises of SVM and low efficiency of KNN. Experimental results compared with traditional algorithms indicate that the proposed method can improve the overall performance significantly.  相似文献   

16.
为实现对腭裂高鼻音等级的自动识别,通过对语音信号小波处理和特征提取方法的综合研究,提出基于小波分解系数倒谱特征的腭裂高鼻音等级自动识别算法。目前,研究人员对腭裂语音的研究多基于MFCC、Teager能量、香农能量等特征,识别正确率偏低,且计算量过大。文中对4种等级腭裂高鼻音的1789个元音\a\语音数据提取小波分解系数倒谱特征参数,使用KNN分类器对4种不同等级的高鼻音进行自动识别,将识别结果与MFCC、LPCC、基音周期、共振峰和短时能量共5种经典声学特征的识别结果作比较,同时使用SVM分类器对不同等级的腭裂高鼻音进行自动识别,并与KNN分类器进行对比。实验结果表明,基于小波分解系数倒谱特征的识别结果优于经典声学特征,且KNN分类器的识别结果优于SVM分类器。小波分解系数倒谱特征在KNN中的识别率最高达到91.67%,在SVM中达到87.60%,经典声学特征在KNN分类器中的识别率为21.69%~84.54%,在SVM中的识别率为30.61%~78.24%。  相似文献   

17.
为满足入侵检测的实时性和准确性要求,通过结合支持向量机(SVM)和K最近邻(KNN)算法设计IL-SVM-KNN分类器,并采用平衡k维树作为数据结构提升执行速度.训练阶段应用增量学习思想并考虑知识库的扩展,分类阶段则利用SVM和KNN算法将待分类数据分成3种情况应用不同的分类策略.基于KDD CUP99和NSL-KDD数据集进行实验,结果表明,IL-SVM-KNN能够区分正常流量和异常流量并准确判断异常流量的攻击类型,其准确率较KNN算法和SVM算法有明显提升,判断攻击类型的准确性高于决策树、随机森林和XGBoost算法,并且较两层卷积神经网络消耗时间更少,资源消耗更低.  相似文献   

18.
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号