首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 78 毫秒
1.
用于文本分类的改进KNN算法   总被引:2,自引:2,他引:2  
最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。  相似文献   

2.
何峰  林亚丽 《福建电脑》2005,(1):4-5,16
介绍基于KNN的文本分类方法,分析KNN方法实质,基于隐含语义、特征聚合、强化文本中语义链属性因子和与检索相结合的迭代近邻法四种改进方法进行比较,给出涉及的关键技术。  相似文献   

3.
基于聚类改进的KNN文本分类算法   总被引:3,自引:0,他引:3  
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法,但是KNN算法在处理文本分类的过程中需要不断的计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好的进行文本分类。  相似文献   

4.
本文将KD-Tree应用到KNN文本分类算法中,先对训练文本集建立一个KD-Tree,然后在KD-Tree中搜索测试文本的所有祖先节点文本,这些祖先节点文本集合就是待测文本的最邻近文本集合,与测试文本有最大相似度的祖先的文本类型就是待测试文本的类型,这种算法大大减少了参与比较的向量文本数目,时间复杂度仅为O(log2N)。实验表明,改进后的KNN文本分类算法具有比传统KNN文本分类法更高的分类效率。  相似文献   

5.
使用KNN算法的文本分类   总被引:30,自引:2,他引:30  
张宁  贾自艳  史忠植 《计算机工程》2005,31(8):171-172,185
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。  相似文献   

6.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

7.
基于改进KNN算法的中文文本分类方法   总被引:1,自引:0,他引:1  
介绍了中心向量算法和KNN算法两种分类方法。针对KNN分类方法在计算文本相似度时存在的不足,提出了改进方案。新方案引入了中心向量分类法的思想。通过实验,对改进的KNN算法、中心向量算法和传统的KNN算法应用于文本分类效果进行了比较。实验结果表明,改进的KNN算法较中心向量法和传统的KNN算法在处理中文文本分类问题上有较好的分类效果,验证了对KNN算法改进的有效性和可行性。  相似文献   

8.
用模拟退火改进的KNN分类算法   总被引:2,自引:0,他引:2  
KNN(k Nearest Neighbor)算法是1种简单、有效、非参数的文本分类法,但缺点是样本相似度的计算量大,故不适用于有大量高维样本的文本。一方面,本文分析了KNN算法的优点和缺陷,采用了1种应用特征词提取和特征词聚合的方法来改进KNN算法在特征词提取方面的不足。另一方面,本文又深入研究了模拟退火算法思想,采用退火模拟思想的典型优化组方法和模拟退火算法原理来加快KNN算法的分类速度。最后,通过2种方法的加入改进了KNN分类算法。实验结果表明,本文提出的方法大大提高了分类算法的效率和性能。  相似文献   

9.
一种采用聚类技术改进的KNN文本分类方法   总被引:4,自引:0,他引:4  
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.  相似文献   

10.
通过实验对SVM、KNN文本分类算法进行了深入探讨。基于KNN和SVM算法,提出了一种SVM.KNN算法。该算法结合KNN和SVM两种分类器,并通过分类预测概率的反馈和修正来提高分类器性能。在CWT100G中文网页分类测试系统中,对SVM.KNN算法的实际效果进行了测试和算法性能验证。  相似文献   

11.
特征向量的高维性以及训练样本分布不均影响文本分类器性能。提出了一种聚类模式下的KNN改进方法。首先使用一种改进的聚类方法对文本特征集进行初步筛选,随后使用一种基于类别的改进KNN分类器进行分类,减少了噪声样本对测试样本类别判定的干扰。试验结果表明本文提出的分类模型在分类效率上得到提高。  相似文献   

12.
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。  相似文献   

13.
一种应用向量聚合技术的KNN中文文本分类方法   总被引:3,自引:2,他引:3  
针对KNN文本分类方法中不考虑特征词关联的问题,提出一种改进方法.这种方法基于对体现词和类别问相关程度的CHI统计值分布的分析,应用向量聚合技术很好地解决了关联特征词的提取问题.其特点在于:聚合文本向量中相关联的特征词作为特征项,从而取代传统方法中一个特征词对应向量一维的做法,这样不但缩减了向量的维教,而且加强了特征项对文本分类的贡献.实验表明该方法明显提高了分类的准确率和召回率。  相似文献   

14.
基于类别选择的改进KNN文本分类   总被引:3,自引:0,他引:3  
特征高维性以及算法的泛化能力影响了KNN分类器的分类性能.提出了一种降维条件下基于类别的KNN改进模型,解决了k近邻选择时大类别、高密度样本占优问题.首先使用一种改进的优势率方法进行特征选择,随后使用类别向量对文本类别进行初步判定,最后在压缩后的样本集上使用KNN分类器进行分类.试验结果表明,提出的改进分类模型提高了分类效率.  相似文献   

15.
KNN文本分类算法研究   总被引:4,自引:0,他引:4  
KNN(K-NearestNeighbour)是向量空间模型中最好的文本分类算法之一。文中介绍了KNN算法的基本思想,归纳了针对KNN算法的不足而提出的改进算法。对KNN文本分类算法的理论研究和实际应用起了指导作用。  相似文献   

16.
基于质心的文本分类算法   总被引:3,自引:1,他引:3       下载免费PDF全文
当文本集较分散或出现多峰值时,基于质心的文本分类算法分类效果很差。针对该问题提出一种改进的文本分类算法,与基于质心的经典分类算法相比,其性能较高。在香港慧科讯业公司提供的文本分类语料库上的测试结果表明,该算法的效率和精度满足要求。  相似文献   

17.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号