首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 40 毫秒
1.
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,对KNN分类中的文档相似性度量公式提出了一种改进方法.改进方法是在文本属性关联和概念共现等基础上提出来的.分类实验结果表明,分类准确率平均提高了约12%.  相似文献   

2.
介绍了基于向量空间模型(VSM)中的KNN文本分类方法,分析了KNN方法的实质,指出了该方法的不足,基于文本属性关联和概念共现对KNN分类中的文档相似性度量公式提出了改进.分类实验结果表明,分类准确率平均提高了10%.  相似文献   

3.
介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一种改进的KNN方法.该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施.实验表明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高.  相似文献   

4.
提出了一种改进的基于特征提取的二级文本分类方法.通过提取出文本的特征项并计算其权重值,将文本表示成由特征项和权重值组成的向量,利用向量的夹角余弦计算二级分类模型下文本之间的相似度,可以更准确快速地定位海量信息.实验结果表明本文提出的分类方法的准确率优于传统的类中心分类法,提高了系统的适应性和分类能力.  相似文献   

5.
摘要:为提高处理文本相似度的效果,提出了一种基于相对熵度量文本差异的KNN算法.该算法首先对文本进行预处理(分字与删去停用字)和构建特征字字典; 然后计算训练集中所有文本特征字的概率,并组成训练集(特征字概率矩阵); 最后计算预测文本的特征字概率向量,并通过计算和统计K个预测文本与训练集文本间相对熵最小的文本类别个数后将数目最多的类别作为测试样本的类别.实验结果表明,该算法的分类效果不仅显著优于传统KNN、SVM、Decision Tree、朴素Bayes算法的分类效果,且在小样本数据情况下  相似文献   

6.
作为一种经典的文本分类算法,KNN简单、实用,在许多实际系统中有广泛的应用,但若待分样本位于易判区域时,KNN却做了许多无用计算。基于此,本文提出一种改进算法,借鉴于蚁群算法,引入了组相似度这个新颖概念,使得当待测样本位于易判区域时,能很快得出判定结果;当待测样本位于难判区域时,该算法退化为KNN的原始算法。  相似文献   

7.
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。  相似文献   

8.
针对电力客户投诉信息进行短文本分类,介绍了K近邻(KNN)算法和中心向量算法,并针对KNN分类算法的某些缺陷作了相关改进,主要加入了中心向量法的思想.对改良后的KNN算法、中心向量算法和传统的KNN算法进行了实验比较,结果发现,相比传统的KNN算法,改良后的新方案能更好地运用在电力客户投诉信息的分类操作上.  相似文献   

9.
采用一种属性约简算法,将待分类的数据样本进行两次约简处理--初次决策表属性约简和基于核属性值的二次约简。通过属性约简方法来删除数据集中的冗余数据,进而提高KNN算法的分类精度。在此基础上应用MapReduce并行编程模型,在Hadoop集群环境上实现并行化分类计算实验。实验结果表明,改进后的算法在集群环境下执行的效率得到很大提升,能够高效处理实验数据。实验执行的加速比也有明显提高。  相似文献   

10.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间.  相似文献   

11.
12.
介绍现有K-近邻分类法的基本思想和研究现状,并针对此方法在分类各类数据集分布不平衡时容易造成分类精度低的问题作相应的改进。改进的K-近邻分类法中引入类代表度和样本代表度,使得K-近邻分类法在相似度计算时选出的近邻样本更能代表其所在类,从而减小误判率。实验证明改进方法有效。  相似文献   

13.
目的提出一种基于P2P结构的移动对象kNN查询框架.方法假设移动对象具有计算处理能力和储存空间,在此基础上进行P2P结构的设计.查询的发起、响应以及计算等不借助中心服务器,而将其转移到移动对象上进行处理.采用距离-响应时间计算算法和kNN查询分段排序算法来进行移动对象kNN查询.结果距离-响应时间计算算法和kNN查询分段排序算法能较好利用框架中各个移动对象响应查询时存在间隔这一特征进行简化计算,提高了框架的工作效率,增强了查询实时性.在更新的过程中通过使用安全时间的概念来减少盲目的对象更新,减少了数据冗余.结论在模拟实验中,框架能充分发挥P2P结构的优点进行移动对象kNN查询,查询响应迅速,查询结果具有较好实时性.  相似文献   

14.
基于一维心电信号,提出了一种改进的卷积双向长短时记忆网络以实现心律失常的自动分类。基于卷积神经网络(CNN)及其注意力机制提取关键特征,搭建双向长短时记忆网络(BiLSTM)挖掘心电信号的时间相关性,最终实现心电信号的自动分类。在MIT-BIH心律失常数据集上进行的实验结果表明,该方法在获得总体精度99.32%的基础上,实现了稀有类别分类的提升,其S与F类分类精确度分别提升了1.02%和10.07%,召回率分别提升了12.52%和4.25%,满足心律失常自动分类的检测要求。  相似文献   

15.
利用元件容差的两个基本特性,给出了一种从总体上估计容差的改进k故障诊断算法,实验结果表明本文算法可以准确地定位故障,且受容差的影响较小。  相似文献   

16.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

17.
近十几年来,GPS定位技术在很多领域得到了广泛的应用,尤其是GPS快速定位技术的应用前景更为广阔。文章针对GPS快速定位常用的双差模型,首先介绍了根据双差模型病态性特点提出的双k型岭估计;然后基于双k型岭估计对ARCE整周模糊度搜索方法进行了改进;最后,把双k型岭估计和改进的ARCE整周模糊度搜索方法结合起来进行快速定位。理论分析和数值计算都表明,本文提出的方法有效改进了浮点解精度,提高了ARCE整周模糊度搜索方法的搜索精度同时缩短了搜索时间,比较适合于GPS快速定位双差模型的解算。  相似文献   

18.
模糊逻辑技术是人工智能领域中的一个重要分支,针对近年来分类算法的不完善之处提出一种改进的模糊规则库的分类算法,对训练样本各维进行分量聚类,最后生成模糊规则库。通过对Contact-lenses数据集的仿真测试时,算法更加简单易懂,而且分类效果很好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号