首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
基于特征熵相关度差异的KNN算法   总被引:1,自引:0,他引:1       下载免费PDF全文
周靖  刘晋胜 《计算机工程》2011,37(17):146-148
传统K最近邻(KNN)法在进行样本分类时容易产生无法判断或判断错误的问题。为此,将特征熵与KNN相结合,提出一种新的分类算法(FECD-KNN)。该算法采用熵作为类相关度,以其差异值计算样本距离。用熵理论规约分类相关度,并根据相关度间的差异值衡量特征对分类的影响程度,从而建立距离测度与类别间的内在联系。仿真实验结果表明,与KNN及Entropy-KNN法相比,FECD-KNN在保持效率的情况下,能够提高分类准确性。  相似文献   

2.
围绕KNN算法,以寻求高精度、高效率的相似性距离度量方法为主要研究目的。根据特征参数熵变换指标的类别特点,提出一种运用熵特征变换指标设计相互类别差异量的相似性距离度量,以降低特征参数类别噪音。对熵降噪优化、熵相关度差异、类可信度计算、传统欧式距离及相同特征参数几种KNN算法进行理论分析、Letter和Pima Indians Diabetes数据集仿真实验及KDD CUP'99的实际应用,均显示该算法在KNN算法中具有很好的效果。  相似文献   

3.
针对Boosting类算法生成的个体网络的迭代方式相关性较高,对某些不稳定学习算法的集成结果并不理想的情况,基于Local Boost算法局部误差调整样本权值的思想,提出了基于距离及其权值挑选邻居样本的方法,并通过局部误差产生训练样本种子,采用Lazy Bagging方法生成针对各样本种子的个体网络训练样本集来训练、生成新的个体网络,UCI数据集上实验结果表明,该算法得到的个体网络相关度较小,集成性能较为稳定.  相似文献   

4.
周靖 《计算机应用》2013,33(2):558-562
大规模的样本数量及其特征高维性影响着K最近邻(KNN)分类算法的分类性能。为此,提出一种具备降维、修剪机制的特征参数平均互信息和类别区分性的KNN改进算法AMI&CD-KNN。首先使用熵中平均互信息的概念,衡量特征参数体现类别特征信息的准确程度;然后采用特征参数相对类别的优势率及其在数据集中的分布概率描述类别区分性,用于体现特征参数提供类别信息量的大小;最后建立特征参数平均互信息和类别区分性的内在联系,设计样本修剪方法,从而达到在保证分类准确性的前提下,提高分类速度的目的。理论分析与仿真实验表明,与经典KNN及其他具备修剪机制的算法比较,提出的算法具有更高的分类泛化性。  相似文献   

5.
用于不均衡数据集分类的KNN算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对KNN在处理不均衡数据集时,少数类分类精度不高的问题,提出了一种改进的算法G-KNN。该算法对少数类样本使用交叉算子和变异算子生成部分新的少数类样本,若新生成的少数类样本到父代样本的欧几里德距离小于父代少数类之间的最大距离,则认为是有效样本,并把这类样本加入到下轮产生少数类的过程中。在UCI数据集上进行测试,实验结果表明,该方法与KNN算法中应用随机抽样相比,在提高少数类的分类精度方面取得了较好的效果。  相似文献   

6.
现代社会环境下机电职业学习者特征与其他学科学习者特征存在着显著差别,为了对机电职业学习者属性特征进行智能预测,提出一种结合SVM与优化KNN的算法模型。该模型首先对传统KNN模型进行加权来应对处理数据时的不均衡问题;在此之后结合SVM算法和加权KNN算法各自的优点对机电职业学习者样本进行分类,即距离超平面分类较远距离的学习者样本选择SVM算法,较近距离的则采用加权KNN算法。实验结果表明,融合各自优点的SVM-KNN算法具有更高的数据分类准确率,对机电职业学习者的属性特征分类和预测具有较好的适用性。  相似文献   

7.
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.  相似文献   

8.
基于全信息相关度的动态多分类器融合   总被引:1,自引:0,他引:1  
AdaB00st采用级联方法生成各基分类器,较好地体现了分类器之间的差异性和互补性.其存在的问题是,在迭代的后期,训练分类器越来越集中在某一小区域的样本上,生成的基分类器体现不同区域的分类特征.根据基分类器的全局分类性能得到固定的投票权重,不能体现基分类器在不同区域上的局部性能差别.因此,本文基于Ada-Boost融合方法,利用待测样本与各分类器的全信息相关度描述基分类器的局部分类性能,提出基于全信息相关度的动态多分类器融合方法,根据各分类器对待测样本的局部分类性能动态确定分类器组合和权重.仿真实验结果表明,该算法提高了融合分类性能.  相似文献   

9.
肖辉辉  段艳明 《计算机科学》2013,40(Z11):157-159,187
样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样本间的相似度。再根据此距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。理论分析及仿真实验结果表明,FCD-KNN算法较传统KNN及距离加权-KNN的分类准确性要高。  相似文献   

10.
基于向量投影的KNN文本分类算法   总被引:2,自引:0,他引:2  
针对KNN算法分类时间过长的缺点,分析了提高分类效率的方法.在KNN算法基础上,结合向量投影理论以及iDistance索引结构,提出了一种改进的KNN算法--PKNN.该算法通过比较待分类样本和训练样本的一维投影距离,获得最有可能的临近样本点,减小了参与计算的训练样本数,因此可以减少每次分类的计算量.实验结果表明,PKNN算法可以明显提高KNN算法的效率,PKNN算法的原理决定其适合大容量高维文本分类.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号