首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
互k最近邻算法(mKnnc)是k最近邻分类算法(Knn)的一种改进算法,该算法用互k最近邻原则对训练样本以及k最近邻进行噪声消除,从而提高算法的分类效果。然而在利用互k最近邻原则进行噪声消除时,并没有将类别属性考虑进去,因此有可能把真实有效的数据当成噪声消除掉,从而影响分类效果。基于类别子空间距离加权的互k最近邻算法考虑到近邻的距离权重,既能消除冗余或无用属性对最近邻分类算法依赖的相似性度量的影响,又能较好地消除邻居中的噪声点。最后在UCI公共数据集上的实验结果验证了该算法的有效性。  相似文献   

2.
模糊k近质心近邻算法(FKNCN)的分类结果易受噪声点和离群点影响,并且算法对所有样本特征同等对待,不能体现样本特征的差异性。针对这两个问题,提出基于隶属度的模糊加权k近质心近邻算法MRFKNCN。利用密度聚类思想构造新的隶属度函数计算训练样本的隶属度,以减小噪声或离群样本对分类结果的影响。在此基础上,设计基于冗余分析的Relief-F算法计算每个特征的权重,删去较小权重所对应的特征和冗余特征,并通过加权欧氏距离选取有代表性的k个近质心近邻,提高分类性能。最终,根据最大隶属度原则确定待分类样本的类别。利用UCI和KEEL中的多个数据集对MRFKNCN算法进行测试,并与KNN、KNCN、LMKNCN、FKNN、FKNCN2和BMFKNCN算法进行比较。实验结果表明,MRFKNCN算法的分类性能明显优于其他6个对比算法,平均准确率最高可提升4.68个百分点。  相似文献   

3.
针对局部均值伪近邻(LMPNN)算法对k值敏感且忽略了每个属性对分类结果的不同影响等问题,提出了一种参数独立的加权局部均值伪近邻分类(PIW-LMPNN)算法。首先,利用差分进化算法的最新变体——基于成功历史记录的自适应参数差分进化(SHADE)算法对训练集样本进行优化,从而得到最佳k值和一组与类别相关的最佳权重;其次,计算样本间的距离时赋予每类的每个属性不同的权重,并对测试集样本进行分类。在15个实际数据集上进行了仿真实验,并把所提算法与其他8种分类算法进行了比较,实验结果表明,所提算法的分类准确率和F1值分别最大提高了约28个百分点和23.1个百分点;同时Wilcoxon符号秩检验、Friedman秩方差检验以及Hollander-Wolfe两处理的比较结果表明,所提出的改进算法在分类精度以及k值选择方面相较其他8种分类算法具有明显优势。  相似文献   

4.
肖辉辉  段艳明 《计算机科学》2013,40(Z11):157-159,187
样本距离机制的定义直接影响到KNN算法的准确性和效率。针对传统KNN算法在距离的定义及类别决定上的不足,提出了利用属性值对类别的重要性进行改进的KNN算法(FCD-KNN)。首先定义两个样本间的距离为属性值的相关距离,此距离有效度量了样本间的相似度。再根据此距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。理论分析及仿真实验结果表明,FCD-KNN算法较传统KNN及距离加权-KNN的分类准确性要高。  相似文献   

5.
基于属性值信息熵的KNN改进算法   总被引:3,自引:0,他引:3       下载免费PDF全文
为了克服传统KNN算法,距离加权-KNN算法在距离定义及投票方式上的不足,提出了一种基于属性值对类别重要性的改进算法Entropy-KNN。首先定义两个样本间的距离为相同属性值的平均信息熵,此距离可通过重要属性值有效度量样本之间的相似程度,其次算法Entropy-KNN根据上述定义的距离选取与待测试样本距离最小的K个近邻,最后根据各类近邻样本点的平均距离及个数判断待测试样本的类别。在蘑菇数据集上的实验表明,Entropy-KNN算法的分类准确率高于传统KNN算法和距离加权KNN算法。  相似文献   

6.
针对最近邻分类算法性能受到所采用的相似度或距离度量方法影响大,且难以选择最优的相似度或距离度量方法的问题,提出一种采用多相似度的基于有序规范实数对的K最近邻分类算法(OPNs-KNN)。首先,在机器学习领域中引入有序规范实数对(OPN)这一新的数学理论,利用多种相似度或距离度量方法将训练集和测试集中所有样本全部转换为OPN,使每个OPN均包含不同的相似度信息;然后再通过改进的最近邻算法对OPN进行分类,实现不同相似度或距离度量方法的结合与互补,从而提高分类性能。实验结果表明,在Iris、seeds等数据集上与距离加权K近邻规则(WKNN)等6种最近邻分类的改进算法相比,OPNs-KNN的分类准确率提高了0.29~15.28个百分点,验证了所提算法能大幅提升分类的性能。  相似文献   

7.
基于余弦距离度量学习的伪K近邻文本分类算法   总被引:2,自引:0,他引:2  
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN.考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度.  相似文献   

8.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

9.
提出了一种基于平均距离的K-近邻分类改进算法,克服了K-近邻分类算法准确率不高的两个问题:一是各个类别的近邻个数相同时则无法判断测试样本的类别;二是即使某一类别的近邻个数较多,但由于此类别的近邻样本与测试样本的相似度都比较小,则有可能把测试样本错误地判断为此类别。  相似文献   

10.
壳近邻分类算法克服了k近邻分类在近邻选择上可能存在偏好的问题,使得在大数据集上的分类效果优于k近邻分类,为了进一步提高壳近邻算法的分类性能,提出了基于Relief特征加权的壳近邻分类算法.该算法在Relief算法的基础上求解训练集的特征权值,并利用特征权值来改进算法的距离度量方法和投票机制.实验结果表明,该算法在小数据和大数据上的分类性能都优于k近邻和壳近邻分类算法.  相似文献   

11.
不平衡数据问题对传统的近邻分类器带来了很大的挑战,它的准则函数往往会使测试样本类别偏向于多数类,且参数对数据集有很强的依赖性。基于万有引力的固定半径近邻分类器(GFRNN)算法通过引入万有引力定律的思想,实现了一个针对不平衡数据的无参、高效的分类器,但GFRNN算法仅采用欧氏距离方法来计算半径和候选集。因此,基于GFRNN算法,在算法构造层面上提出了一种多视角学习框架MGFRNN。考虑到距离计算的多样性及所对应候选集的不确定性,在距离的计算中,采用欧式距离、一范数距离和切比雪夫距离三种度量方法,根据三种距离度量方法分别计算候选集半径,并计算候选集中各类样本对测试样本的万有引力大小,从而进行分类。实验结果证明,所提MGFRNN算法在比较算法中具有最高的分类精确度。  相似文献   

12.
为解决密度聚类算法在处理高维和多密度数据集时聚类结果不精确的问题,提出一种基于共享近邻亲和度(SNNA)的聚类算法。该算法引入[k]近邻和共享近邻,定义共享近邻亲和度作为对象的局部密度度量。算法首先根据亲和度来提取核心点,然后利用广度优先搜索算法对核心点进行聚类,最后对非核心点进行指派即完成整个数据集的聚类。实验结果表明,该算法能够发现任意形状、大小、密度的聚类;与同类算法相比,SNNA算法在处理高维数据时具有较高的聚类准确率。  相似文献   

13.
现有的基于近邻的协同过滤推荐方法如基于KNN、基于K-means的协同过滤推荐常用来预测用户评分,但该方法确定邻居个数K非常困难且推荐准确率不高,难以达到理想推荐效果。从选择邻居用户这一角度出发,提出一种融合用户自然最近邻的协同过滤推荐算法(Collaborative Filtering recommendation integrating user-centric Natural Nearest Neighbor,CF3N),该算法首先自适应地寻找目标用户的自然最近邻居集,再融合目标用户的自然最近邻居集与活动近邻用户集,使用融合后得到的邻居集合预测目标用户评分。实验使用了MovieLens数据集,以RMSE和MAE为评测标准,比较CF3N、CF-KNN与INS-CF算法,结果显示在电影领域该算法的推荐准确率有显著提高。  相似文献   

14.
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻可能存在噪声,提出一种新的缺失值填充算法——相互k最近邻填充算法MkNNI(Mutualk-NearestNeighborImputa—tion)。用于填充缺失值的数据,不仅是缺失数据的k最近邻,而且它的k最近邻也包含该缺失数据.从而有效地防止kNNI算法选取的k个最近邻点可能存在噪声这一情况。实验结果表明.MkNNI算法的填充准确性总体上要优于kNNI算法。  相似文献   

15.
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。  相似文献   

16.
提出一种基于平面线段的反向最近邻查询方法,用于找出线段集中以查询线段作为最近邻的线段。通过构造线段集的Voronoi图处理不相交的线段。根据其邻接特性和局部特性,给出基于Voronoi图的线段反向最近邻查询算法及相关定理和证明。实验结果表明,反向最近邻方法易于找到相交的线段,具有较高的查询效率。  相似文献   

17.
l1范数作为重要的距离测度,在模式识别中有着较为广泛的应用。在不同的范数定义下,相同分类机理的分类算法一般会有不同的分类效果。本文提出l1范数下的最近邻凸包人脸识别算法。该算法将最近邻凸包分类算法的范数定义由l2范数推广到l1范数,以测试点到各训练类凸包的l2范数距离作为最近邻分类的相似性度量。在ORL标准人脸数据库上的验证实验中,该方法取得了良好的识别效果。  相似文献   

18.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号