首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

2.
冯骥  张程  朱庆生 《计算机科学》2017,44(12):194-201
传统的最近邻居算法主要分为k-最近邻居和逆最近邻居,然而二者均在邻域参数选择问题中饱受困扰。在这两种思想的基础上,提出 一种具有动态邻域特点的最近邻居算法——自然邻居,并围绕其概念与特性形成了一套有效的方法。该算法从根本上克服了传统最近邻居思想在任意形状(如流型)数据集中参数选择的难题,摆脱了传统方法的参数依赖,并且取得了极佳的效果。自然邻居思想具有完善的理论模型和详细的实现算法,并且经验证其具有很强的鲁棒性和适应性。  相似文献   

3.
赵鹏  王友仁  崔江  罗慧 《信息与控制》2010,39(5):574-580
提出了一种基于免疫记忆网络理论与$k$近邻算法的模拟电路故障诊断方法。首先,利用免疫记忆网络寻找各故障空间的最佳记忆抗体。在免疫记忆网络中根据浓度来选择记忆抗体,以促进记忆抗体在各故障空间的均匀分布。利用克隆和超级变异机制来保证抗体多样性,再利用浓度和期望值对抗体进行促进和抑制,以避免早熟现象的产生;然后,根据所得到的各故障空间的最佳记忆抗体,使用改进的阈值k近邻算法对抗原进行故障分类;最后,以带通滤波器为诊断实例,利用实际电路测试数据和仿真数据作为测试样本进行故障诊断性能评估;实验结果证明该故障诊断方法具有较高的故障诊断率。  相似文献   

4.
本文通过研究KNN(K-最近邻)算法在疾病预测领域的使用与分析,总结出KNN的2点不足,针对不足进行相应改进并提出F_KNN(循环最近邻搜索)算法:1)针对KNN计算量大、效率低下的缺点,本文采用FLANN(快速最近邻搜索)循环搜索与待测样本距离最近的点,记录若干个最近邻点作为最近邻点子集,利用此子集取代全集对待测样本进行计算,可以降低计算量,极大地提高了KNN算法效率;2)针对KNN难以对高维数据集分类的缺点,本文采用AHP(层次分析法)对样本的特征属性进行相关性研究,使用合适的参数分配权重,提高了KNN算法准确率。本文采用一组脑中风数据集对优化后的算法进行实验,实验结果表明,F_KNN准确率达96.2%。与传统KNN相比,F_KNN提高了分类性能且极大地提高了算法效率。在处理高维且较大的数据集时,F_KNN算法优势明显,具有较好的应用前景。  相似文献   

5.
K-近邻算法的改进及实现   总被引:1,自引:0,他引:1  
利用k-近邻算法进行分类时。如果属性集包含不相关属性或弱相关属性,那么分类精度将会降低。研究了k-近邻分类器,分析了k-近邻分类器的缺点,提出了一种利用随机属性子集组合k近邻分类器的算法。通过随机的属性子集组合多个k近邻分类器,利用简单的投票,对多个k-近邻分类器的输出进行组合,这样可有效地改进k-近邻分类器的精度。  相似文献   

6.
针对伪近邻分类算法(LMPNN)对异常点和噪声点仍然敏感的问题,提出了一种基于双向选择的伪近邻算法(BS-PNN)。利用邻近性度量选取[k]个最近邻,让测试样本和近邻样本通过互近邻定义进行双向选择;通过计算每类中互近邻的个数及其局部均值的加权距离,从而得到测试样本到伪近邻的欧氏距离;利用改进的类可信度作为投票度量方式,对测试样本进行分类。BS-PNN算法在处理复杂的分类任务时,具有能够准确识别噪声点,降低近邻个数[k]的敏感性,提高分类精度等优势。在UCI和KEEL的15个实际数据集上进行仿真实验,并与KNN、WKNN、LMKNN、PNN、LMPNN、DNN算法以及P-KNN算法进行比较,实验结果表明,基于双向选择的伪近邻算法的分类性能明显优于其他几种近邻分类算法。  相似文献   

7.
k近邻学习器将复杂的全局非线性关系映射为大量局部线性关系的组合,具有易解释、易扩展、抗噪能力强等优点,被广泛应用于说话人识别领域并取得了良好的效果。而集成学习算法因其强泛化能力和易于应用的特性得到了许多领域研究者的关注,但是研究表明通过重采样产生训练集差异的集成算法并不能有效地提高k近邻学习器系统的泛化能力。提出了一种新的BagWithProb采样算法产生训练集。实验表明,该算法可以有效地扩展训练集差异,提高集成系统性能。此外,还提出了基于环域分层采样的算法以加快k近邻识别算法在识别阶段的运算速度。  相似文献   

8.
针对动态背景下运动目标检测过程中对检测算法实时性和鲁棒性的要求,提出了一种基于二进制鲁棒不变尺度特征(BRISK)的运动目标检测算法.通过改进的BRISK算法检测特征点;为了保证匹配精度和速度,采用K最近邻(KNN)算法进行特征点匹配;运用基于随机抽样一致性(RANSAC)的全局运动参数估计法获取最优全局运动参数;采用帧间差分法进行运动目标检测.实验结果表明:改进的BRISK算法减少了49.8%的特征点数目,KNN算法去除了85.9%的特征点对;在各种场景下能够准确地检测出运动目标,与以往算法相比检测效果较好.  相似文献   

9.
基于向量投影的KNN文本分类算法   总被引:2,自引:0,他引:2  
针对KNN算法分类时间过长的缺点,分析了提高分类效率的方法.在KNN算法基础上,结合向量投影理论以及iDistance索引结构,提出了一种改进的KNN算法--PKNN.该算法通过比较待分类样本和训练样本的一维投影距离,获得最有可能的临近样本点,减小了参与计算的训练样本数,因此可以减少每次分类的计算量.实验结果表明,PKNN算法可以明显提高KNN算法的效率,PKNN算法的原理决定其适合大容量高维文本分类.  相似文献   

10.
王颖  杨余旺 《计算机科学》2018,45(5):196-200, 227
在谱聚类算法中,相似图的构造至关重要,对整个算法的聚类结果和运行效率都有着巨大影响。为了加快谱聚类的运算速度和通过近邻截断提高其性能,通常选择K近邻(KNN)方法来构造稀疏的相似图,而K近邻图对离群点非常敏感,这种噪声边会严重影响聚类算法的性能。文中提出了一种新的高效稀疏亲和图构造方法HCKNN,其中基于堆的K近邻搜索比基于排序的近邻选择在效率方面提升了log(n),基于邻域共存累计的阈值化来进行邻域约减不仅能够去除噪声边以提高聚类性能,还能进一步稀疏化相似矩阵,从而加速谱聚类中的特征分解。  相似文献   

11.
K nearest neighbor and Bayesian methods are effective methods of machine learning. Expectation maximization is an effective Bayesian classifier. In this work a data elimination approach is proposed to improve data clustering. The proposed method is based on hybridization of k nearest neighbor and expectation maximization algorithms. The k nearest neighbor algorithm is considered as the preprocessor for expectation maximization algorithm to reduce the amount of training data making it difficult to learn. The suggested method is tested on well-known machine learning data sets iris, wine, breast cancer, glass and yeast. Simulations are done in MATLAB environment and performance results are concluded.  相似文献   

12.
一种基于加权KNN的大数据集下离群检测算法   总被引:3,自引:1,他引:2  
王茜  杨正宽 《计算机科学》2011,38(10):177-180
传统KNN算法是在基于距离的离群检测算法的基础上提出的一种在大数据集下进行离群点挖掘的算法, 然而KNN算法只以最近的第k个部居的距离作为判断是否是离群点的标准有时也失准确性。给出了一种在大数据 集下基于KNN的离群点检测算法,即在传统KNN方法的基础上为每个数据点增加了权重,权重值为与最近的k个 邻居的平均距离,离群点为那些与第k个部居的距离最大且相同条件下权重最大的点。算法能提高离群点检测的准 确性,通过实验验证了算法的可行性,并与传统KNN算法的性能进行了对比。  相似文献   

13.
天气受到多种因素综合影响,具有时变性和不确定性,单一模型难以获得较高的识别正确率,为此,提出一种改进K近邻和支持向量机相融合的天气识别模型(IKNN-SVM)。首先计算待识别样本与超平面间距离,然后将距离与预设阈值进行比较,如果大于阈值,则采用支持向量机对天气进行识别,否则利用K近邻算法对天气进行识别,并引入样本密度对K近邻算法进行改进,最后采用仿真实验对模型性能进行测试。仿真结果表明,相对于单一的KNN或SVM,IKNN-SVM提高了天气识别正确率,较好地克服单一模型存在的缺陷。  相似文献   

14.
稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出[k]近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,[k]近邻及距离信息,在稀疏子空间模型上,添加[k]近邻约束项。添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性。在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS上的聚类实验表明提出的算法具有良好的性能。  相似文献   

15.
针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围[k]个近邻样本成为已标注候选集。这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构。同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。  相似文献   

16.
徐政  邓安生  曲衍鹏 《计算机应用研究》2021,38(5):1355-1359,1364
针对传统的K近邻算法在计算样本之间相似度时将每个属性视为同等重要的问题,提出了一种基于推土机距离的方法来计算每个条件属性的权重。首先根据近邻关系划分用于比较一致性的两个分布;之后根据推土机距离设计不一致性评价函数,用于衡量每个属性下各个样本的近邻样本集与这一集合由决策属性细化的等价划分之间的不一致性程度;最后将近邻的不一致性程度转换为相应属性的重要性,用于实现属性加权K近邻分类器。通过在多个数据集上进行实验,该方法对参数的敏感程度低,在多个参数下可以显著提高K近邻的分类精度,并且在多个指标下的表现优于现有的一些分类方法。结果表明,该方法可以通过属性加权选择出更加准确的近邻样本,可广泛应用于基于近邻的机器学习方法中。  相似文献   

17.
面向视频序列表情分类的LSVM算法   总被引:1,自引:0,他引:1  
为了提高基于视频序列的表情识别精度,在KNN-SVM算法的基础上提出局部SVM分类机制,并将其用于视频序列中的表情分类.对于一个待分类的几何特征样本,首先在训练集中寻找该样本的k个近邻样本,然后根据这k个近邻样本和待分类样本的相似度信息,重新构建局部最优的SVM分类决策超平面,用来对该几何特征样本进行分类.在Cohn-Kanade数据库中的对比实验表明,该分类器有效地提高了表情分类的精度.  相似文献   

18.
The paper introduces a novel adaptive local hyperplane (ALH) classifier and it shows its superior performance in the face recognition tasks. Four different feature extraction methods (2DPCA, (2D)2PCA, 2DLDA and (2D)2LDA) have been used in combination with five classifiers (K-nearest neighbor (KNN), support vector machine (SVM), nearest feature line (NFL), nearest neighbor line (NNL) and ALH). All the classifiers and feature extraction methods have been applied to the renown benchmarking face databases—the Cambridge ORL database and the Yale database and the ALH classifier with a LDA based extractor outperforms all the other methods on them. The ALH algorithm on these two databases is very promising but more study on larger databases need yet to be done to show all the advantages of the proposed algorithm.  相似文献   

19.
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。  相似文献   

20.
支持向量机分类算法研究   总被引:4,自引:0,他引:4       下载免费PDF全文
支持向量机在处理两类分类问题时,当两类样本混杂严重时会降低分类精度。在NN-SVM分类算法的基础上,通过计算样本点与其最近邻点类别的异同以及该点与其k个同类近邻点在核空间的平均距离修剪混淆点,进而提出了一种改进的NN-SVM算法——KCNN-SVM。实验数据表明,KCNN-SVM算法与SVM以及NN-SVM相比,有着更高的分类精度和更快的训练、分类时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号