首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 406 毫秒
1.
基于小样本集弱学习规则的KNN分类算法*   总被引:2,自引:0,他引:2  
KNN及其改进算法使用类标号已知的数据集 对类标号未知的数据集 进行类别标识,如果 中的数据数量过少,将会影响最后的分类精度。基于小样本弱学习规则的KNN分类算法旨在提高基于小样本集的KNN算法的分类精度,它首先对 中的数据对象进行学习,从中选取一些数据,利用学到的标签知识对其进行类别标号,然后将其加入到 中,最后利用扩展后的 对 中的数据对象进行类别标识。通过使用标准数据集的测试发现该算法能够提高KNN的分类精度,取得了较满意的结果。  相似文献   

2.
针对当前异常检测方法面临的分类性能有限以及分类结果易受噪声影响等问题,在分析当前异常检测方法的基础上,提出模糊大间隔最小超球模型FMHM。该模型引入模糊理论,在一定程度上减少噪声对分类结果的影响;正常样本与奇异样本之间的间隔最大化确保错分率最小。标准UCI数据集上的比较实验表明,较之单类支持向量机OCSVM、支持向量数据描述SVDD、K近邻KNN等算法,本文所提方法FMHM在异常检测方面具有一定优势。  相似文献   

3.
基于密度的离群噪声点检测   总被引:1,自引:0,他引:1  
张毅  刘旭敏  关永 《计算机应用》2010,30(3):802-805
针对三维扫描仪获取的带噪声和离群点的点云数据,提出了基于局部离群点概念的去噪算法。通过k-近邻(KNN)搜索建立散乱点之间的拓扑关系,进而计算当前测点的局部离群因子以衡量该点的离群程度,从而限制噪声并剔除离群点。重点解决了高密度扫描点云周围分布的低密度离群噪声点的识别问题。实验结果证明,该算法能有效检测出紧挨模型边界的噪声点,并最大限度地保持模型边界。  相似文献   

4.
KNN是常用有效的分类算法,在数据分类及故障诊断中有很多的应用,同时KNN也被应用于缺失数据的补值算法中。传统的KNN方法通过计算数据点之间的欧式距离并排序,得到K个距离最近的点,通过K个点的数值对缺失值进行补值计算。但在此过程中,距离的计算受到变量数据分布的特点及不同变量数据分布不一致等的影响,从而影响补值结果。本论文提出了一种基于次序的KNN计算方法 KNNOI(KNN based on Order Imputation),通过对变量进行排序,应用变量的排序序号差计算数据点的距离,代替原来的距离计算方法。将此算法应用于数据补值,研究了排序方式及参数的选择对补值的影响,与传统的KNN算法进行了比较。实验结果表明,基于排序的算法补值得到的结果要优于传统的KNN方法。  相似文献   

5.
基于模糊支持向量机的多分类算法研究   总被引:1,自引:1,他引:0  
张钊  费一楠  宋麟  王锁柱 《计算机应用》2008,28(7):1681-1683
针对支持向量机理论中的多分类问题以及SVM对噪声数据的敏感性问题,提出了一种基于二叉树的模糊支持向量机多分类算法。该算法是在基于二叉树的支持向量机多分类算法的基础上引入模糊隶属度函数,根据每个样本数据对分类结果的不同影响,通过基于KNN的模糊隶属度的度量方法计算出相应的值,由此得到不同的惩罚值,这样在构造分类超平面时,就可以忽略对分类结果不重要的数据。通过实验证明,该算法有较好的抗干扰能力和分类效果。  相似文献   

6.
预测股票涨跌是机器学习分类算法的重要应用场景之一,根据以往实践中的经验,不同种类的股票由于数据特征不同,所以需要用携带不同参数的KNN分类模型来预测。用基于交叉熵的损失函数据训练KNN模型,以此确定KNN模型关键参数的做法,在此基础上给出能根据不同股票数据动态调整KNN算法关键参数的预测股票涨跌的模型。实践表明,这个模型在预测数据特征不同的股票涨跌情况时,均能表现出较高的准确性。  相似文献   

7.
考虑风力对城市空气质量指数(AQI)的重要影响,基于KNN算法提出一种新的模型对城市AQI进行预测。该模型主要依赖于数据间的局部相似性和依赖性,再将风力因素对城市AQI的影响进行量化并加入到KNN预测结果中,得到最终预测结果。实验对九个重点城市进行AQI预测,结果表明,该模型相较传统KNN方法预测得到的AQI值,准确率大幅度提升,对城市AQI的预测具有指导意义。  相似文献   

8.
基于KNN模型的增量学习算法   总被引:4,自引:0,他引:4  
KNN模型是公式但其属于非增量学习算法,从而限制它在一些应用领域的推广。文中提出一个基于KNN模型的增量学习算法,它通过对模型簇引进“层”的概念,对新增数据建立不同“层”的模型簇的方式对原有模型进行优化,达到增量学习的效果。实验结果验证该方法的有效性。  相似文献   

9.
K最近邻(KNN)算法作为目前使用最广泛的有监督分类算法,在大规模、多维度数据的处理方面往往是低效的,因此提出了一种适用于高维度大数据量处理的改进KNN算法.首先采用深度神经网络(DNN)作为特征提取器并进行降维,以学习到最合适的深度特征表示形式;然后通过密度Canopy算法获取到合适的集群数和初始聚类中心,成为之后K-means聚类的输入参数;最后对学习到的数据进行聚类,并采用近似相似性搜索(ASS)中的Hashing策略按其近似相似度进行集群划分,将结果作为KNN分类器的新训练样本.考虑到要查询的最近邻样本可能落在不同集群之中,导致KNN搜索的性能下降,在聚类时额外采用了一种聚类增强策略,有效缓解了这种情况的发生.使用五个不同的数据集进行对比测试,结果表明:与实验对比的算法相比,该算法不仅能够极大地提高KNN的分类精度,而且有效地提升了算法的分类效率,减少了搜索所需的距离数,对噪声数据还具有良好的鲁棒性.  相似文献   

10.
《信息与电脑》2019,(17):20-22
KNN是比较成熟的分类算法,关于KNN手写数字识别的分类应用实战很多都是基于sklearn提供的手写数字识别数据集traningDigits。笔者结合KNN算法原理用Python实现其手写数字识别的算法过程,并支持用户用拍照、绘图软件手写数字,方法就是将图片处理成sklearn提供的数据集格式,然后作为测试样本应用在分类模型中进行预测,经过运行验证算法分类效果良好。  相似文献   

11.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

12.
针对模糊C均值(Fuzzy C-Means,FCM)聚类算法对初始聚类中心和噪声敏感、对边界样本聚类不够准确且易收敛于局部极小值等问题,提出了一种K邻近(KNN)优化的密度峰值(DPC)算法和FCM相结合的融合聚类算法(KDPC-FCM)。算法利用样本的K近邻信息定义样本局部密度,快速准确搜索样本的密度峰值点样本作为初始类簇中心,改善FCM聚类算法存在的不足,从而达到优化FCM聚类算法效果的目的。在多个UCI数据集、单个人造数据集、多种基准数据集和Geolife项目中的6个较大规模数据集上的实验结果表明,改进后的新算法与传统FCM算法、DSFCM算法对比,有着更好的抗噪性、聚类效果和更快的全局收敛速度,证明了新算法的可行性和有效性。  相似文献   

13.
一种高效的K值自适应的SA-KNN算法   总被引:1,自引:0,他引:1  
传统的K近邻(KNN)分类算法在实际应用过程中存在一些缺陷:没有考虑去除噪声样本,也没有考虑到在样本数据空间变换过程中保持样本数据本身的流形学结构,并且没有使用样本间属性的相关性。为此,提出引入稀疏学习理论,利用训练样本重构测试样本的方法,重构过程使用了样本间的相关性,也用到局部保持投影LPP保持数据结构不变,同时引入l2,1范数用于去除噪声样本的方法来寻找投影变换矩阵W,进而利用W确定KNN算法中K值的SA-KNN算法。在UCI数据集上的仿真实验结果表明,该方法比传统的KNN分类算法和Entropy-KNN算法有更高的分类准确度。  相似文献   

14.
为提升贷款金融客户行为预测的准确性,针对传统的K-最近邻(KNN)算法在数据分析中处理非数值因素的不完备问题,提出了一种采用值差度量(VDM)距离的对聚类结果迭代优化的改进KNN算法。首先对收集到的数据信息进行基于VDM距离的KNN算法的聚类,再对聚类结果进行迭代分析,最后通过联合训练提高了预测精度。基于葡萄牙零售银行2008-2013年收集的客户数据比较可知,改进的KNN算法与传统的KNN算法、基于属性值相关距离的KNN改进(FCD-KNN)算法、高斯贝叶斯算法、Gradient Boosting等现有算法相比具有更好的性能和稳定性,在银行数据预测客户行为中具有很大的应用价值。  相似文献   

15.
在文本分类领域中,KNN与SVM算法都具有较高的分类准确率,但两者都有其内在的缺点,KNN算法会因为大量的训练样本而导致计算量过大;SVM算法对于噪声数据过于敏感,对分布在分类超平面附近的数据点无法进行准确的分类,基于此提出一种基于变精度粗糙集理论的混合分类算法,该算法能够充分利用二者的优势同时又能克服二者的弱点,最后通过实验证明混合算法能够有效改善计算复杂度与分类精度。  相似文献   

16.
KNN算法是一种简单、有效且易于实现的分类算法,可用于类域较大的分类。近年来对KNN算法的研究偏向于静态大数据集,不过,在越来越多的情况下要用KNN算法在线实时处理流数据。考虑到流式数据流量大,连续且快速,不易存储和恢复等特性,以及流处理系统Storm对流数据处理具有实时性、可靠性的特点,提出了基于Storm的流数据KNN分类算法,该算法首先对整个样本集进行划分,形成多个片集,然后计算出待分类向量在各片集上的[K]近邻,最后再将所有片集[K]近邻归约得出整体[K]近邻,实现待分类向量的分类。实验结果表明,基于Storm的流数据KNN分类算法能够满足大数据背景下对流数据分类的高吞吐量、可扩展性、实时性和准确性的要求。  相似文献   

17.
三维重建技术逐渐成为引水隧洞运营期安全检测的关键手段。而受隧洞特殊水文环境噪声、数据采集设备噪声以及载体运动噪声等影响,采集的点云数据不可避免的会遭受到噪声干扰,导致有用信息缺乏,不利于三维重建的进行。因此,该文提出了基于声呐数据特征点的点云去噪算法,实现隧洞点云数据的去噪。首先,该文依据引水隧洞声呐点云数据的特点,定义视觉距离和视角向量特征参数;其次,通过耦合视角向量与点云法向量估计点云漂移向量,并使用核函数方法估计视角距离参数的概率密度分布从而计算漂移距离;最后,采用漂移算法在保持点云模型特征的同时实现噪声的滤波。实验结果表明,该文提出的算法在去除隧洞点云模型数据噪声的同时能很好的保持引水隧洞模型的细节特征,为后续隧洞病害的检测提供高精度点云数据模型。  相似文献   

18.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

19.
在标注现实网络流量数据的过程中难免会造成标签错误标记的情况,导致标签数据不可避免地受到噪声污染,即样本的观测标签与真实标签存在差异。为降低噪声标签对分类器分类准确率的负面影响,考虑引入噪声的2种情况,即正确标签类型错误标记和标签类型错误拼写,并提出一种基于标签噪声纠正的网络流量分类方法,该方法利用聚类和权重划分来对观测样本进行评估和修复。在2个网络流量数据集上的实验结果表明,与3种标签噪声修复算法STC、CC和ADE相比,提出的修复算法在不同噪声比例干扰下对最终的分类结果都有一定的提升。在NSL-KDD数据集上,标签平均修复率分别提高23.00%,7.58%和2.05%左右;在MOORE数据集上,标签平均修复率分别提高35.12%,10.40%和471%左右,在最终分类模型上有较好的分类稳定性。  相似文献   

20.
李改  李磊 《自动化学报》2015,41(2):405-418
单类协同过滤(One-class collaborative filtering, OCCF)问题是当前的一大研究热点.之前的研究所提出的算法对噪声数据很敏感,因为训练数据中的噪声数据将给训练过程带来巨大影响,从而导致算法的不准确性.文中引入了Sigmoid成对损失函数和Fidelity成对损失函数,这两个函数具有很好的灵活性,能够和当前最流行的基于矩阵分解(Matrix factorization, MF)的协同过滤算法和基于最近邻(K-nearest neighbor, KNN)的协同过滤算法很好地融合在一起,进而提出了两个鲁棒的单类协同排序算法,解决了之前此类算法对噪声数据的敏感性问题.基于Bootstrap抽样的随机梯度下降法用于优化学习过程.在包含有大量噪声数据点的实际数据集上实验验证,本文提出的算法在各个评价指标下均优于当前最新的单类协同排序算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号