首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
局部离群点检测是近年来数据挖掘领域的热点问题之一.针对交通数据去噪问题,提出一种基于局部估计密度的局部离群点检测算法,算法使用核密度估计方法计算每个数据对象的密度估计值,来表示该数据对象的局部估计密度,并在核函数的带宽函数计算中引入数据对象的k-邻域平均距离作为其邻域信息,然后利用求出的局部估计密度计算数据对象的局部离群因子,依据局部离群因子的大小来判断数据对象是否为离群点.实验表明,该算法在UCI标准数据集与模拟数据集上都可以取得较好的表现.  相似文献   

2.
罗剑 《计算机工程》2011,37(17):46-48,60
将面向大规模数据集的基于网格重心的分箱核密度估计理论扩展到数据流应用领域,在引入密度衰减技术的基础上,指出对于演化数据流以网格重心取代网格离散数据点集合的分箱核密度估计方法的近似误差是可控的,由此构造多维演化数据流核密度估计算法。实验结果表明,该方法在保持足够计算精度的同时能够精确捕获数据流的实时演化行为。  相似文献   

3.
提出一种基于离散点Delaunay三角网快速构建的网格生长算法,采用分治算法将离散点表达为唯一网格,利用稀疏矩阵完成网格数据的压缩存储,通过标识码实现有值单元格与离散点之间的高效检索,从而提高网格构建的效率。依据有值单元格的密度获取预设正方形搜索空间,并在三角网扩展时根据需要动态建立正方形搜索空间,从而保证网格生长的准确性。实验结果表明,该算法的时间复杂度为O(nlogn),对于少量或海量离散点均具有较好的适应性。  相似文献   

4.
目前的可视化应用不管动态还是静态可视化,已经存在二维图形展示和点密度展示几种形式,而点密度已经成为作为体现密度特征的最有力手段。但目前的一般手段都只是简单的在特定区域内实现随即点的输出。由于数据本身的密度属性与其所属区域存在内在属性关联,本文在前期通过密度处理分析进行聚类,将数据集进行归类划分后在对应区域进行判断输出实现可视化,实验证明具有更符合区域特征的可视化效果,并且时间和空间复杂度明显小于直接进行点密度可视化输出的算法。  相似文献   

5.
针对目前基于核密度估计的去噪算法在核函数参数的选取上未能充分体现散乱点云数据的表面特征,提出一种改进的去噪算法。以当前点法向量与其邻域内点的法向量构造的差向量作为核函数的参数,引入面积权重进行光顺,通过构造空间单元格的最大连通域剔除离群点,结合K-近邻搜索建立点云之间的拓扑关系,以改进的高斯函数作为核函数计算当前点的影响值。实验结果表明,该算法在有效去除表面噪声和离群点的同时,能够较好保留模型的细节特征。  相似文献   

6.
超像素是近年来快速发展的一种图像预处理技术,被广泛应用于计算机视觉领域。简单线性迭代聚类(simple linear iterative clustering,SLIC)算法是其中的一种图像预处理技术框架,该算法根据像素的颜色和距离特征进行聚类来实现良好的分割结果。然而,SLIC算法尚存在一些问题。基于优化加权核K-means聚类初始中心点,提出一种新的SLIC算法(WKK-SLIC算法)。算法基于图像像素之间的颜色相似性和空间相似性度量,采用超像素分割的归一化割公式,使用核函数来近似相似性度量。算法将像素值和坐标映射到高维特征空间中,通过对该特征空间中的每个点赋予适当的权重,使加权K均值和归一化割的目标函数的优化在数学上等价。从而通过在所提出的特征空间中迭代地应用简单的K-means聚类来优化归一化割的目标函数。在WKK-SLIC算法中,采用密度敏感的相似性度量计算空间像素点的密度,启发式地生成K-means聚类的初始中心以达到稳定的聚类结果。实验结果表明,WKK-SLIC算法在评估超像素分割的几个标准上优于SLIC算法。  相似文献   

7.
基于自适应带宽的快速动态高斯核均值漂移算法   总被引:1,自引:0,他引:1  
由核密度估计推导获得的高斯核均值漂移算法因收敛速度慢在应用中效率不高.本文提出基于自适应带宽的动态更新改进方法.首先采用空间离散方法对数据集化简,然后引入动态更新机制,每次迭代后将数据集更新到均值点,并将聚集在一起的数据点用一个收敛点表示,同时根据数据集直径的变化,自适应地计算各向异性的带宽参数.实验表明,该方法提高了算法的收敛速度,降低了计算复杂度.  相似文献   

8.
基于核密度估计的分布数据流离群点检测   总被引:3,自引:1,他引:2  
基于数据流数据的挖掘算法研究受到了越来越多的重视.针对分布式数据流环境,提出基于核密度估计的分布数据流离群点检测算法.算法将各分布节点上的数据流作为全局数据流的子集,通过分布节点与中心节点的通信,维护基于全局数据流的分布密度估计.各分布节点基于该估计对其上的分布数据流进行离群点检测,从而得到基于全局数据流的离群点集合.对节点之间的交互以及离群点检测算法的细节进行了讨论.通过实验验证了算法的适用性和有效性.  相似文献   

9.
为解决现有密度聚类算法中参数设置依赖经验、复杂密度环境下聚类精度不高等问题,提出了基于簇间最大密度连通点进行密度簇分割与合并的模糊聚类方法。基于高斯混合模型计算数据点密度,形成高维离散密度空间,通过低精度网格连续数据空间,结合插值算法赋予空白网格相应密度,构建连续高维密度空间。对数据点按密度排序后,利用能否从大于当前密度的点集中连续可达识别密度极大值点,再以密度序实现极大值点的邻域扩张,以扩张矛盾实现稀疏交界处最大密度连通点识别、密度簇分割。最后基于最大密度连通点计算密度簇间隶属度,设定隶属度阈值,实现相关邻簇的合并,完成聚类。通过与多种密度聚类算法进行仿真对比验证,该算法大大降低了经验参数的依赖性,具有全局统一的合并隶属度,提升了多密度下的类识别能力。  相似文献   

10.
针对智能穿戴设备普及背景下,利用运动手环采集的活动数据存在未知异常数据的问题,提出一种基于高斯核密度估计的健康数据异常值检测方法。首先采用t-分布邻域嵌入算法对数据集进行特征提取,增强数据局部结构能力;接着利用高斯核局部密度代替局部异常因子算法中的局部可达密度,提出基于高斯核密度估计离群因子(GKDELOF)算法,推导分析了该算法判断阈值的稳定性;最后在UCI标准数据集上进行仿真实验,验证算法的准确性,并在选取的真实运动手环所采集的活动数据集上进行实验分析。实验结果表明,该方法能够解决由活动复杂多样性造成的健康数据稀疏问题,准确检测出异常值。  相似文献   

11.
董晓君  程春玲 《计算机科学》2018,45(11):244-248
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。  相似文献   

12.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

13.
为了有效获取散乱点云中的尖锐特征点和边界特征点,提出一种利用多判据融合的特征点提取算法。首先利用一种改进的k-d tree构建点云拓扑,搜索样点的K局部邻域;然后利用法向夹角判定准则、核密度判定准则、场力和判定准则分别求取各个样点局部邻域的三个特征参数,最后通过加权计算特征参数得到每个样点的特征值与全局判定阈值,特征值比阈值大的点即为特征点。实验证明,该算法能有效的获取散乱点云中边沿特征点与尖锐特征点。  相似文献   

14.
密度峰值聚类(DPC)是一种基于局部密度的聚类方法,在DPC中影响算法的效果的两个基本因素是局部密度定义和类中心选择。针对经典DPC在定义局部密度时没有考虑到邻域内样本点的分布情况,以及无法自动选择类中心等问题,提出一种基于分布的局部密度定义和基于最大类间差法的自动类中心选择策略。计算每个样本点截断距离圆圈内的数据点个数,同时考虑数据点的分布情况。当圈内具有相同的点个数时,如果圆圈内的数据点分布越均匀,该点的局部密度就越大,密度峰值的可能性越高。通过最大类间差法(Otsu)自动选择阈值找出类中心。实验结果表明,新算法不仅能够自动选择聚类中心,而且相比已有原算法能获得更高分类准确度。  相似文献   

15.
针对粗糙点云在植物模型重建过程中遇到的噪点多、边缘粘合等问题,提出一种基于有限细节的多密度点云重建算法。首先利用Kinect采集到的深度和颜色信息提取出植物叶片点云,并通过颜色信息对原始点云进行稀疏处理,分离开粘合部位,得到理想的点云;然后基于人眼视觉识别的局限性提出了一种有限细节多密度点云重建算法,与传统的网格重建不同,其以点代面通过不断细化点的密度来产生视觉误差上的模糊曲面。实验证明,所提算法的重建效果和速度在一定程度上优于网格重建的。  相似文献   

16.
异常检测是数据挖掘中的一个重要研究方向,当前大多数基于密度的异常检测算法常常基于样本分布假设,敏感于近邻参数[k]并且缺乏对集体异常点的检测能力。针对这些问题,提出了一种基于核密度估计的核密度波动算法。定义了可以综合评估数据点邻域内和邻域外核密度值波动的核密度波动因子,将其作为检测指标,并制定检测规则来识别异常点,这一指标可以综合考虑数据点的局部特征和全局特征,而且有助于发现集体异常。数据集上的实验结果表明,所提算法可以取得更好的检测结果,同时对算法参数具有相当的鲁棒性。  相似文献   

17.
在谱聚类算法没有先验信息的情况下,对于具有复杂形状和不同密度变化的数据集很难构建合适的相似图,且基于欧氏距离的高斯核函数的相似性度量忽略了全局一致性。针对该问题,提出一种基于共享最近邻的密度自适应邻域谱聚类算法(SC-DANSN)。通过一种无参数的密度自适应邻域构建方法构建无向图,将共享最近邻作为衡量样本之间的相似性度量进而消除参数对构建相似图的影响,体现全局和局部的一致性。实验结果表明,SC-DANSN算法相比K-means算法和基于K最近邻的谱聚类算法(SC-KNN)具有更高的聚类精度,同时相比SC-KNN算法对参数的选取敏感性更低。  相似文献   

18.
针对DBSCAN算法中最小点数和最大邻域半径难以确定,算法时间开销大,对起始数据点的选择比较敏感,以及难以发现不同密度下的邻近簇等问题,本文提出一种基于扩展区域查询的密度聚类算法(GISN-DBSCAN)。该方法首先提出扩展区域查询算法,随后采用最近邻域和反最近邻域的邻域关系,建立每个点的k-影响空间域,最后提出一种异常点判定函数,使得算法能够准确的识别边界点和噪声点。实验结果表明:GISN-DBSCAN算法能够有效的解决DBSCAN算法的不足。  相似文献   

19.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号