首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
提出了网格密度影响因子的概念,通过加权处理考虑了相邻网格的综合影响,能较好地代表当前网格相对密度,然后利用它来识别具有不同密度聚簇的高密度网格单元,并从高密度单元网格进行扩展,直至生成一个聚簇骨架,对边缘网格边界点进行识别和提取,提高网格聚类精度.通过实验验证,新算法能对不同大小与形状的聚簇进行聚类,可以识别具有多个密度的不同类组成的数据集,能捕获聚簇边界点,聚类效果较好.  相似文献   

2.
米源  杨燕  李天瑞 《计算机科学》2011,38(12):178-181
针对基于密度网格的数据流聚类算法中存在的缺陷进行改进,提出一种基于D-Strcam算法的改进算法NDD-Stream。算法通过统计网格单元的密度与簇的数目,动态确定网格单元的密度阂值;对位于簇边界的网格单元采用不均匀划分,以提高簇边界的聚类精度。合成与真实数据集上的实验结果表明,算法能够在数据流对象上取得良好的聚类质量。  相似文献   

3.
4.
5.
一种基于层次距离计算的聚类算法   总被引:6,自引:0,他引:6  
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algorithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果.  相似文献   

6.
聚类分析是数据挖掘技术中的一种重要方法,它广泛应用于模式识别、数据分析、图像处理、生物学、经济学等许多领域,已经成为研究品种的分类、起源和进化的重要手段。研究生物种群的遗传多样性,探讨种群间的亲缘关系及分类地位,对培养优质的良种具有重要的现实意义。文章将层次聚类方法应用于种群亲缘关系的研究,进行了实例分析,给出了聚类分析结果,构建出树状聚类图。  相似文献   

7.
传统的基于网格的数据流聚类算法在同一粒度的网格上进行聚类,虽然提高了处理速度,但聚类准确性较低。针对此问题,提出一种新的基于双层网格和密度的数据流聚类算法DBG Stream。在2种粒度的网格上对数据流进行聚类,并借鉴CluStream算法的思想,将聚类过程分为2个阶段。在线过程中利用粗粒度的网格单元形成初始聚类,离线过程中在细粒度网格单元上,对位于簇边界的网格单元进行二次聚类以提高聚类精度,并实现了关键参数的自动设置,通过删格策略提高算法效率。实验结果表明,DBG Stream算法的聚类精确度较D Stream算法有较大提高,有效解决了传统基于网格聚类算法的聚类精度较低的问题。  相似文献   

8.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

9.
针对确定聚类中心上对密度峰值和距离两个元素综合考虑上的不足,在确定聚类中心上对密度峰值和距离两个元素综合考虑并作出归一化的处理.在聚类中心的确定上与其他聚类算法有所不同.介绍了该算法的核心思想、实现及测试,得出了算法实现过程中体现出的结论.对实现的代码用4个数据集进行了实验和测试,并将该算法与经典的k-means算法进行了NMI对比分析.从而得出结论,文章的聚类算法拥有较好的聚类能力.  相似文献   

10.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

11.
数据流的网格密度聚类算法   总被引:3,自引:0,他引:3  
提出一种基于密度的实时数据流聚类算法RTCS.算法采用在线/离线双层框架,它在前台在线层快速实时地将到达的数据点放入相应的单元格,对多维数据和空间单元格动态计算密度.在后台离线层形成初始聚类,并不断地更新单元格的密度来自适应地调整聚类.RTCS算法能够根据密度的动态变化区分出真正的孤立点并剔除之,而这种剔除对后面的聚类结果没有影响.实验结果证明,算法可以很好地挖掘出各种形状的聚类,与CluStream算法相比,取得聚类的质量更高,有更快的处理速度,对数据维数和规模有更好的可扩展性.  相似文献   

12.
密度峰值聚类算法(density peaks clustering algorithm, DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening, SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明:基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度.  相似文献   

13.
提出一种适用于分布式数据流环境的、基于密度网格的聚类算法。利用局部站点快速更新数据流信息,使网格空间反映当前数据流的变化。中心站点负责在接收及合并局部网格结构后,对全局网格结构进行密度网格聚类以及噪声网格优化,形成全局聚类结果。实验结果表明,该算法能减少网络通信量,提高全局聚类精度。  相似文献   

14.
基于网格和密度聚类算法研究   总被引:8,自引:0,他引:8  
首先介绍聚类分析的基本概念,并说明了有关聚类分析的相关研究工作,针对当前几种聚类分析方法的优点与不足,提出并分析了基于网格和密度聚类的算法,使其不仅能够处理大数据量,还可以并行执行,并通过实验说明了算法的性能。  相似文献   

15.
针对现有聚类算法在计算网格密度时未考虑周围空间的影响因素而导致聚类边界不平滑的现象,提出一种基于扩展网格和密度的数据流聚类算法。通过动态确定网格扩展区域,将网格密度计算范围从本网格合理地扩展到相邻网格空间,进而根据算法中引入的凝聚度衡量周围空间数据点对网格密度的影响。为进一步精确聚类边缘的轮廓分布情况,使用边界点距离阈值函数从噪声中分离出类的边界点,并给出一种改进的网格合并方法,根据簇间连通性简化网格簇合并的判断条件,有效减少算法执行时间。实验结果表明,该算法具有较高的聚类质量和聚类效率。  相似文献   

16.
为了解决DPC(Clustering by fast search and ?nd of Density Peaks)算法中依赖截断距离、计算复杂度大和需要人工选取簇心的问题,提出了基于残差和密度网格的簇心自确认聚类算法。将数据对象映射到网格上,用网格对象作为聚类对象,删除不含任何信息的网格对象;用特定方式计算网格对象的密度值和距离值;接着通过残差分析确定含有簇心的网格对象;用与非边缘点的距离和自变动的阈值来处理网格边缘点和噪声点。仿真实验表明所提出的算法与一些其他聚类算法对比,有着较高的聚类精度和较低的时间复杂度。  相似文献   

17.
基于密度峰值和网格的自动选定聚类中心算法   总被引:1,自引:0,他引:1  
夏庆亚 《计算机科学》2017,44(Z11):403-406
针对快速搜索和发现密度峰值的聚类算法(DPC)中数据点之间计算复杂,最终聚类的中心个数需要通过决策图手动选取等问题,提出基于密度峰值和网格的自动选定聚类中心的改进算法GADPC。首先结合Clique网格聚类算法的思想,不再针对点对象进行操作,而是将点映射到网格,并将网格作为聚类对象,从而减少了DPC算法中对数据点之间的距离计算和聚类次数;其次通过改进后的聚类中心个数判定准则更精确地自动选定聚类中心个数;最后对网格边缘点和噪声点,采用网格内点对象和相邻网格间的相似度进行了处理。实验通过采用UEF(University of Eastern Finland)提供的数据挖掘使用的人工合成数据集和UCI自然数据集进行对比,其聚类评价指标(Rand Index)表明,改进的算法在计算大数据集时聚类质量不低于DPC和K-means算法,而且提高了DPC算法的处理效率。  相似文献   

18.
基于网格的最小生成树聚类算法   总被引:1,自引:0,他引:1  
给出了一种基于网格的最小生成树聚类算法,此算法在给定聚类个数,或是在给定距离阈值的情况下,都可以对任意形状的数据集进行聚类,有较好的抗噪音能力,而且减少了时间复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号