首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 17 毫秒
1.
快速搜索和找到密度峰DPC(clustering by fast search and find of density peaks)的聚类是一种新颖的算法,它通过找到密度峰来有效地发现聚类的中心。DPC算法的精度取决于对给定数据集的密度的精确估计以及对截止距离dc(cutoff distance)的选择。dc主要是用于计算每个数据点的密度和识别集群中的边界点,而DPC算法中dc的估计值却主要取决于主观经验值。提出一种基于核密度估计的DPC方法(KDE-DPC)来确定最合适的dc值。该方法通过引用一种新的Solve-the-Equation方法进行窗宽优化,根据不同数据集的概率分布,计算出最适合的dc。标准聚类基准数据集的实验结果证实了所提出的方法优越于DPC算法以及经典的K-means算法、DBSCAN算法和AP算法。  相似文献   

2.
K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定。为此,提出一种快速密度峰值搜索算法CFSFDP(clustering by fast search and find of density peaks)优化初始中心的K-means算法。首先针对CFSFDP算法中截断距离的选取影响局部密度的计算这一缺点,提出用动力学中的势能替换数据点的局部密度;在此基础上,利用改进的CFSFDP算法选取初始聚类中心,实现K-means聚类。在UCI数据集和人工模拟数据集上的测试结果表明,优化后的新算法具有更好的聚类结果。  相似文献   

3.
针对现有的基于密度的聚类算法存在参数敏感,处理非球面数据和复杂流形数据聚类效果差的问题,提出一种新的基于密度峰值的聚类算法。该算法首先根据自然最近邻居的概念确定数据点的局部密度,然后根据密度峰局部密度最高并且被稀疏区域分割来确定聚类中心,最后提出一种新的类簇间相似度概念来解决复杂流形问题。在实验中,该算法在合成和实际数据集中的表现比DPC(clustering by fast search and find of density peaks)、DBSCAN(density-based spatial clustering of applications with noise)和K-means算法要好,并且在非球面数据和复杂流形数据上的优越性特别大。  相似文献   

4.
针对密度峰值聚类算法DPC(clustering by fast search and find of density peaks)时间复杂度高、准确度低的缺陷,提出了一种基于Ball-Tree优化的快速密度峰值聚类算法BT-DPC。算法利用第[k]近邻度量样本局部密度,通过构建Ball-Tree加速密度[ρ]及距离[δ]的计算;在类簇分配阶段,结合[k]近邻思想设计统计学习分配策略,将边界点正确归类。通过在UCI数据集上的实验,将该算法与原密度峰值聚类算法及其改进算法进行了对比,实验结果表明,BT-DPC算法在降低时间复杂度的同时提高了聚类的准确度。  相似文献   

5.
传统聚类算法进行混叠矩阵估计时存在的聚类中心个数不确定和初始聚类中心的随机选取导致陷入局部最优的问题,为此提出一种基于密度峰值的改进模糊聚类算法进行欠定盲源分离的混叠矩阵估计。通过短时傅里叶变换提取信号在频域中的稀疏特性,利用寻找密度峰值聚类算法(clustering by fast search and find of density peaks, CFSFDP)自动获取聚类簇的数目和初始聚类中心;将获得的聚类数目和聚类结果作为模糊聚类算法(fuzzy c-means clustering, FCM)的初始输入参数,提高FCM聚类结果的精度。实验结果表明,该算法可以准确估计源信号的数目,相比传统FCM、层次聚类、基于密度峰值改进的粒子群等聚类算法,可以有效提高欠定盲源分离的混叠矩阵估计精度。  相似文献   

6.
针对K-means算法对初始聚类中心和噪声敏感的缺点,提出了d-K-means算法(distance & density),在K-means算法的基础上权衡了密度和距离对聚类的影响,对数据进行加权处理,在权值基础上引入最小最大原则选择初始聚类中心,自动确定类中心个数。实验结果表明,d-K-means算法在低维数据与高维数据上都可以取得较好的聚类效果,并且更好地应对低密度区域数据,更好地进行类中心选择。  相似文献   

7.
聚类是大数据分析与数据挖掘的基础问题。刊登在2014年《Science》杂志上的文章《Clustering by fast search and find of density peaks》提出一种快速搜索密度峰值的聚类算法,算法简单实用,但聚类结果依赖于参数dc的经验选择。论文提出一种改进的搜索密度峰值的聚类算法,引入密度估计熵自适应优化算法参数。对比实验结果表明,改进方法不仅可以较好地解决原算法的参数人为确定的不足,而且具有相对更好的聚类性能。  相似文献   

8.
丁世飞  徐晓  王艳茹 《软件学报》2020,31(11):3321-3333
密度峰值聚类(clustering by fast search and find of density peaks,简称DPC)是一种基于局部密度和相对距离属性快速寻找聚类中心的有效算法.DPC通过决策图寻找密度峰值作为聚类中心,不需要提前指定类簇数,并可以得到任意形状的簇聚类.但局部密度和相对距离的计算都只是简单依赖基于距离度量的相似度矩阵,所以在复杂数据上DPC聚类结果不尽如人意,特别是当数据分布不均匀、数据维度较高时.另外,DPC算法中局部密度的计算没有统一的度量,根据不同的数据集需要选择不同的度量方式.第三,截断距离dc的度量只考虑数据的全局分布,忽略了数据的局部信息,所以dc的改变会影响聚类的结果,尤其是在小样本数据集上.针对这些弊端,提出一种基于不相似性度量优化的密度峰值聚类算法(optimized density peaks clustering algorithm based on dissimilarity measure,简称DDPC),引入基于块的不相似性度量方法计算相似度矩阵,并基于新的相似度矩阵计算样本的K近邻信息,然后基于样本的K近邻信息重新定义局部密度的度量方法.经典数据集的实验结果表明,基于不相似性度量优化的密度峰值聚类算法优于DPC的优化算法FKNN-DPC和DPC-KNN,可以在密度不均匀以及维度较高的数据集上得到满意的结果;同时统一了局部密度的度量方式,避免了传统DPC算法中截断距离dc对聚类结果的影响.  相似文献   

9.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

10.
道路交通事故多发点事故发生频率高且严重性突出,为提高道路通行的安全与效率,需要找到事故多发点所在位置。针对现有密度聚类算法对交通事故多发点识别时需要设置中心点个数以及容易扩大聚类范围等问题,提出一种限制簇扩展的自适应搜索密度峰值聚类算法(limit cluster expansion and adaptive search clustering by fast search and find of density peaks, LA-CFDP)。LA-CFDP算法通过增加中心点限制条件自动确定中心点个数,引入参数扩展因子限制簇扩展范围,从而提高算法对事故多发点识别的适应性和准确性。在英国四个城市2019年交通事故数据集上的实例分析表明,LA-CFDP算法对四个城市聚类结果的轮廓系数值达到0.72~0.92,DBI值均降低到0.37以下。聚类结果符合事故多发点的定义及特征,能够为交通事故多发点治理提供可靠依据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号