首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
针对现有的Sync算法具有较高时间复杂度,在处理大样本数据集时有相当的局限性,提出了一种快速大样本同步聚类算法(Fast Clustering by Synchronization on Large Sample,FCSLS)。首先将基于核密度估计(KDE)的抽样方法对大样本数据进行抽样压缩,再在压缩集上进行同步聚类,通过Davies-Bouldin指标自动寻优到最佳聚类数,最后,对剩下的大规模数据进行聚类,得到最终聚类结果。通过在人造数据集以及UCI真实数据集上的实验,FCSLS可以在大规模数据集上得到任意形状、密度、大小的聚类且不需要预设聚类数。同时与基于压缩集密度估计和中心约束最小包含球技术的快速压缩方法相比,FCSLS在不损失聚类精度的情况下,极大地缩短了同步聚类算法的运行时间。  相似文献   

2.
乔颖  王士同  杭文龙 《控制与决策》2017,32(6):1075-1083
受Kuramoto模型启发,构造一种新的万有引力同步模型,用以解决现有同步聚类算法时间复杂度高的问题,并提出大规模数据集的引力同步聚类算法(LSCGS).首先,使用快速压缩集密度估计(RSDE)算法对大规模数据集进行压缩;然后,通过万有引力同步聚类算法对压缩数据集进行聚类,使用Davies-Bouldin指标自动寻优到最佳聚类数;最后,利用提出的剩余样本聚类(RSC)算法对除压缩集以外的剩余数据进行聚类,可以有效地区分孤立类以及噪声点.通过在大规模人造数据集、UCI真实数据集和图像数据上的实验,验证LSCGS算法的有效性,与传统同步聚类算法相比,聚类的运算成本得到大幅度的降低.  相似文献   

3.
核密度估计及其在聚类算法构造中的应用   总被引:10,自引:0,他引:10  
经典数理统计学中的核密度估计理论是构造基于数据集密度函数聚类算法的理论基础,采用分箱近似的快速核密度函数估计方法同样为构造高效的聚类算法提供了依据.通过对核密度估计理论及其快速分箱核近似方法的讨论,给出分箱近似密度估计相对于核密度估计的均方误差界,提出基于网格数据重心的分箱核近似方法.在不改变计算复杂度的条件下,基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差,这一思想方法对于构造高效大规模数据聚类分析算法具有指导意义.揭示了基于网格上密度函数近似的聚类算法与核密度估计理论之间的关系.  相似文献   

4.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

5.
均值漂移谱聚类(MSSC)算法为模式识别聚类任务提供了一种较新的方案.然而由于其内嵌均值漂移过程的时问复杂度与样本容量呈平方关系,其在大数据集环境的实用性受到大大削弱.利用快速压缩集密度估计器(FRSDE)替代Parren窗密度估计式(PW)并融合基于图的松弛聚类(GRC)方法,提出了快速均值漂移谱聚类(FMSSC)算法.相比原MSSC,该算法的总体渐进时间复杂度与样本容量呈线性关系,并具有自适应性和便捷性.  相似文献   

6.
数据流挖掘应用对时间、空间有着较高的要求,因而传统的密度估计方法,如核密度估计法、压缩集密度估计法等并不适用于数据流密度估计.提出一种新颖的面向在线数据流的m-混合聚类核密度估计(m-mixed clustering kernel density estimation,MMCKDE)方法,该方法通过创建MMCKDE节点,用固定个数的混合聚类核获得聚类信息,以代替其他密度估计方法中的所有核.针对数据量不断增加的情况,通过计算Kullback Leibler(KL)距离进行核合并,可进一步以更紧凑的形式表示概率密度估计信息.较之于其他一些方法只能估计整段数据流的密度,MMCKDE方法最终获得的模型不仅适用于整段数据流,还适用于任意时间段上的密度估计.MMCKDE算法同SOMKE算法在不同基准数据集及真实数据集上进行密度估计精度和运行时间的比较.实验结果表明,MMCKDE算法具有更好的性能.  相似文献   

7.
董晓君  程春玲 《计算机科学》2018,45(11):244-248
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。  相似文献   

8.
钱鹏江  王士同  邓赵红 《自动化学报》2011,37(12):1422-1434
首先证明了快速核密度估计 (Fast kernel density estimate, FKDE) 定理: 基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关, 而与总样本容量无关. 接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based relaxed clustering, GRC)算法的目标表达式可分解成“Parzen窗加权和 + 平方熵”的形式, 即此时GRC可视作一个核密度估计问题, 这样基于KDE近似策略, 本文提出了大规模图论松弛聚类方法(Scaling up GRC by KDE approximation, SUGRC-KDEA). 较之先前的工作, 这一方法的优势在于为GRC作用于大规模数据集提供了更简单和易于实现的方案.  相似文献   

9.
针对DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法对参数敏感且无法适用于多密度数据集聚类的缺点,提出一种改进的基于一维投影分析的无参数多密度聚类算法PFMDBSCAN(Parameter Free Multi-Density Clustering Using One-dimensional Projection Analysis).算法首先对数据集进行一维投影,并对投影后的数据进行高斯核密度估计,据此采用极值策略得到多个局部密度估计值,将每个局部密度估计值转换为参数后依次调用DBSCAN进行聚类,最终得到完整的聚类结果.该算法达到了聚类无参数化且能适用于多密度的目标.实验表明,本文提出的无参数算法对单密度和多密度数据集都有较好的聚类效果,能适用于任意形状、任意密度的数据集,且具有较强的抗噪性.与近期文献中提出的无参数多密度聚类算法APSCAN相比,不仅聚类效果更好,且计算复杂性更低.  相似文献   

10.
许敏  王士同  顾鑫  俞林 《控制与决策》2013,28(1):125-130
同一应用领域不同时间、地点或设备,采集的样本数据可能存在扰动、噪音或缺失,如何对样本数据集进行有效的预处理是其进一步应用的前提.针对上述问题,提出一种新的基于压缩集密度估计(RSDE)算法的领域自适应概率密度估计方法 A-RSDE,通过学习源域(训练域)知识,使目标域(测试域)概率密度估计更接近真实概率密度分布,并用基于近似最小包含球的核心集快速算法求解 A-RSDE,将其应用于大数据集密度估计. Benchmark 和 UCI 数据集上的实验表明,该算法具有较好的性能.  相似文献   

11.
李明  杨艳屏  占惠融 《自动化学报》2010,36(12):1655-1660
基于图的算法已经成为半监督学习中的一种流行方法, 该方法把数据定义为图的节点, 用图的边表示数据之间的关系, 在各种数据分布情况下都具有很高的分类准确度. 然而图方法的计算复杂度比较高, 当图的规模比较大时, 计算所需要的时间和存储都非常大, 这在一定程度上限制了图方法的使用. 因此, 如何控制图的大小是基于图的半监督学习算法中的一个重要问题. 本文提出了一种基于密度估计的快速聚类方法, 可以在局部范围对数据点进行聚类, 以聚类形成的子集作为构图的节点, 从而大大降低了图的复杂度. 新的聚类方法计算量较小, 通过推导得到的距离函数能较好地保持原有数据分布. 实验结果表明, 通过局部聚类后构建的小图在分类效果上与在原图上的结果相当, 同时在计算速度上有极大的提高.  相似文献   

12.
在分析k均值聚类和免疫进化聚类不足的基础上,提出一种基于Parzen密度估计的多目标免疫克隆聚类方法.该算法针对多目标免疫克隆算法中克隆规模难以确定的问题,根据密度聚类的思想,引入核密度估计,根据密度和进化代数确定各抗体的克隆规模,使用混沌变异增加抗体多样性.最后通过TOPSIS(technique for orderpreference by similarity to an ideal solution)方法进行抗体选择.人工以及UCI(universal chess interface)数据集上的仿真实验表明,该方法可以有效地提高算法速度,得到较好的聚类结果.  相似文献   

13.
针对传统DBSCAN算法需要人工输入[Eps]和[MinPts]参数,且参数选择不合理导致聚类准确率低的问题,提出了一种改进的自适应参数密度聚类算法。采用核密度估计确定[Eps]和[MinPts]参数的合理区间,通过分析数据局部密度特点确定簇数,根据合理区间内的参数值进行聚类,计算满足簇数条件时的轮廓系数,最大轮廓系数对应的参数即为最优参数。在4种经典数据集上进行对比实验,结果表明,该算法能够自动选择最优的[Eps]和[MinPts]参数,准确率平均提高6.1%。  相似文献   

14.
针对原始的仿射传播(affinity propagation,AP)聚类算法难以处理多代表点聚类,以及空间和时间开销过大等问题,提出了快速多代表点仿射传播(multi-exemplar affinity propagation using fast reduced set density estimator,FRSMEAP)聚类算法。该算法在聚类初始阶段,引入快速压缩集密度估计算法(fast reduced set density estimator,FRSDE)对大规模数据集进行预处理,得到能够充分代表样本属性的压缩集;在聚类阶段,使用多代表点仿射传播(multi-exemplar affinity propagation,MEAP)聚类算法,获得比AP更加明显的聚类决策边界,从而提高聚类的精度;最后再利用K-邻近(K-nearest neighbor,KNN)算法分配剩余点得到最终的数据划分。在人工数据集和真实数据集上的仿真实验结果表明,该算法不仅能在大规模数据集上进行聚类,而且具有聚类精度高和运行速度快等优点。  相似文献   

15.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

16.
针对传统的核密度估计在运动目标检测中需要进行复杂的运算,并且背景模型无法自适应更新等问题,提出了基于关键帧采样的核密度估计背景建模算法。结合间隔视频序列的平均背景和相似性原理,提取具有关键背景信息的样本建立背景模型,大大缩短了背景建立的时间。同时引入融合背景更新策略,实现了背景的自适应更新,克服了光照变化对背景重建的影响。在此基础上,检测系统结合梯度和聚类消除了运动阴影。实验结果表明,该方法具有检测精度高,运行速度快等特点,更好地满足了实时性要求。  相似文献   

17.
基于蚁群优化聚类算法的DNA序列分类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对目前聚类算法在分析DNA序列数据时的低效性和分类精度低问题,提出一种基于蚁群优化聚类算法(ACOC)的DNA序列分类方法,在密度函数中加入自适应感应量并应用模拟退火中的α-适应量的冷却策略,采用DNA序列分布特征对DNA序列进行特征提取,并将pearson相关系数引入蚁群聚类算法作为相似性度量。在EMBL-DNA数据库中4个数据集上进行性能测试,与统计聚类和k-means算法的比较表明,该方法具有一定的时间和精度的优越性,适于解决大规模DNA序列数据分类问题。  相似文献   

18.
对密度分布不均匀的数据采用近邻传播的谱聚类,存在误将不同类的样本传入同一高相似度的子集中的情况,因而得不到真实的相似度矩阵和准确的聚类结果.针对这一问题,提出一种基于局部密度估计和近邻关系传播的谱聚类(LDENP-SC)算法.该算法首先对样本进行密度估计并升维,然后对新数据采用传播算法更新相似度矩阵并谱聚类.在计算密度时提出一种简易的局部密度计算方法,该方法既能反应样本的密度又能减少运算时间;在更新相似度矩阵时基于传播算法提出一种更新子集间样本相似性的方法,使更新后样本的相似度更接近实际.实验结果表明,LDENP-SC算法能够得出取得理想的相似度矩阵和准确的聚类结果,具有较好的泛化能力,且对一定范围内的参数σ表现出鲁棒性.  相似文献   

19.
棱密度估计的计算复杂度使其难以应用于大规模数据集的密度函数构造,采用分箱近似核估计是降低密度函数构造过程复杂度的有效手段.本文提出了一种修正简单分箱核估计误差的方法,该方法采用数据重心取代分箱中心作为数据的代表点,能够更准确反映数据的局部分布特征.经证明,该方法的拟合精度为D(δ4)(相对于窗宽),达到线性分箱核估计的水平.实验表明,修正的简单分箱核估计构造方法具有良好的时间效率和计算精度,能够运用于面向大规模数据集的聚类分析应用.  相似文献   

20.
丁阳  钱鹏江 《计算机工程》2012,38(12):17-21
基于传统Parzen窗密度估计函数的均值漂移谱聚类算法的时间复杂度不低于O(N2),不适合医学图像分割的实际需求。为此,通过压缩集密度估计和吸引盆均匀抽样两重数据浓缩策略以降低原MSSC的高时间开销问题,从而提出新的基于数据浓缩的谱聚类算法。实验结果表明,该算法能有效降低时间开销,较好地适应医学图像分割的要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号