首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
邱保志  唐雅敏 《计算机应用》2017,37(12):3482-3486
针对如何快速寻找密度骨架、提高高维数据聚类准确性的问题,提出一种快速识别高密度骨架的聚类(ECLUB)算法。首先,在定义了对象局部密度的基础上,根据互k近邻一致性及近邻点局部密度关系,快速识别出高密度骨架;然后,对未分配的低密度点依据邻近关系进行划分,得到最终聚类。人工合成数据集及真实数据集上的实验验证了所提算法的有效性,在Olivetti Face数据集上的聚类结果显示,ECLUB算法的调整兰德系数(ARI)和归一化互信息(NMI)分别为0.8779和0.9622。与经典的基于密度的聚类算法(DBSCAN)、密度中心聚类算法(CFDP)以及密度骨架聚类算法(CLUB)相比,所提ECLUB算法效率更高,且对于高维数据聚类准确率更高。  相似文献   

2.
一种基于蜂群原理的划分聚类算法*   总被引:1,自引:0,他引:1  
针对现有的大部分划分聚类算法受聚类簇的个数K的限制,提出一种基于蜂群原理的划分聚类算法。该方法通过引入蜂群采蜜机制,将聚类中心视为食物源,通过寻找食物源的自组织过程来实现数据对象的聚集。在聚类的过程中引入紧密度函数来评价聚类中心(局部),引入分离度函数来确定最佳聚类簇的个数(全局)。与传统的划分聚类算法相比,本算法无须指定聚类个数即可实现聚类过程。通过仿真实验表明,本文提出的算法不但对最佳聚类数有良好的搜索能力,而且有较高的准确率:算法时间复杂度仅为O(n*k3)(k<相似文献   

3.
针对基于密度的噪声应用空间聚类算法(density based spatial clustering of applications with noise,DBSCAN)计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法(G_FDBSCAN)。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。  相似文献   

4.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

5.
密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。  相似文献   

6.
杜洁  马燕  黄慧 《计算机应用》2022,42(5):1472-1479
密度峰值聚类(DPC)算法对于密度多样、形状复杂的数据集不能准确选择聚类中心,同时基于局部引力的聚类(LGC)算法参数较多且需要手动调参。针对这些问题,提出了一种基于局部引力和距离的聚类算法(LGDC)。首先,利用局部引力模型计算数据点的集中度(CE),根据集中度确定每个数据点与高集中度的点之间的距离;然后,选取具有高集中度值和高距离值的数据点作为聚类中心;最后,基于簇的内部点集中度远高于边界点的集中度的思想,分配其余数据点,并且利用平衡k近邻实现参数的自动调整。实验结果表明,LGDC在4个合成数据集上取得了更好的聚类效果;且在Wine、SCADI、Soybean等真实数据集上,LGDC的调整兰德系数(ARI)指标相较DPC、LGC等算法平均提高了0.144 7。  相似文献   

7.
在众多聚类算法中,基于网格划分思想的聚类算法是较为常用的算法类型之一,但现有的算法对于处理海量高维数据而言,会存在以下两个问题:一是聚类结果的准确率较低;二是算法耗时较长.为了解决现有算法的不适应性,该文在网格聚类算法的基础上结合降维技术、自适应网格划分、相对熵和分布式计算,提出了一种改进的自适应网格划分的分布式聚类算法(AMCBS),可以较好解决以上问题.经实验证明,该算法对于D31标准数据集、UCI数据集、人脸图片数据集和GitHub文本数据集等的效果均优于常见的聚类算法,具有较好的准确率和较高的运行效率.  相似文献   

8.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

9.
张恩  李会敏  常键 《计算机应用》2021,41(2):413-421
针对现有云外包隐私保护k-means聚类方案存在的效率不高,以及当云服务器不可信或遭受黑客攻击时返回不合理聚类结果的问题,提出了一种可应用于多方隐私保护场景的云外包可验证隐私保护k-means聚类方案。首先,提出了一种适用于云外包场景的改进的聚类初始化方法,从而有效提高算法的迭代效率;然后,利用乘法三元组技术来设计安全欧几里得距离的计算,并利用混淆电路技术来设计安全计算最小值算法;最后,提出了一种验证算法,使用户仅需一轮通信就实现对聚类结果的验证,并且数据外包后算法的训练完全在云上进行,能够有效减少用户和云的交互。仿真实验表明,所提方案在数据集Synthetic和S1上的准确度分别达到97%和93%,说明隐私保护下的k-means聚类和明文k-means聚类的情况近似,适用于医疗、社会科学和商业等领域。  相似文献   

10.
一种新型的基于密度和栅格的聚类算法*   总被引:2,自引:1,他引:1  
针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA(density and grid based clustering algorithm)。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。  相似文献   

11.
以网格化数据集来减少聚类过程中的计算复杂度,提出一种基于密度和网格的簇心可确定聚类算法.首先网格化数据集空间,以落在单位网格对象里的数据点数表示该网格对象的密度值,以该网格到更高密度网格对象的最近距离作为该网格的距离值;然后根据簇心网格对象同时拥有较高的密度和较大的距离值的特征,确定簇心网格对象,再通过一种基于密度的划分方式完成聚类;最后,在多个数据集上对所提出算法与一些现有聚类算法进行聚类准确性与执行时间的对比实验,验证了所提出算法具有较高的聚类准确性和较快的执行速度.  相似文献   

12.
虚拟机的正常运行是支撑云平台服务的重要条件,由于云平台下虚拟机存在数量规模大、运行环境随时间动态变化的特点,管理系统难以针对每个虚拟机进行训练数据采集以及统计模型的训练。为了提高在上述环境下异常检测系统的实时性和识别能力,提出基于改进k中心点聚类算法的检测域划分机制,在聚类迭代更新步骤上进行优化,以提升检测域划分的速度,并通过检测域策略的应用来提高虚拟机异常检测的效率和准确率。实验及分析表明,改进的聚类算法拥有更低的时间复杂度,采用检测域划分机制的检测方法在虚拟机异常检测中拥有更高的效率和准确率。  相似文献   

13.
为了进一步提高复杂干扰环境下对海雷达目标识别的泛化能力,提出基于k-medoids聚类和随机参考分类器(RRC)的动态选择集成算法(KMRRC).主要利用重采样技术生成多个基分类器,然后基于成对多样性度量准则将基分类器划分为多个簇,并基于校验数据集为每个基分类器构建相应的RRC模型,最后利用RRC从各个簇中动态选择竞争力最强的部分基分类器进行集成决策.通过寻优实验确定KMRRC的参数设置,随后利用Java调用Weka API在自建的目标全极化高分辨距离像(HRRP)样本库及17个UCI数据集上进行KMRRC与常用的9种集成算法和基分类算法的对比实验,并进一步研究多样性度量方法的选取对KMRRC性能的影响.实验验证文中算法在对海雷达目标识别领域的有效性.  相似文献   

14.
网格密度峰值聚类在兼顾密度峰值聚类算法可识别任意形状类簇的基础上,通过数据集的网格化简化整体计算量,成为当前备受关注的聚类方法.针对大规模数据,如何进一步区分稠密与稀疏网格,减少网格密度峰值聚类中参与计算的非空网格代表点的数量是解决“网格灾难”的关键.结合以网格密度为变量的概率密度分布呈现出类Zipf分布的特点,提出一种基于Zipf分布的网格密度峰值聚类算法.首先计算所有非空网格的密度并映射为Zipf分布,根据对应的Zipf分布筛选出稠密中心网格和稀疏边缘网格;然后仅对稠密中心网格进行密度峰值聚类,在自适应确定潜在聚类中心的同时减少欧氏距离的计算量,降低算法复杂度;最后通过对稀疏边缘网格的处理,进一步优化类簇边界并提高聚类精度.人工数据集和UCI数据集下的实验结果表明,所提出算法对大规模、类簇交叉数据的聚类具有明显优势,能够在保证聚类精度的同时降低时间复杂度.  相似文献   

15.
深入分析了传统的基于密度的聚类方法的特点和存在的问题及讨论了基于密度聚类算法研究现状,提出了一种改进的基于密度分布函数的聚类算法.使用K最近邻(KNN)的思想度量密度以寻找当前密度最大点,即中心点.并使用区域比例,将类从中心点开始扩展,每次扩展的同时引入半径比例因子以发现核心点.再从该核心点的KNN扩展类,直至密度下降到中心点密度的给定比率时结束.给出了数个算法实例并与基于网格的共享近邻聚类(GNN)算法在聚类准确率和效率上进行了试验比较,试验表明该算法极大降低了基于密度聚类算法对参数的敏感性、改善了对高维密度分布不均数据集的聚类效果、提高了聚类准确率和效率.  相似文献   

16.
基于接收信号强度(RSSI)的节点定位算法是目前应用较为广泛的定位算法。由于无线信号受信道衰减和障碍物屏蔽等因素的影响,基于RSSI的定位算法精度不高。提出了一种基于栅格划分的概率定位算法,首先将待定位节点可能存在的区域划分为若干栅格,再根据无线信号在空间传输的概率模型,计算出待定位节点处于各个栅格的置信度,最后以置信度较高的栅格的形心为基准点,计算出待定位节点的坐标位置。算法降低了噪声污染对定位结果的影响,定位精度较高。  相似文献   

17.
针对基于网格的聚类算法存在簇边缘网格中包含噪声点、利用网格相对密度差进行网格合并时不能区分密度均匀变化的网格等问题。提出一种利用区域划分的多密度快速聚类算法MFCBR。算法把数据空间划分成密度不同的网格,利用网格索引表和网格中心密度差合并网格形成簇,然后分别计算每个簇的边界网格质心、边界网格和最近簇网格中心位置,利用三者之间的关系来排除簇边界网格数据中包含的噪声点。实验表明,该算法在降低噪声数据对聚类干扰的同时,且对密度均匀变化的多密度数据集也有较优的处理效果。  相似文献   

18.
针对基于数据的涡轴发动机故障检测算法的分类性能较差、鲁棒性不强的问题,提出一种改进的加权一类支持向量机(WOCSVM)算法——基于局部密度的WOCSVM (LD-WOCSVM)算法。首先,对于每个训练样本,选取以该样本为中心,以全体训练样本中心到距离最远样本之间马氏距离的百分之二为半径的球体内所包含的k个近邻样本;其次,以该样本到选定的k个训练样本的中心的距离大小来评估该样本为故障样本的可能性,并以此为依据,使用经过归一化的距离来计算对应样本的权重。针对目前算法不能很好地反映样本分布特点的问题,提出了一种基于快速聚类的权重计算方法并将其命名为FCLD-WOCSVM。该算法通过求取每个训练样本的局部密度和该样本到高局部密度的距离两个参数,来确定该样本的分布位置,并利用求得的两个参数来计算该样本的权重。两种算法都是通过对可能的故障样本分配较小的权重来增强算法的分类性能。为了验证算法的有效性,分别在4个UCI数据集和T700涡轴发动机上进行仿真实验。实验结果表明,与自适应WOCSVM (A-WOCSVM)算法相比,LD-WOCSVM算法在AUC值上提高了0.5%,FCLD-WOCSVM算法在G-mean上提高了12.1%,两种算法可以作为涡轴发动机故障检测候选算法。  相似文献   

19.
龙超奇  蒋瑜  谢雨 《计算机应用》2021,41(4):1122-1127
针对小波聚类算法在不同网格划分尺度下表现出的聚类效果差异,提出了一种基于峰值网格的改进方法。算法主要针对小波聚类中连通区域的检测方式进行改进:首先,将小波变换后的空间网格依网格值的大小进行排序;然后利用广度优先搜索的方式遍历每一个空间网格,以检测经小波变换后数据中的峰值连通区域;最后,标记连通区域并将其映射到原数据空间中,以得出聚类结果。在8个人工数据集(4个凸数据集与4个非凸数据集)和UCI数据库中的2个真实数据集上的实验结果表明,改进算法在低网格划分尺度下有着良好的表现,与原小波聚类算法相比,这个算法对网格划分尺度的需求降低了25%~60%,并且在相同的聚类效果下减少了14%的聚类所需时间。  相似文献   

20.
王扬  吴凡  姚宗强  刘杰  李栋 《计算机应用》2017,37(8):2405-2409
针对细粒度、多类别的用户用电行为分析问题,提出了基于地理信息正则化矩阵分解的居民用户用电行为分析算法,探索用户用电的群体特点,为个性化的、更优的电力调度提供决策支持依据。该模型首先基于矩阵分解理论将用户映射到能表征其用电行为特点的潜在特征空间,然后采用k-means聚类算法在潜在特征空间上实现用电用户群的细分聚类。特别地引入了地理信息作为矩阵分解的正则化因子,使得学习到的潜在特征空间不仅满足用户群特征的正交,而且使得地理位置相近的用户在潜在特征空间的映射也相近,与真实物理空间保持一致。将所提方法应用于中新天津生态城智能电网采集到的真实居民用电数据分析挖掘任务中。实验结果表明,与基准的向量空间模型(VSM)和非负矩阵分解(NMF)算法相比,所提方法能够取得更好的用户细分聚类结果,挖掘出一定的用户群体用电模式,有助于辅助智能电网提升经营和服务水平。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号