首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 312 毫秒
1.
魏方圆  黄德才 《计算机科学》2017,44(Z11):442-447
不确定性数据聚类方法的研究日益受到广泛关注,其中UIDK-means算法与U-PAM算法继承了基于划分算法无法识别任意形状簇和对噪声点敏感的缺陷。FDBSCAN算法事先假定不确定性数据的概率分布函数或概率密度函数是已知的,然而这些信息在实际应用中往往难以获取。针对上述算法的不足,提出一种基于区间数的多维不确定性数据聚类UID-DBSCAN算法。该算法利用区间数结合数据的统计信息合理地表示不确定性数据,采用低计算复杂度的区间数距离函数衡量不确定性数据对象间的相似度,首次提出区间数的密度、密度可达与密度相连等概念,并将其用于扩展簇中,同时结合数据集的统计特征自适应地选取算法的密度参数来实现自动聚类。实验结果表明,UID-DBSCAN算法能够有效识别噪声,处理任意形状簇,具有较高的聚类精度和较低的计算复杂度。  相似文献   

2.
传统的聚类算法不适用于处理海量和高维数据。针对云计算环境下,利用集群系统的并行计算能力,实现海量数据的聚类问题,给出了云计算环境下基于分形维数的聚类融合算法。该算法首先对基于分形维数的聚类算法进行改进,使之更适用于并行计算,其产生聚类作为初始聚类成员;再结合投票算法的融合策略实现融合。最后,对基于分形维数的聚类融合算法在云计算环境下实现并行计算。通过在UCI数据集上的对比实验来验证该算法的有效性。  相似文献   

3.

为确定??-means 等聚类算法的初始聚类中心, 首先由样本总量及其取值区间长度确定对应维上的样本密度统计区间数, 并将满足筛选条件的密度峰值所在区间内的样本均值作为候选初始聚类中心; 然后, 根据密度峰值区间在各维上的映射关系建立候选初始聚类中心关系树, 进一步采用最大最小距离算法获得初始聚类中心; 最后为确定最佳聚类数, 基于类内样本密度及类密度建立聚类有效性评估函数. 针对人工数据集及UCI 数据集的实验结果表明了所提出算法的有效性.

  相似文献   

4.
针对区间数模糊c均值聚类算法存在模糊度指数m无法准确描述数据簇划分情况的问题,对点数据集合的区间Ⅱ型模糊c均值聚类算法进行拓展,将其扩展到区间型不确定数据的聚类中。同时,分析了区间数的区间Ⅱ型模糊c均值聚类算法的收敛性,以确定模糊度指数m1和m2的取值原则。基于合成数据和实测数据的仿真实验结果表明:区间数的区间Ⅱ型模糊c均值聚类算法比区间数的模糊c均值聚类算法的聚类效果好。  相似文献   

5.
随着数据的海量增长,数据聚类算法的研究面临着海量数据挖掘和处理的挑战;针对K-means聚类算法对初始聚类中心的依赖性太强、全局搜索能力也差等缺点,将一种改进的人工蜂群算法与K-means算法相结合,提出了ABC_Kmeans聚类算法,以提高聚类的性能;为了提高聚类算法处理海量数据的能力,采用MapReduce模型对ABC_Kmeans进行并行化处理,分别设计了Map、Combine和Reduce函数;通过在多个海量数据集上进行实验,表明ABC_Kmeans算法的并行化设计具有良好的加速比和扩展性,适用于当今海量数据的挖掘和处理。  相似文献   

6.
针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。  相似文献   

7.
随着云计算、大数据以及移动互联网的发展,移动终端用户数据呈现出数据量大、噪声大、动态性及不确定性增强的趋势,影响了移动用户数据聚类准确率与效率。针对上述问题,提出了一种改进的层次聚类算法CURE。该算法将原有算法中抽样处理数据的方式用Map Reduce函数实现并行化处理,同时结合区间数的概念,将移动用户数据用一个区间表示,计算其区间距离来适应移动用户数据的不确定性特点,从而提高聚类效率与准确率。最后利用MIT Reality项目数据集进行仿真,仿真结果表明了该方法的有效性及可行性,为移动用户数据的进一步利用及用户的个性化推荐提供支持。  相似文献   

8.
多层自动确定类别的谱聚类算法   总被引:1,自引:0,他引:1  
金慧珍  赵辽英 《计算机应用》2008,28(5):1229-1231
自动确定聚类数和海量数据的处理是谱聚类的关键问题。在自动确定聚类数谱聚类算法的基础上,提出了一种能处理大规模数据集的多层算法。该算法的核心思想是把大规模数据集根据一定的相关性逐级进行合并,使之成为小数据集,再对分组后的小数据集用自动确定类别的谱聚类算法聚类,最后逐层进行拆分并微调, 完成全部数据的聚类。实验证明该算法的聚类效果很好。  相似文献   

9.
针对处理高维海量数据时聚类算法用时太长的问题,提出基于抽样的多模态分布聚类优化算法,该算法随机地抽取少量样本进行循环校正,减少聚类时间,通过大量实验找出算法的最优配置参数,结果证明,该优化算法以11.8%的聚类运行时间得到了88%的聚类准确性,为高时间成本的应用环境提供了最优的聚类方案。  相似文献   

10.
粗糙的方向性模糊聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
根据高维数据具有方向性的特征,结合概率模糊聚类算法与粗糙集理论提出了一种粗糙的方向性模糊聚类算法。该算法在概率模糊聚类算法中引入了数据方向相似性函数,能对不确定数据进行处理。在算法中利用粗糙集中的下近似集与边界集来确定目标对象函数,属于下近似集的数据在聚类时是确定的,属于边界的数据具有模糊性。实验结果表明,该算法能有效地对高维的方向性数据进行聚类。  相似文献   

11.
密度峰值聚类算法具有简单高效、无需迭代计算和提前设定类簇数的优势,但是在划分非类中心样本时容易产生“多米诺骨牌”效应,并且不能准确划分重叠区域的样本和噪声。为了解决以上问题,提出了不确定数据信任密度峰值聚类算法。首先,该算法在密度峰值聚类算法获取类中心样本的基础上,利用非类中心样本的K近邻求出样本属于不同类的信任值,将...  相似文献   

12.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

13.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

14.
在处理海量数据集时,由于单台计算机的处理能力有限,利用传统的聚类算法难以在有效的时间内获得聚类结果。在基于密度和自适应密度可达聚类算法的基础上,提出一种并行聚类算法。理论和实验结果证明该算法具有接近线性的加速比,能够有效地处理大规模的数据集。  相似文献   

15.
张枭山  罗强 《计算机科学》2015,42(Z11):63-66
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。  相似文献   

16.
针对滑坡危险性预测中降雨等不确定诱发因素难以有效处理,CFSFDP算法需要人工尝试设置密度阈值以及对大规模数据集无法进行准确聚类等问题,为了提高滑坡危险性预测准确度,提出一种基于网格与类合并的不确定CFSFDP (简称不确定GM-CFSFDP)聚类算法.该算法首先引入不确定数据处理方法,设计了E-ML距离公式,有效刻画降雨不确定因素;其次通过网格划分的思想把大规模数据集划分到多个网格空间中,实现大规模数据有效编码;计算网格平均密度,建立网格密度阈值分布模型,动态获得网格密度阈值;最后利用层次聚类思想对关联性较高的类进行合并,构建不确定GM-CFSFDP算法模型,在延安宝塔区进行滑坡实例验证.实验结果表明不确定GM-CFSFDP聚类算法获得较高的预测精度,从而验证了该算法在滑坡危险性预测中的可行性和先进性.  相似文献   

17.
粗糙K-Means及其衍生算法在处理边界区域不确定信息时,其边界区域中的数据对象因与各类簇中心点的距离相差较小,导致难以依据距离、密度对数据点进行区分判断。提出一种新的粗糙K-Means算法,在对数据进行划分时,综合数据对象的局部密度与邻域归属信息来衡量数据点与类簇的相似性,边界数据与类簇之间的关系由其局部的空间分布所决定,使得模糊不确定信息之间的差异更明显。在人工数据集和UCI标准数据集上的实验结果表明,该算法对边界区域数据的划分具有更高的准确率。  相似文献   

18.
于洪  毛传凯 《计算机应用》2016,36(8):2061-2065
应用广泛的k-means算法结果是一种二支决策的结果,即对象要么属于某个类要么不属于这个类,这种决策方式难以适用于一些具有不确定现象的环境,因此提出三支决策聚类方法来反映对象与类之间的关系,即:对象确定属于某类、可能属于某类或确定不属于某类。显然,二支决策是三支决策的一种特例。此外,从类内紧凑性和考虑近邻类间分离性角度出发,定义了分离性指数、聚类结果评估有效性指数,并提出了一种自动三支决策聚类算法。该方法为处理具有不确定信息的基于k-means算法框架的聚类数目自动确定的难题提供了一种新的解决思路。在人工数据集和UCI真实数据集上的初步对比实验结果表明所提出的方法是有效的。  相似文献   

19.
基于粗糙集的混合属性数据聚类算法   总被引:2,自引:0,他引:2  
范黎林  王娟 《计算机应用》2010,30(12):3377-3379
传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号