首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 390 毫秒
1.
为提高k-modes算法的精度并解决初始簇中心选择问题,提出一种基于簇内簇间相异度的k-modes算法(IKMCA).基于簇内簇间相似性对相异度系数进行改进,给出初始簇中心自主选择的具体方法.提出的簇内簇间相异度系数考虑特征值本身的相异性与其它相关特征对它们的区分性.提出的初始簇中心自主选择方法可以自动确定聚类个数和初始簇中心位置.实验结果表明,提出算法在聚类精度、纯度、召回率上均优于经典k-modes算法及其变体算法.  相似文献   

2.
传统的聚类算法主要对具有单值属性的数据进行聚类研究,针对矩阵对象数据的研究较少,提出一种新的fuzzy between-cluster k-modes(简称Fuzzy BC-k-modes)聚类算法。在Fuzzy BC-k-modes算法中,采用增加簇间信息(不同类中的对象到其他类中心的距离)去修正目标函数,在对修正的目标函数寻求局部最优解时,提出隶属度矩阵的更新公式。最后,在四个真实数据集上验证了Fuzzy BC-k-modes算法的有效性,并且分析了模糊因子与隶属度间的关系。  相似文献   

3.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

4.
针对粗糙K-means聚类及其相关衍生算法需要提前人为给定聚类数目、随机选取初始类簇中心导致类簇交叉区域的数据划分准确率偏低等问题,文中提出基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法.在计算边界区域的数据对象归属于不同类簇的隶属程度时,综合考虑局部密度和距离的混合度量,并采用自适应调整类簇数目的策略,获得最佳聚类数目.选取数据对象稠密区域中距离最小的两个样本的中点作为初始类簇中心,将附近局部密度高于平均密度的对象划分至该簇后再选取剩余的初始类簇中心,使初始类簇中心的选取更合理.在人工数据集和UCI标准数据集上的实验表明,文中算法在处理类簇交叠严重的球簇状数据集时,具有自适应性,聚类精度较优.  相似文献   

5.
针对传统的聚类集成算法难以高效地处理海量数据的聚类分析问题,提出一种基于MapReduce的并行FCM聚类集成算法。算法利用随机初始聚心来获取具有差异化的聚类成员,通过建立聚类成员簇间OVERLAP矩阵来寻找逻辑等价簇,最后利用投票法共享聚类成员中数据对象的分类情况得出最终的聚类结果。实验证明,该算法具有良好的精确度,加速比和扩展性,具有处理较大规模数据集的能力。  相似文献   

6.
张腾飞  陈龙  李云 《控制与决策》2013,28(10):1479-1484

粗糙??-means 聚类算法是一种有效的处理聚类边界模糊问题的算法, 但大多数算法对簇的下近似集和边界 中的对象使用统一的权值, 忽略了簇内对象之间的差异性. 针对这一问题提出一种新的改进算法, 通过对簇内的每个 对象加入簇内不平衡度量, 以区分不同对象对簇的贡献程度, 使得聚类结果簇内更紧凑、簇间更疏远. 不同数据集的 仿真实验结果表明, 所提出算法可以有效提高聚类结果的精度.

  相似文献   

7.
在现实世界中经常遇到混合数值属性和分类属性的数据, k-prototypes是聚类该类型数据的主要算法之一。针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的 k-prototypes 算法。在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性。在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性。  相似文献   

8.
在分析常用聚类算法的特点和适应性基础上提出一种基于密度与划分方法的聚类算法。该算法根据数据对象密度分布状态来自动确定聚类簇密度吸引中心点和聚类簇的初始划分;然后利用划分的方法,根据密度可达定义来寻找密度可达数据对象簇,从而完成数据对象簇的最终聚类。实验证明该算法能够很好地处理具有任意形状和大小的簇,能够有效地屏蔽噪声和离群点的影响和发现孤立点;同时也减小了输入参数对领域知识的依赖性。  相似文献   

9.
为解决混合属性中数值属性与分类属性相似性度量的差异造成的聚类效果不佳问题,分析混合属性聚类相似性度量的问题,提出基于熵的混合属性聚类算法.引入熵离散化技术将数值属性离散化,仅使用二元化距离度量混合属性对象之间的相似性,在聚类过程中随机选取k个初始簇中心,将其它对象按照距离k个簇中心的最小距离划分到相应的簇中,选择每个簇中每个数据属性中频率最高的属性值形成新的簇中心继续划分对象,迭代此步当满足目标条件时停止,形成最终聚类.在UCI数据集上的实验结果验证了该算法的有效性.  相似文献   

10.
聚类分析是数据挖掘中一个重要研究内容。传统的聚类算法可划分为硬聚类和模糊聚类两大类,提出一种基于对象集上的相容关系的聚类算法,该算法通过极大相容簇来对数据对象集进行分类,使得同一对象可以属于不同的簇,而每个簇又有自己独有的成员对象,从而得到既不同于硬聚类也不同于模糊聚类的聚类效果。实验进一步表明了该算法的聚类的合理性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号