首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
潘楚  罗可 《计算机应用》2014,34(7):1997-2000
针对传统K-medoids聚类算法对初始聚类中心敏感、收敛速度缓慢以及聚类精度不够高等缺点,提出一种基于改进粒计算、粒度迭代搜索策略和优化适应度函数的新算法。该算法利用粒计算思想在有效粒子中选择K个密度大且距离较远的粒子,选择其中心点作为K个聚类初始中心点;并在对应的K个有效粒子中进行中心点更新,来减少迭代次数;采用类间距离和类内距离优化适应度函数来提高聚类的精度。实验结果表明:该算法在UCI多个标准数据集中测试,在有效缩短迭代次数的同时提高了算法聚类准确率。  相似文献   

2.
颜宏文  周雅梅  潘楚 《计算机应用》2015,35(5):1302-1305
针对传统K-medoids聚类算法对初始值敏感、中心点随机选择以及聚类精度不够高等缺点,在粒计算有效初始化的基础上,提出中心点宽度优先搜索策略. 首先,利用粒计算初始化获取K个有效粒子,遴选该K个粒子所对应的K个中心点作为K个初始中心点;然后,根据对象间的相似性分别对K个粒子中的对象建立以中心点为根节点的相似对象二叉树,通过宽度优先搜索遍历二叉树迭代出最优中心点, 同时采用簇间距离和簇内距离优化准则函数. 实验结果表明,所提算法在UCI中Iris和Wine标准数据集中测试,在有效缩短迭代次数的同时保证了算法聚类准确率.  相似文献   

3.
一种基于大密度区域的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,提出一种基于大密度区域的模糊聚类算法.该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性;最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果.  相似文献   

4.
传统聚类算法K-Medoids对初始点的选择具有随机性,容易产生局部最优解;替换聚类中心时采用的全局顺序替换策略降低了算法的执行效率;同时难以适应海量数据的运算。针对上述问题,提出了一种云环境下的改进K-Medoids算法,该改进算法结合密度法和最大最小原则得到优化的聚类中心,并在Canopy区域内对中心点进行替换,再采用优化的准则函数,最后利用顺序组合MapReduce编程模型的思想实现了算法的并行化扩展。实验结果表明,该改进算法与传统算法相比对初始中心的依赖降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。  相似文献   

5.
基于参考区域的k-means文本聚类算法   总被引:5,自引:1,他引:4  
k-means是目前常用的文本聚类算法,该算法的主要缺点需要人工指定聚类的最终个数k及相应的初始中心点.针对这些缺点,提出一种基于参考区域的初始化方法,自动生成k-means的初始化分区,并且在参考区域的生成过程中,设计一种求最大斜率(绝对值)的方法确定自动阈值.理论分析和实验结果表明,该改进算法能有效的提高文本聚类的精度,且具有可行的效率.  相似文献   

6.
针对传统K-medoids聚类算法对初始中心点敏感,以及迭代次数较高等缺点,提出一种可行的初始化方法和中心点搜索更新策略。新算法首先利用密度可达思想为数据集中每个对象建立一个稠密区域,遴选出[K]个密度大且距离较远的稠密区域,把对应的稠密区域的核心对象作为聚类算法的[K]个初始中心点;其次,把[K]个中心点搜索更新范围锁定在所选的[K]个有效稠密区域里。新算法在Iris、Wine、PId标准数据集中测试,获取了理想中心点和稠密区域,并且在较少的迭代次数内收敛到最优解或近似最优解。  相似文献   

7.
基于均衡化函数的k均值优化算法   总被引:3,自引:0,他引:3       下载免费PDF全文
传统的k-means算法要求用户事先给定k值,限制了很多应用,初始中心点随机选择,容易导致局部极值点,常用的评价函数对于求解最优聚类数目也不理想。针对这些问题,该文提出一种新的评价函数——均衡化函数,采用基于密度的初始化中心点选择算法,自动生成聚类数目,实验结果表明了改进算法的有效性。  相似文献   

8.
基于密度的K-means聚类中心选取的优化算法   总被引:2,自引:0,他引:2  
针对传统的K-means算法对于初始聚类中心点和聚类数的敏感问题,提出了一种优化初始聚类中心选取的算法。该算法针对数据对象的分布密度以及计算最近两点的垂直中点方法来确定k个初始聚类中心,再结合均衡化函数对聚类个数进行优化,以获得最优聚类。采用标准的UCI数据集进行实验对比,发现改进后的算法相比传统的算法有较高的准确率和稳定性。  相似文献   

9.
一种优化初始中心点的K-means算法   总被引:13,自引:0,他引:13  
针对K-means算法所存在的问题,提出一种优化初始中心点的算法.采用密度敏感的相似性度量来计算对象的密度,启发式地生成样本初始中心.然后设计一种评价函数——均衡化函数,并以均衡化函数为准则自动生成聚类数目.与传统算法相比,本文算法可得到较高质量的初始中心和较稳定的聚类结果.实验结果表明该算法的有效性和可行性.  相似文献   

10.
为了提高K-medoids算法的精度和稳定性,并解决K-medoids算法的聚类数目需要人工给定和对初始聚类中心点敏感的问题,提出了基于密度权重Canopy的改进K-medoids算法。该算法首先计算数据集中每个样本点的密度值,选择密度值最大的样本点作为第1个聚类中心,并从数据集中删除这个密度簇;然后通过计算剩下样本点的权重,选择出其他聚类中心;最后将密度权重Canopy作为K-medoids的预处理过程,其结果作为K-medoids算法的聚类数目和初始聚类中心。UCI真实数据集和人工模拟数据集上的仿真实验表明,该算法具有较高的精度和较好的稳定性。  相似文献   

11.
陈晋音  何辉豪 《自动化学报》2015,41(10):1798-1813
面对广泛存在的混合属性数据,现有大部分混合属性聚类算法普遍存在聚类 质量低、聚类算法参数依赖性大、聚类类别个数和聚类中心无法准确自动确定等问题,针对 这些问题本文提出了一种基于密度的聚类中心自动确定的混合属性数据 聚类算法.该算法通过分析混合属性数据特征,将混合属性数据分为数 值占优、分类占优和均衡型混合属性数据三类,分析不同情况的特征选取 相应的距离度量方式.在计算数据集各个点的密度和距离分布图基础 上,深入分析获得规律: 高密度且与比它更高密度的数据点有较大距离的数 据点最可能成为聚类中心,通过线性回归模型和残差分析确定奇异 点,理论论证这些奇异点即为聚类中心,从而实现了自动确定聚类中心.采 用粒子群算法(Particle swarm optimization, PSO)寻找最优dc值,通过参数dc能够计算得到 任意数据对象的密度和到比它密度更高的点的最小距离,根据聚类 中心自动确定方法确定每个簇中心,并将其他点按到最近邻的更高 密度对象的最小距离划分到相应的簇中,从而实现聚类.最终将本文 提出算法与其他现有的多种混合属性聚类算法在多个数据集上进行 算法性能比较,验证本文提出算法具有较高的聚类质量.  相似文献   

12.
基于遗传算法的模糊聚类分析   总被引:9,自引:0,他引:9  
模糊C-均值聚类(FCM)应用广泛,但是它容易陷入局部最优,且对初始值很敏感。该文提出了一种基于遗传算法的模糊聚类方法,首先用遗传算法对模糊聚类中聚类中心的个数和聚类中心的选取进行指导,然后利用FCM进行聚类。实验结果表明:该方法可以在一定程度上避免FCM算法对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,效果很好。  相似文献   

13.
K-means type clustering algorithms for mixed data that consists of numeric and categorical attributes suffer from cluster center initialization problem. The final clustering results depend upon the initial cluster centers. Random cluster center initialization is a popular initialization technique. However, clustering results are not consistent with different cluster center initializations. K-Harmonic means clustering algorithm tries to overcome this problem for pure numeric data. In this paper, we extend the K-Harmonic means clustering algorithm for mixed datasets. We propose a definition for a cluster center and a distance measure. These cluster centers and the distance measure are used with the cost function of K-Harmonic means clustering algorithm in the proposed algorithm. Experiments were carried out with pure categorical datasets and mixed datasets. Results suggest that the proposed clustering algorithm is quite insensitive to the cluster center initialization problem. Comparative studies with other clustering algorithms show that the proposed algorithm produce better clustering results.  相似文献   

14.
一种基于广度优先搜索的K-means初始化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
K-means算法是在现实应用中非常广泛的聚类算法,K-means算法对初始中心的选择非常敏感,对已存在的有代表性的初始算法进行了研究,提出了一种基于广度优先搜索的K-means初始化算法。该算法综合考虑了密度与距离因素,选择初始点。分析表明该算法选择的初始点非常接近期望的中心点。  相似文献   

15.
尹娜  张琳 《计算机科学》2017,44(5):116-119, 140
为了提高异常检测系统的检测率,降低误警率,解决现有异常检测所存在的问题,将离群点挖掘技术应用到异常检测中,提出了一种基于混合式聚类算法的异常检测方法(NADHC)。该方法将基于距离的聚类算法与基于密度的聚类算法相结合从而形成新的混合聚类算法,通过k-中心点算法找出簇中心,进而去除隐蔽性较高的少量攻击行为样本,再将重复增加样本的方法结合基于密度的聚类算法计算出异常度,从而判断出异常行为。最后在KDD CUP 99数据集上进行实验仿真,验证了所提算法的可行性和有效性。  相似文献   

16.
The leading partitional clustering technique, k-modes, is one of the most computationally efficient clustering methods for categorical data. However, the performance of the k-modes clustering algorithm which converges to numerous local minima strongly depends on initial cluster centers. Currently, most methods of initialization cluster centers are mainly for numerical data. Due to lack of geometry for the categorical data, these methods used in cluster centers initialization for numerical data are not applicable to categorical data. This paper proposes a novel initialization method for categorical data which is implemented to the k-modes algorithm. The method integrates the distance and the density together to select initial cluster centers and overcomes shortcomings of the existing initialization methods for categorical data. Experimental results illustrate the proposed initialization method is effective and can be applied to large data sets for its linear time complexity with respect to the number of data objects.  相似文献   

17.
针对基于Hub的聚类算法K-hubs算法存在对初始聚类中心敏感的问题,提出一种基于Hub的初始中心选择策略。该策略充分利用高维数据普遍存在的Hubness现象,选择相距最远的K个Hub点作为初始的聚类中心。实验表明采用该策略的K-hubs算法与原来采用随机初始中心的K-hubs算法相比,前者拥有较好的初始中心分布,能够提高聚类准确率,而且初始中心所在的位置倾向于接近最终簇中心,有利于加快算法收敛。  相似文献   

18.
Partitional clustering of categorical data is normally performed by using K-modes clustering algorithm, which works well for large datasets. Even though the design and implementation of K-modes algorithm is simple and efficient, it has the pitfall of randomly choosing the initial cluster centers for invoking every new execution that may lead to non-repeatable clustering results. This paper addresses the randomized center initialization problem of K-modes algorithm by proposing a cluster center initialization algorithm. The proposed algorithm performs multiple clustering of the data based on attribute values in different attributes and yields deterministic modes that are to be used as initial cluster centers. In the paper, we propose a new method for selecting the most relevant attributes, namely Prominent attributes, compare it with another existing method to find Significant attributes for unsupervised learning, and perform multiple clustering of data to find initial cluster centers. The proposed algorithm ensures fixed initial cluster centers and thus repeatable clustering results. The worst-case time complexity of the proposed algorithm is log-linear to the number of data objects. We evaluate the proposed algorithm on several categorical datasets and compared it against random initialization and two other initialization methods, and show that the proposed method performs better in terms of accuracy and time complexity. The initial cluster centers computed by the proposed approach are close to the actual cluster centers of the different data we tested, which leads to faster convergence of K-modes clustering algorithm in conjunction to better clustering results.  相似文献   

19.
一种基于粒子群的聚类算法   总被引:2,自引:0,他引:2  
姚丽娟  罗可  孟颖 《计算机工程与应用》2012,48(13):150-153,175
针对K-中心点算法对初始化敏感和容易陷入局部极值的缺点,提出一种基于粒子群算法和密度初始化改进的K-中心点聚类算法。该算法初始化时选择距离较远的k个候选范围作为k个聚类中心的选择范围,即粒子的初始值都在该k个范围内。通过粒子群算法优化聚类中心,以解决K-中心点算法因为聚类中心迭代计算较为复杂而导致的时间复杂度较高的问题。实验结果表明,该算法具有较高的正确率,较小的时间复杂度,综合性能更加稳定。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号