首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
根据因子分析法的思想,用统计学的方法,建立多属性数据样本间的相似矩阵,探索求因子载荷矩阵的有效方法,实现多属性数据的样本聚类。文中的方法是因子分析法在聚类分析中的进一步推广与应用。  相似文献   

2.
聚类分析是数据挖掘的关键技术之一,聚类分析的典型应用包括物种的分类和分生物学的基因分类。同时在数据分析、模式识别、市场分析、流行病分析等领域也有较深入的应用。聚类分析中的典型数据结构分为数据矩阵和相异度矩阵两种。文章重点分析了典型的几类聚类算法,并指出了每一类算法的优缺点,最后对聚类分析技术的发展进行了展望。  相似文献   

3.
为了获得全局最优的高质量层次聚类结果,针对智能蚁群优化算法改进凝聚层次聚类算法,以获得高质量的层次聚类结果,提出一种新的基于蚁群优化和凝聚层次聚类的混合聚类方法.该方法使用改进的凝聚层次聚类算法和新的目标函数生成聚类的系统树图,利用内部指标评估解决方案,用智能蚁群优化算法支持的信息素反馈和信息素挥发机制控制蚁群在解决方案空间中的搜索.由于使用了元启发式优化,加快了搜索过程,避免了局部最优.在加州大学欧文分校多个数据集上的实验结果表明,新方法具备一定的可行性.  相似文献   

4.
DBSCAN算法是一种基于密度的聚类算法.针对该算法在处理混合属性数据上的不足,采用面向维度的距离的思想,对不同类型的数据定义不同的相似度度量方法和不同的相似度阈值,减少了对全局相似度阈值的依赖,提出了一种新的适合混合属性数据聚类的算法M-DBSCAN.仿真表明新算法有效解决了DBSCAN算法无法处理混合属性数据的缺点,对混合属性数据有较好的聚类效果.  相似文献   

5.
针对传统近邻传播聚类算法不能进行限定类簇数目的聚类缺陷,提出一种三阶段的改进聚类方法。该方法通过近邻传播聚类从数据集中获得中心代表点集合,利用K-means算法对中心代表点集合进行指定类簇数目的聚类进而获得初始训练集,结合改进的K最近邻算法实现数据的聚类分析。采用人工仿真数据及UCI数据集进行对比实验,实验结果分析表明,与近邻传播聚类算法和传统限定类簇数目的聚类算法相比,新聚类算法具有更好的聚类效果。  相似文献   

6.
针对移动型数据与静态型数据同时存在的混合数据聚类问题,提出了混合数据聚类MMPSP算法.首先分析了包含静态型数据集与只有一个移动型数据的混合数据聚类问题,再扩展到包含静态型数据集与移动型数据集的混合数据聚类问题.混合数据聚类研究中对两种类型的数据分别进行聚类处理,即对静态型数据聚类处理得到静态簇,对移动型数据聚类处理得...  相似文献   

7.
一种基于PSO的分割聚类算法   总被引:5,自引:0,他引:5  
为了求得一个数据集的最优分割,提出了一种基于PSO的分割聚类算法-PKPSO,将PSO算法和K均值聚类算法有效地结合在一起,对群体中的候选解有选择地利用K均值算法做进一步优化以提高解的精度。通过对算法的分析,给出了控制参数选择依据。并将此算法与单独使用K均值、PSO算法及QPSO算法聚类进行比较,试验测试结果表明:PKPSO算法有更好的全局收敛性,不仅能有效地克服传统算法易陷入局部极小值的缺点,而且求得解的精度和算法的稳定性都明显优于其他方法。  相似文献   

8.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷,提出基于进化思想的聚类算法及其类簇融合算法.该算法将K均值聚类算法嵌入进化聚类算法框架中,通过调整距离倍参,将数据逐渐划分,在此过程中自动确定类簇数目,提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法,将相似度大的类簇进行融合,使得k值逐渐趋向真实值.实验表明,该方法具有良好的实用性.  相似文献   

9.
针对模糊C-均值聚类算法对聚类数预先不可知和谱系聚类所具有的缺陷,提出了混合模糊谱系聚类算法,该算法结合模糊聚类和谱系聚类,自动确定聚类数目,并可以有效的对数据进行聚类.实验表明,该算法具有良好的有效性和可行性.  相似文献   

10.
针对基于密度带有“噪声”的空间聚类应用(DBSCAN)聚类算法存在的3个主要问题: 输入参数敏感、对内存要求高、数据分布不均匀时影响聚类效果,提出了一种基于遗传方法的DBSCAN算法改进方案数据分区中使用遗传思想的DBSCAN算法(DPDGA)来提高聚类质量.利用遗传算法改进K-means算法来获取初始聚类中心;对数据进行划分,在此基础上对划分的每一部分使用DBSCAN算法进行聚类;合并聚类的结果.仿真实验表明,新方法较好解决了传统DBSCAN聚类算法存在的问题,在聚类效率和聚类效果方面均优于传统DBSCAN聚类算法.  相似文献   

11.
数据挖掘技术中聚类算法的改进研究   总被引:1,自引:0,他引:1  
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

12.
在P2PK-Means算法的基础上,提出了一种改进的数据聚类算法DK-Means。该算法不需要所有节点进行全局同步,只需要在直接相连的节点间进行通信,同时利用本地保存的直接相邻节点聚类信息来减少节点间的通信次数,从而减少整个网络的通信开销。与P2PK-Means算法的实验结果对比表明,改进后的算法通信量要小于P2PK-Means算法的通信量,并且在聚类准确度方面也没有损失,此外,随着节点的增多,DK-Means算法所需通信量的增长速度要明显低于P2PK-Means算法。  相似文献   

13.
Data mining is the process of data selection,ex-ploration and building models using vast data stores touncover previously unknown patterns[1].It can makethe decision-making based on the knowledge,by fore-casting the unborn development tendency and action.…  相似文献   

14.
介绍了数据挖掘中的聚类分析技术和方法,并根据数据挖掘实施的步骤,结合其在实际工作中的应用,对区域经济指标体系进行了分析和综合,得出的分析结果同所采用数据当时的经济状况基本吻合,结论较为合理,对制定决策具有积极的指导意义.通过这个实例的应用分析,说明这个方法在解决实际问题时具有全面性和客观性等优点,为数据挖掘技术在实际工作中的应用做了一些有益的探讨.  相似文献   

15.
High dimensional data clustering, with the inherent sparsity of data and the existence of noise, is a serious challenge for clustering algorithms. A new linear manifold clustering method was proposed to address this problem. The basic idea was to search the line manifold clusters hidden in datasets, and then fuse some of the line manifold clusters to construct higher dimensional manifold clusters. The orthogonal distance and the tangent distance were considered together as the linear manifold distance metrics. Spatial neighbor information was fully utilized to construct the original line manifold and optimize line manifolds during the line manifold cluster searching procedure. The results obtained from experiments over real and synthetic data sets demonstrate the superiority of the proposed method over some competing clustering methods in terms of accuracy and computation time. The proposed method is able to obtain high clustering accuracy for various data sets with different sizes, manifold dimensions and noise ratios, which confirms the anti-noise capability and high clustering accuracy of the proposed method for high dimensional data.  相似文献   

16.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

17.
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据.  相似文献   

18.
An algorithm, Clustering Algorithm Based On Sparse Feature Vector (CABOSFV), was proposed for the high dimensional clustering of binary sparse data, This algorithm compresses the data effectively by using a tool ‘Sparse Feature Vector‘, thus reduces the data scale enormously, and can get the clustering result with only one data scan, Both theoretical analysis and empirical tests showed that CABOSFV is of low computational complexity. The algorithm finds clusters in high dimensional large datasets efficiently and handles noise effectively.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号