共查询到19条相似文献,搜索用时 125 毫秒
1.
2.
基于遗传算法的K均值聚类分析 总被引:11,自引:0,他引:11
1 前言聚类分析就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同的簇中的对象差别较大。聚类分析目前应用广泛,已经成为数据挖掘主要的研究领域。通过聚类,人们能够识别密集的和稀疏的区域,从而发现数据的整体分布模式,还能找到数据间的有趣的相互关系。关于聚类分析目前已经有K均值,CURE等很多算法, 相似文献
3.
空间聚类分析是空间数据挖掘中的一个重要研究课题。传统聚类算法忽略了真实世界中许多约束条件的存在,而约束条件的存在会影响聚类结果的合理性。讨论了带障碍约束的空间聚类问题,研究了一种基于遗传和划分相结合的带障碍约束空间数据聚类分析方法,设计了一个带障碍约束的遗传K中心空间聚类分析算法。对比实验表明,该方法兼顾了局部收敛和全局收敛性能,考虑到了现实障碍物对聚类结果的影响,使得聚类结果更具有实际意义,其结果优于传统K中心聚类及单纯的遗传聚类,不足之处是其计算速度相对较慢。 相似文献
4.
5.
基于聚类分析的K means算法研究及应用* 总被引:3,自引:1,他引:2
通过对聚类分析及其算法的论述,从多个方面对这些算法性能进行比较,同时以儿童生长发育时期的数据为例通过聚类分析的软件和改进的Kmeans算法来进一步阐述聚类分析在数据挖掘中的实践应用。 相似文献
6.
7.
数据挖掘中聚类分析的技术方法 总被引:1,自引:0,他引:1
数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。对各种聚类算法进行了分类,对代表算法作了详细的分析,并对这些算法从多个方面进行了比较,从而为研究和在不同领域使用这些算法提供了参考。同时还阐述了聚类分析在数据挖掘中的应用。 相似文献
8.
数据挖掘中聚类分析的技术方法 总被引:31,自引:21,他引:31
数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术,本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对这些算法性能进行比较,同时还对聚类分析在数据挖掘中的几个应用进行了阐述。 相似文献
9.
目前随着信息检索技术的不断深入,信息检索技术中的聚类分析也得到了不断的发展,特别是随着各种数据源的大量涌现,如图像数据,文本数据,DNA数据,时间序列数据,Web数据等等,聚类分析越来越受到重视,对聚类的研究已经成为信息检索领域中一个非常活跃的研究课题。论文以聚类分析方法为理论基础,利用面向对象编程技术完成了一个聚类软件,应用该聚类软件,可对信息实现快速检索,具有实用价值。 相似文献
10.
11.
增量式K-Medoids聚类算法 总被引:3,自引:0,他引:3
聚类是一种非常有用的数据挖掘方法,可用于发现隐藏在数据背后的分组和数据分布信息。目前已经提出了许多聚类算法及其变种,但在增量式聚类算法研究方面所做的工作较少。当数据集因更新而发生变化时,数据挖掘的结果也应该进行相应的更新。由于数据量大,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效,因此亟待研究增量式聚类算法。该文通过对K-Medoids聚类算法的改进,提出一种增量式K-Medoids聚类算法。它能够很好地解决传统聚类算法在伸缩性、数据定期更新时所面临的问题。 相似文献
12.
核酸序列数据库上的联机分析处理方法 总被引:1,自引:0,他引:1
1.前言 2000年6月26日,被誉为生命“阿波罗计划”的人类基因组计划,终于完成了工作草图,它预示着完成人类基因组计划已经指日可待,也预示着基于序列的生物学时代已经到来。截止目前为止,仅登录在欧洲生物信息中心EMBL核酸序列数据库中的序列总量就已接近200亿碱基对。与其同步的还有数据库中蛋白质数目的增长。例如,在SWISS-PROT蛋白质数据库中的序列现在已经接近了11万个,此外,还有一万多种蛋白 相似文献
13.
基于适应度的簇划分算法研究 总被引:2,自引:0,他引:2
延长网络生存期、减少网络能量消耗是传感器网络一项重要性能指标,分簇方案是实现该目标的主要方法之一.通过分析影响簇状网能耗的主要能耗参数,引入节点适应度模型,并该模型运用到簇划分算法中,优化网络能量效率.算法是分布式簇划分算法,在簇划分过程中,通过比较节点局部区域能量比、通信代价比、节点度数综合能耗因素,决定簇首节点和成簇规模.仿真结果表明该算法能够降低簇间的通信重叠,均衡网络负载,与几种算法比较适应度分簇算法使网络生存时间增加的幅度虽然不是很大,但是使网络系统的稳定时间比其他2种能量有效的算法延长了近20%左右. 相似文献
14.
摘要位置不确定性数据的聚类是一个新的不确定性数据聚类问题。其聚类方法主要包括获取对象的概率密度函数,通过积分计算对象间的期望距离来进行聚类分析和以区间数表示对象,通过区间数的系列运算来进行聚类分析这两大类。前者存在概率密度函数获取困难、计算复杂、实用性不强的缺陷;后者在区间数转化为实数过程中,忽略了区间数变化范围对聚类效果的影响,其聚类质量不佳。鉴于此,提出一种基于联系数的不确定对象聚类新算法UCNK-Means。该算法用联系数巧妙地表示不确定性对象,并专门定义了对象间的联系距离,运用联系数态势值比较联系距离大小,克服了现有算法的不足。仿真实验表明,UCNK-Means具有聚类精度高、计算复杂度低、实用性强的特点。 相似文献
15.
一种基于熵的聚类算法 总被引:1,自引:1,他引:1
给出了一种以Reny熵为评价准则的聚类算法,通过非参数估计法估计密度函数,再利用类内熵和类间熵进行聚类和确定聚类的数目。这种算法不需要用户输入与聚类有关的参数,能根据由数据的分布的特性自动获取要聚类的数目,并能发现任意形状和任意大小的聚类。实验结果显示了算法的有效性和优越性。 相似文献
16.
17.
随着数据挖掘技术的日趋成熟,其在生活中的作用也越来越重要。本文首先介绍了数据挖掘,聚类分析和分类分析的相关知识,然后将层次聚类应用到分类规则挖掘中。 相似文献
18.
19.
基于聚类融合的不平衡数据分类方法 总被引:2,自引:0,他引:2
不平衡数据分类问题目前已成为数据挖掘和机器学习的研究热点。文中提出一类基于聚类融合的不平衡数据分类方法,旨在解决传统分类方法对少数类的识别率较低的问题。该方法通过引入“聚类一致性系数”找出处于少数类边界区域和处于多数类中心区域的样本,并分别使用改进的SMOTE过抽样方法和改进的随机欠抽样方法对训练集的少数类和多数类进行不同的处理,以改善不同类数据的平衡度,为分类算法提供更好的训练平台。通过实验对比8种方法在一些公共数据集上的分类性能,结果表明该方法对少数类和多数类均具有较高的识别率。 相似文献