首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
提出了一种基于人工免疫系统重要模型aiNet模型的层次聚类算法aiNHA。该算法首先采用aiNet的方法生成抗体的记忆细胞矩体和相似性矩阵,这样就将数据集划分为若干子簇。再按照层次聚类的方法,合并连接相似度高的子簇,得到最终的聚类结果。该算法适用于发现任意形状的聚类簇,并且继承了免疫算法搜索速度快、效率高的优点。  相似文献   

2.
周鹿扬  程文杰  徐建鹏  徐祥 《计算机科学》2016,43(Z6):454-456, 484
针对k-means算法采用单一的聚类中心描述一个类簇,一般不能有效适用于任意形状簇的缺陷,在研究k-means算法以及初始聚类中心优化算法的基础上,考虑将数据集中较大或延伸状的簇分割成若干球状簇,而后合并这些小簇。该算法首先选取一组分布于高密度区域的聚类中心,将聚类中心周围的对象划分到离其最近的聚类中心形成子簇,再根据子簇之间的连通性完成子簇合并。实验证明,该算法能有效适应任意形状簇,并保持了k-means算法简单的优点。  相似文献   

3.
庞宁  张继福  秦啸 《自动化学报》2018,44(3):517-532
采用多属性频率权重以及多目标簇集质量聚类准则,提出一种分类数据子空间聚类算法.该算法利用粗糙集理论中的等价类,定义了一种多属性权重计算方法,有效地提高了属性的聚类区分能力;在多目标簇集质量函数的基础上,采用层次凝聚策略,迭代合并子簇,有效地度量了各类尺度的聚类簇;利用区间离散度,解决了使用阈值删除噪音点所带来的参数问题;利用属性对簇的依附程度,确定了聚类簇的属性相关子空间,提高了聚类簇的可理解性.最后,采用人工合成、UCI和恒星光谱数据集,实验验证了该聚类算法的可行性和有效性.  相似文献   

4.
阐速了一种无监督连接划分聚类算法,算法基本思想是首先通过分割的方法将数据集划分为若干个原子簇,尊除噪声原子簇,然后通过对原子簇间连接亲密度的分析,构造原子簇间的连接图,切断车接亲密度很低的原子簇连接,合并连接亲密度高的连接,划分得到最后的聚类结果。算法具有很高的有效性,适用于高维数据集,能够对任意形状的簇进行聚类。通过分析与实验,证明该方法具有良好的效果。  相似文献   

5.
应用聚类算法对入侵检测数据集进行聚类,通过对其聚类结果的分析,发现聚类的部分簇中存在划分不够紧凑的问题。为此,提出应用加权聚类算法对簇中与聚类中心距离较远的数据进行聚类,解决了聚类结果中存在“子簇”的问题。结果表明,簇的紧凑性有较大提升,同时由于子簇数量的减少使得检测率有所提升,加快了检测速度。  相似文献   

6.
为提高数据一致性以及检索效率,提出一种基于聚类算法的多维数据库一致性检测与恢复方法。计算数据指标均值与标准差,标准化处理数据;利用K-means算法衡量不同数据属性的相似特征,建立特征簇,选择聚类特征;通过稀疏图描述数据间关系,利用多级图分割算法获取多个子图,通过凝聚层次聚类方法,判断子图间相似度,设定合并阈值聚类子图,根据聚类结果判断数据库的一致性;针对一致性较差的数据库,采用等价类算法构建恢复模型,实现多维数据库一致性检测与恢复。实验结果证明:所提方法检测速度快,恢复后数据库一致性较好。  相似文献   

7.
基于二部图的概念聚类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
传统概念聚类算法中簇的更新和存储不仅依赖于对象数目和属性数目,而且依赖于属性值的数目,这种局限性使其不适用于大型数据集。提出一种新的基于二部图的概念聚类算法(BGBCC),该算法通过获得二部图的近似极大ε二元组集,有效地进行数据与属性的关联聚类。实验表明,该算法能得到较好的聚类结果,且能在较短的时间内进行大型数据集的概念聚类。  相似文献   

8.
针对密度峰值聚类算法CFSFDP(Clustering by fast search and find of density peaks)计算密度时人为判断截断距离和人工截取簇类中心的缺陷,提出了一种基于非参数核密度估计的密度峰值的聚类算法。首先,应用非参数核密度估计方法计算数据点的局部密度;其次,根据排序图采用簇中心点自动选择策略确定潜在簇类中心点,将其余数据点归并到相应的簇类中心;最后,依据簇类间的合并准则,对邻近相似子簇进行合并,并根据边界密度识别噪声点,得到聚类结果。在人工测试数据集和UCI真实数据集上的实验表明,新算法较之原CFSFDP算法,不仅有效避免了人为判断截断距离和截取簇类中心的主观因素,而且可以取得更高的准确度。  相似文献   

9.
密度峰值聚类算法在处理密度不均匀的数据集时易将低密度簇划分到高密度簇中或将高密度簇分为多个子簇,且在样本点分配过程中存在误差传递问题。提出一种基于相对密度的密度峰值聚类算法。引入自然最近邻域内的样本点信息,给出新的局部密度计算方法并计算相对密度。在绘制决策图确定聚类中心后,基于对簇间密度差异的考虑,提出密度因子计算各个簇的聚类距离,根据聚类距离对剩余样本点进行划分,实现不同形状、不同密度数据集的聚类。在合成数据集和真实数据集上进行实验,结果表明,该算法的FMI、ARI和NMI指标较经典的密度峰值聚类算法和其他3种聚类算法分别平均提高约14、26和21个百分点,并且在簇间密度相差较大的数据集上能够准确识别聚类中心和分配剩余的样本点。  相似文献   

10.
传统K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定,而优化初始聚类中心的K-means算法需要一定的参数选择,也会使聚类结果缺乏客观性。为此,根据样本空间分布紧密度信息,提出利用最小方差优化初始聚类中心的K-means算法。该算法运用样本空间分布信息,通过计算样本空间分布的方差得到样本紧密度信息,选择方差最小(即紧密度最高)且相距一定距离的样本作为初始聚类中心,实现优化的K-means聚类。在UCI机器学习数据库数据集和含有噪音的人工模拟数据集上的实验结果表明,该算法不仅能得到较好的聚类结果,且聚类结果稳定,对噪音具有较强的免疫性能。  相似文献   

11.
针对大数据环境下高维数据聚类速度慢、准确率低的问题,提出了一种面向大数据的快速自动聚类算法(FACABD)。FACABD聚类算法利用谱聚类算法对大数据集进行归一化和列降维,提出了一种新的快速区域进化的粒子群算法(FRE-PSO),并利用该算法进行行降维;然后在降维处理后的数据基础上,引入聚类模糊隶属度基数,自动发现簇的数目,根据类簇数目,采用FRE-PSO算法结合模糊聚类算法快速完成自动聚类。在人工生成数据集和UCI机器学习数据集上的实验结果表明,该算法能够在数据驱动下快速自动聚类,有效地提高了运行速度和精度。  相似文献   

12.
文[1]采用了一种基于动态模型的聚类算法,将时序基因表达数据作为一组时间序列进行动态的聚类分析,得到了较为理想的聚类结果。对上述算法在数据初始化方面进行了合理改进,并利用贝叶斯理论对数据的联合概率分布进行了重新分析。实验表明,提出的改进算法所得聚类结果明显优于原算法所得结果。  相似文献   

13.
针对异构网络数据资源存在节点及链路均衡度过低且数据重构资源分配路径误差较大的问题,设计一种基于节点拓扑感知的异构网络数据动态重构算法。利用模糊核聚类算法将数据样本集映射至高维空间内,聚类目标数据,根据节点在网络中对应的坐标构建异构网络拓扑模型及数据权矩阵模型;设置路由器物理链路通信图,根据链路带宽约束优化数据重构资源的分配路径,将节点核心区数据重构,并分配至聚类节点来感知数据的动态变化,为每一个核心聚类节点拓扑感知一个路由器数据的动态变化,来实现全局的数据动态重构,至此完成基于节点拓扑感知的异构网络数据动态重构算法的设计。设计仿真实验,测试算法的节点均衡度与链路均衡度。实验结果表明,设计的算法的节点均衡度为0.93,链路均衡度为0.90,均高于对比方法,因此可以得出,该算法的资源均衡度更好。  相似文献   

14.
[K]均值聚类算法是聚类领域最知名的方法之一,然而[K]均值聚类完全依赖欧式距离进行聚类,忽略了样本特征离散程度对聚类结果的影响,导致聚类边缘样本容易被误聚类,且算法易局部收敛,聚类准确率较低。针对传统[K]均值聚类算法的不足,提出了似然[K]均值聚类算法,对于每个聚类的所有样本考虑每个维度样本特征的离散程度信息,分别计算样本属于某一聚类的似然概率,能够有效提高聚类准确率。在人造数据集和基准数据集验证了似然[K]均值聚类算法的优越性,将其应用于涡扇发动机气路部件故障以及传感器故障的模式识别,验证了该算法在涡扇发动机故障诊断中的实用性和有效性。  相似文献   

15.
为解决传统聚类算法初始中心易陷入局部最优、耗时长的问题,提出一种改进的K-means聚类优化算法。该算法引入最大最小距离和加权欧氏距离,从剩余聚类点距离均值和出发,避免孤立点和边缘数据的影响。利用比重法对主成分进行改进,以由此获得的特征影响因子作为初始特征权重,构建一种加权欧氏距离度量。根据特征贡献率对聚类的影响,筛选具有代表性的特征因子凸显聚类效果,最终合成汽车行驶工况,分析瞬时油耗。结果表明,所提算法构建行驶工况的速度-加速度联合分布差异值仅为105%,比传统K-means聚类省时44.2%,行驶工况拟合度较高,能反映实际车辆的运行特征及油耗。   相似文献   

16.
文章提出了一种基于算法选择和结果评估的自动聚类方法。对给定数据集,该方法首先通过分析数据集的潜在簇结构,并依据所发现的簇结构为数据集挑选一种合适的备选聚类算法集;然后利用聚类有效性指标对这个算法集的算法聚类结果进行评估,以确保得到高质量聚类结果。实验结果表明该方法能够自动地挑选适合数据集的聚类算法,并获得高质量的聚类结果。  相似文献   

17.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

18.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

19.
传统的模糊连接点FJP聚类算法采用基于欧氏距离的最大 最小合成运算法生成传递闭包,该方法所生成的传递闭包存在失真问题,即包含有较多错误的数据关联信息,最终造成算法聚类精度低且计算时间长。针对以上问题,提出一种改进的模糊连接点聚类算法:先用组合核函数计算数据集的模糊相似度矩阵,提高算法对数据非线性特征的辨识能力,并用大顶堆存储之;然后遍历传递闭包矩阵中的空元素,用堆顶的桥元素填充传递闭包的空元素,直至生成传递闭包。在测试数据集上的实验结果表明,本文算法的平均聚类精度较传统FJP算法有20%以上的提升,显著改善了传递闭包的失真问题;另外,在大型数据集上的计算效率亦优于传统FJP算法的,说明本文改进FJP算法的思路是有效的、可行的。  相似文献   

20.
针对现有层次聚类算法难以处理不完备数据集,同时考虑样本与类簇之间的不确定关系,提出一种面向不完备数据的集对粒层次聚类算法-SPGCURE.首先,采用集对信息粒的知识对缺失值进行处理,不同于以往算法中将缺失属性删除或者填充,用集对联系度中的差异度来表示缺失属性值,提出一种改进的集对信息距离度量方法,用于考量不完备数据样本间的紧密程度;其次,基于改进后的集对距离度量,给出各个类簇的类内平均距离的定义,形成以正同域Cs(样本一定属于类簇)、边界域Cu(样本可能属于类簇)和负反域Co(样本不属于类簇)表示的集对粒层次聚类;SPGCURE算法在完备和不完备数据都适用,最后,选用5个经典的UCI数据集,与常用的经典及改进聚类算法进行实验评价,结果表明,SPGCURE算法在准确度、F-measure、调整兰德系数和标准互信息等指标上均具有不错的聚类性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号