首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
粗糙聚类是不确定聚类算法中一种有效的聚类算法,这里通过分析粗糙k-means算法,指出了其中3个参数wl,wu和ε设置时存在的缺点,提出了一种自适应粗糙k-means聚类算法,该算法能进一步优化粗糙k-means的聚类效果,降低对“噪声”的敏感程度,最后通过实验验证了算法的有效性。  相似文献   

2.
在PSO算法的基础上提出的基于量子行为的QPSO算法,并将其应用到基因表达数据集上。QPSO基因聚类算法是将N条基因根据使TWCV(Total Within-Cluster Variation)函数值达到最小分到由用户指定的K个聚类中。根据K-means算法的优点,利用K-means聚类的结果重新初始化粒子群,结合QPSO和PSO的聚类算法提出了KQPSO和KPSO算法。通过在4个实验数据集上利用K-means、PSO、QPSO、KPSO、KQPSO 5个聚类算法得出的结果比较显示QPSO算法在基因表达数据分析上具有良好的性能。  相似文献   

3.
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。  相似文献   

4.
一种改进的k-means初始聚类中心选取算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。  相似文献   

5.
针对数据挖掘中文本自动分类问题,提出了一种基于k-means聚类算法和支持向量机相结合的文本分类方法。该方法先将文本大致聚为k类,然后对每一类用支持向量机进行细分。构造了可用于多个模式类识别的多层SVM模型,该模型可完成对多个模式的分类识别。给出了该模型的构造及应用的方法,并验证了该方法的有效性。  相似文献   

6.
K-匿名化是数据发布环境下保护个人隐私的一种有效的方法。指出目前已有的一些K-匿名模型存在隐私泄露问题,给出了一种新的有效的K-匿名模型——(α,L)多样化K-匿名模型解决存在的问题。通过一个局部化泛化算法对新模型的有效性进行实验验证。  相似文献   

7.
新的K-均值算法最佳聚类数确定方法   总被引:8,自引:0,他引:8       下载免费PDF全文
K-均值聚类算法是以确定的类数k和随机选定的初始聚类中心为前提对数据集进行聚类的。通常聚类数k事先无法确定,随机选定的初始聚类中心容易使聚类结果不稳定。提出了一种新的确定K-均值聚类算法的最佳聚类数方法,通过设定AP算法的参数,将AP算法产生的聚类数作为聚类数搜索范围的上界kmax,并通过选择合适的有效性指标Silhouette指标,以及基于最大最小距离算法思想设定初始聚类中心,分析聚类效果,确定最佳聚类数。仿真实验和分析验证了以上算法方案的可行性。  相似文献   

8.
目的 高光谱图像波段数目巨大,导致在解译及分类过程中出现“维数灾难”的现象。针对该问题,在K-means聚类算法基础上,考虑各个波段对不同聚类的重要程度,同时顾及类间信息,提出一种基于熵加权K-means全局信息聚类的高光谱图像分类算法。方法 首先,引入波段权重,用来刻画各个波段对不同聚类的重要程度,并定义熵信息测度表达该权重。其次,为避免局部最优聚类,引入类间距离测度实现全局最优聚类。最后,将上述两类测度引入K-means聚类目标函数,通过最小化目标函数得到最优分类结果。结果 为了验证提出的高光谱图像分类方法的有效性,对Salinas高光谱图像和Pavia University高光谱图像标准图中的地物类别根据其光谱反射率差异程度进行合并,将合并后的标准图作为新的标准分类图。分别采用本文算法和传统K-means算法对Salinas高光谱图像和Pavia University高光谱图像进行实验,并定性、定量地评价和分析了实验结果。对于图像中合并后的地物类别,光谱反射率差异程度大,从视觉上看,本文算法较传统K-means算法有更好的分类结果;从分类精度看,本文算法的总精度分别为92.20%和82.96%, K-means算法的总精度分别为83.39%和67.06%,较K-means算法增长8.81%和15.9%。结论 提出一种基于熵加权K-means全局信息聚类的高光谱图像分类算法,实验结果表明,本文算法对高光谱图像中具有不同光谱反射率差异程度的各类地物目标均能取得很好的分类结果。  相似文献   

9.
一种新的聚类有效性函数   总被引:3,自引:1,他引:2       下载免费PDF全文
聚类有效性函数是用于评价聚类结果优劣的指标,准确地给出初始聚类类别数将使得聚类结果趋于合理化。根据模糊不确定性理论及聚类问题的基本特性,引入了新的紧密度度量指标DiU;c),在此基础上提出了一个旨在寻求最优聚类类别数的有效性函数。该函数基于数据集的紧密度与分离度特征,综合考虑了数据成员的隶属度及数据集的几何结构。实验结果表明该有效性函数能够发现最优的聚类类别数,对于分类结构较为明确的数据集表现出良好的性能,并且对于权重系数具有良好的鲁棒性。  相似文献   

10.
朱二周  孙悦  张远翔  高新  马汝辉  李学俊 《软件学报》2021,32(10):3085-3103
聚类分析是统计学、模式识别和机器学习等领域的研究热点.通过有效的聚类分析,数据集的内在结构与特征可以被很好地发掘出来.然而,无监督学习的特性使得当前已有的聚类方法依旧面临着聚类效果不稳定、无法对多种结构的数据集进行正确聚类等问题.针对这些问题,首先将K-means算法和层次聚类算法的聚类思想相结合,提出了一种混合聚类算法K-means-AHC;其次,采用拐点检测的思想,提出了一个基于平均综合度的新聚类有效性指标DAS(平均综合度之差,difference of average synthesis degree),以此来评估K-means-AHC算法聚类结果的质量;最后,将K-means-AHC算法和DAS指标相结合,设计了一种寻找数据集最佳类簇数和最优划分的有效方法.实验将K-means-AHC算法用于测试多种结构的数据集,结果表明:该算法在不过多增加时间开销的同时,提高了聚类分析的准确性.与此同时,新的DAS指标在聚类结果的评价上要优于当前已有的常用聚类有效性指标.  相似文献   

11.
针对传统的K-均值算法聚类时所面临的维数灾难、初始聚类中心点难以确定的缺点,提出一种改进的K-均值算法,其核心思想是通过降维、基于密度及散布的初始中心点搜索等方法改进K-均值算法。实验结果证明改进后的算法无论在聚类精度还是在稳定性方面,都明显优于标准的K-均值算法。  相似文献   

12.
针对电力公司海量数据分类问题,提出一种改进的k-means数据分类方法。在k-means算法的基础上,应用PCA对k-means算法进行降维处理,用canopy算法优化最佳簇集数、初始聚类中心。然后,应用改进的k-means算法对居民用户用电进行聚类;最后以该聚类结果为基础,建立LSTM预测模型。通过LSTM预测模型对某小区90户居民用电数据进行仿真实验,并对比分析了传统聚类、改进聚类和不适用聚类下LSTM三种模型的预测结果。结果表明,未使用任何聚类算法构建的LSTM模型在进行电力负荷预测时,预测结果的精度最低;应用改进的k-means算法构建的LSTM模型预测结果精度最佳。  相似文献   

13.
针对运动捕获数据的高效匹配问题,提出了一种新的基于四元数描述和EMD( Earth Mover's Distance)的人体运动检索算法。该算法主要包括特征提取和运动匹配两部分。在特征提取部分,为了解决高维数据检索效率低的问题,引入了四元数描述符对关节点的数据信息特征进行描述,通过映射姿态分布的原始数据,并采取K-means聚类方法对待查询动作和运动数据库的特征数据进行降维并归类。在运动匹配部分,根据聚类结果,建立每个特征数据集的距离矩阵,将匹配问题转换为运输优化问题。然后,用EMD算法度量待查询动作和数据库动作之间的相似值。仿真实验结果证明了提出的算法是有效的。  相似文献   

14.
针对K-means算法处理海量数据的聚类效果和速率,提出一种基于MapReduce框架下的K-means算法分布式并行化编程模型。首先对K-means聚类算法初始化敏感的问题,给出一种新的相异度函数,根据数据间的相异程度来确定k值,并选取相异度较小的点作为初始聚类中心,再把K-means算法部署在MapReduce编程模型上,通过改进MapReduce编程模型来加快K-means算法处理海量数据的速度。实验表明,基于MapReduce框架下改进的K-means算法与传统的K-means算法相比,准确率及收敛时间方面均有所提高,并且并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。  相似文献   

15.
在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法:其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法:其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。  相似文献   

16.
为了加快[K]-means计算速度和寻找最优聚类子空间,使用特定的变换矩阵对数据进行投影,将特征空间划分为聚类空间和噪声空间,前者包含全部空间结构信息,后者不包含任何信息。将噪声空间舍弃,在聚类空间下进行[K]-means每一次迭代。算法不同于PCA [K]-means先降维再聚类,而是在迭代过程中达到筛选维度的效果,并将保留的维度反馈给下一次迭代,同时聚类空间的维度信息是自动发现的,没有引入额外的参数。实验证明AC [K]-means算法相较于已有同类型算法在准确度和计算时间方面都得到了大幅提升。  相似文献   

17.
Clustering techniques have received attention in many fields of study such as engineering, medicine, biology and data mining. The aim of clustering is to collect data points. The K-means algorithm is one of the most common techniques used for clustering. However, the results of K-means depend on the initial state and converge to local optima. In order to overcome local optima obstacles, a lot of studies have been done in clustering. This paper presents an efficient hybrid evolutionary optimization algorithm based on combining Modify Imperialist Competitive Algorithm (MICA) and K-means (K), which is called K-MICA, for optimum clustering N objects into K clusters. The new Hybrid K-ICA algorithm is tested on several data sets and its performance is compared with those of MICA, ACO, PSO, Simulated Annealing (SA), Genetic Algorithm (GA), Tabu Search (TS), Honey Bee Mating Optimization (HBMO) and K-means. The simulation results show that the proposed evolutionary optimization algorithm is robust and suitable for handling data clustering.  相似文献   

18.
网络信息安全中的数据具有维数高、规模复杂等特性。网络入侵检测需要对网络入侵信息进行合理的分析,筛选出危险的带有攻击性的行为。随着数据维数的不断升高,传统的基于距离的聚类分析方法不再适用。针对此,本文提出一种基于Krylov子空间方法的高维数据聚类分析算法,首先将高维数据投影到低维空间,实现数据的降维,再用基于遗传算法的K-means算法在低维空间中进行数据的聚类,避免了数据属性的丢失,同时也提高了高维数据聚类分析的效率。最后,使用KDD Cup 99数据进行实验,实验验证了方法的有效性和精确性。  相似文献   

19.
基于不确定数据进行数据挖掘和知识发现的研究由于更加符合客观实际而逐渐成为近年来研究的热点.而在K-means算法聚类的过程中,样本空间各维度对聚类效果贡献的价值不同也成为现实应用中不可回避的问题.为了得到更加客观、真实的聚类结果,在经典K-means算法的基础上引入了属性的权值并重新构造了针对不确定数据集的聚类算法,并通过实验证明了该算法的有效性.  相似文献   

20.
优化初始聚类中心的K-means聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统K-means算法对初始中心十分敏感,聚类结果不稳定问题,提出了一种改进K-means聚类算法。该算法首先计算样本间的距离,根据样本距离找出距离最近的两点形成集合,根据点与集合的计算公式找出其他所有离集合最近的点,直到集合内数据数目大于或等于[α]([α]为样本集数据点数目与聚类的簇类数目的比值),再把该集合从样本集中删除,重复以上步骤得到K(K为簇类数目)个集合,计算每个集合的均值作为初始中心,并根据K-means算法得到最终的聚类结果。在Wine、Hayes-Roth、Iris、Tae、Heart-stalog、Ionosphere、Haberman数据集中,改进算法比传统K-means、K-means++算法的聚类结果更稳定;在Wine、Iris、Tae数据集中,比最小方差优化初始聚类中心的K-means算法聚类准确率更高,且在7组数据集中改进算法得到的轮廓系数和F1值最大。对于密度差异较大数据集,聚类结果比传统K-means、K-means++算法更稳定,更准确,且比最小方差优化初始聚类中心的K-means算法更高效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号