期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘美玲黄名选汤卫东《计算机工程与科学》2017,39(6):1164-1170

传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。相似文献

2.

对K-means及势函数聚类算法的研究与改进

叶于林夏秀渝莫建华刘帅《计算机系统应用》2015,24(4):209-213

在目前聚类方法中, k-means与势函数是最常用的算法,虽然两种算法有很多优点,但也存在自身的局限性。 k-means聚类算法：其聚类数目无法确定,需要提前进行预估,同时对初始聚类中心敏感,且容易受到异常点干扰;势函数聚类算法：其聚类区间范围有限,对多维数据进行聚类其效率低。针对以上两种算法的缺点,提出了一种基于 K-means 与势函数法的改进聚类算法。它首先采用势函数法确定聚类数目与初始中心,然后利用K-means法进行聚类,该改进算法具有势函数法“盲”特性及K-means法高效性的优点。实验对改进算法的有效性进行了验证,结果表明,改进算法在聚类精度及收敛速度方面有很大提高。相似文献

3.

启发式初始化独立的k-均值算法研究

王会青陈俊杰郭凯《计算机工程与应用》2012,48(11):129-132,160

针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。相似文献

4.

改进的基于遗传算法的粗糙聚类方法 总被引：2，自引：0，他引：2

下载免费PDF全文

洪亮亮罗可《计算机工程与应用》2010,46(25):142-145

传统的聚类算法都是使用硬计算来对数据对象进行划分,然而现实中不同类之间对象通常没有明确的界限。粗糙集理论提供了一种处理边界对象不确定的方法。因此将粗糙理论与k-均值方法相结合。同时,传统的k-均值聚类方法必须事先给定聚类数k,但实际情况下k很难确定;另外虽然传统k-均值算法局部搜索能力强,但容易陷入局部最优。遗传算法能得到全局最优解,但收敛过快。鉴于此,提出了一种改进的基于遗传算法的的粗糙聚类方法。该算法能动态地生成k-均值聚类数,采用最大最小原则生成初始聚类中心,同时结合粗糙集理论的上近似和下近似处理边界对象。最后,用UCI的Iris数据集分别对算法进行实际验证。实验结果表明,该算法具有较高的正确率,综合性能更加稳定。相似文献

5.

基于佳点集遗传算法的聚类技术

苏守宝刘仁金《计算机应用》2005,25(3):643-645

提出了两种基于佳点集遗传算法的聚类新方法GAmeans和HgaMeans,适用于不同数据库下的聚类挖掘。GAmeans可用于发现指定簇数的聚类中心,具有对初始数据的弱依赖性、收敛快、精度高并可避免早熟的特点;而混合方法HgaMeans是利用k-means对GAmeans聚类结果的进一步提炼,实验表明它具有更好的聚类质量和综合性能。相似文献

6.

一种基于密度的K—means算法

乔小妮张明新史变霞《电脑开发与应用》2008,21(10):9-11

基于密度聚类的思想,提出了一种改进的K—means算法。算法吸取密度聚类算法的优点,利用对象的t-邻域密度作为选择初始聚类中心点的条件．选出较优的初始中心点,从而得到较好的聚类效果。通过实验表明,此方法相对于随机选取初始聚类中心点准确率较高、稳定性强、可伸缩性好。相似文献

7.

一种基于密度的高效聚类算法 总被引：9，自引：1，他引：8

石陆魁何丕廉《计算机应用》2005,25(8):1824-1826

在聚类算法DBSCAN(DensityBasedSpatialClusteringofApplicationswithNoise)的基础上,提出了一种基于密度的高效聚类算法。该算法首先对样本集按某一维排序,然后通过在核心点的邻域外按顺序选择一个未标记的样本点来扩展种子点,以便减少查询次数,降低聚类的时间花费。对样本进行非线性核变换后再进行聚类可以有效地改善聚类的质量。理论分析表明,该算法的时间复杂性接近于线性复杂度。同时测试结果也表明新算法的时间复杂度和聚类质量都显著优于DBSCAN算法。相似文献

8.

一种改进的粗k 均值聚类算法

王莉周献中沈捷《控制与决策》2012,27(11):1711-1714

Lingras提出的粗K均值聚类算法易受随机初始聚类中心和离群点的影响,可能出现一致性和无法收敛的聚类结果.对此,提出一种改进的粗K均值算法,选择潜能最大的K个对象作为初始的聚类中心,根据数据对象与聚类中心的相对距离来确定其上下近似归属,使边界区域的划分更合理.定义了广义分类正确率,该指标同时考虑了下近似集和边界区域中的对象,评价算法性能更准确.仿真实验结果表明,该算法分类正确率高,收敛速度快,能够克服离群点的不利影响. 相似文献

9.

一种改进的k-means初始聚类中心选取算法 总被引：3，自引：0，他引：3

下载免费PDF全文

韩凌波王强蒋正锋郝志强《计算机工程与应用》2010,46(17):150-152

在传统的k-means聚类算法中,聚类结果会随着初始聚类中心点的不同而波动,针对这个缺点,提出一种优化初始聚类中心的算法。该算法通过计算每个数据对象的密度参数,然后选取k个处于高密度分布的点作为初始聚类中心。实验表明,在聚类类别数给定的情况下,通过用标准的UCI数据库进行实验比较,发现采用改进后方法选取的初始类中心的k-means算法比随机选取初始聚类中心算法有相对较高的准确率和稳定性。相似文献

10.

k-means型软子空间聚类算法 总被引：1，自引：0，他引：1

下载免费PDF全文

张燕萍姜青山《计算机科学与探索》2010,4(11):1019-1026

软子空间聚类是聚类研究领域的一个重要分支和研究热点。高维空间聚类以数据分布稀疏和"维度效应"现象等问题而成为难点。在分析现有软子空间聚类算法不足的基础上,引入子空间差异的概念;在此基础上,结合簇内紧凑度的信息来设计新的目标优化函数;提出了一种新的k-means型软子空间聚类算法,该算法在聚类过程中无需设置额外的参数。理论分析与实验结果表明,相对于其他的软子空间算法,该算法具有更好的聚类精度。相似文献

11.

三种谱聚类算法及其应用研究

刘紫涵吴鹏海吴艳兰《计算机应用研究》2017,34(4)

聚类分析是数据挖掘领域中一个重要研究内容,谱聚类(Spectral Clustering, SC)由于具有计算简便,性能优越等特点,已经成为最流行的聚类算法之一。本文利用四类几何结构数据,对规范化割(Normalized Cut, NCUT)、稀疏子空间聚类(Sparse subspace clustering, SSC)和谱曲率聚类(Spectral Curvature Clustering, SCC)三种谱聚类算法进行了分析和比较。实验结果表明,针对本文实验数据三种算法的聚类结果各有差异,但每类数据都可以找到相对最有效的聚类算法,方便读者对算法的选择和使用。NCUT无法处理相交的数据,适用性较差,但对于不相交的二次曲线聚类精度较高,并且优于SSC和SCC算法;相比NCUT算法,SSC算法适用性较强,能够实现四类几何结构数据的聚类,但在聚类过程中常出现误分现象,导致聚类精度不高;与前两种算法相比,SCC算法具有适用性强,精度高等特点,能够实现四类几何结构数据有效聚类,尤其对于实验数据中“横”和“竖”两类点组成的十字,SCC算法能够得到较好的聚类结果,解决由于数据量大SSC算法无法处理的问题。此外,针对有数据间断的两条相交螺旋线聚类问题,本文在现有SCC算法基础上进行改进,结果表明,改进后算法能够有效地实现数据聚类,具有良好的实用性。最后,文章分析了现有SCC算法存在的不足,并指出进一步研究的方向。相似文献

12.

基于连通距离和连通强度的BIRCH改进算法

樊仲欣王兴苗春生《计算机应用》2019,39(4):1027-1031

为解决利用层次方法的平衡迭代规约和聚类（BIRCH）算法聚类结果依赖于数据对象的添加顺序，且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题，提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值，还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明，该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高，尤其在大数据集上比密度改进BIRCH准确率提高6个百分点，耗时降低61%。说明该算法能够适用于在线实时增量数据，可以识别非球形簇和体积不均匀簇，具有去噪功能，且时间和空间复杂度明显降低。相似文献

13.

基于粗糙集的混合属性数据聚类算法 总被引：2，自引：0，他引：2

范黎林王娟《计算机应用》2010,30(12):3377-3379

传统聚类方法将对象严格地划分到某一类,但是很多时候边界对象不能被严格地划分。基于粗糙集的k-means聚类算法和基于粗糙集的leader聚类算法,利用粗糙集理论将数据对象划分到一个簇的上近似集或下近似集当中,提供了一种新的处理不确定性的视角,很好地解决了这种边界不确定问题。但其缺点是不能处理混合属性数据,聚类结果对初值有明显的依赖性。针对这些算法存在的不足,给出了一种适用于混合属性数据的距离定义,对初始值的选取提出了改进办法,提出了一种基于粗糙集的混合属性数据聚类算法。仿真实验证明,在不确定聚类簇数的情况下,该算法的聚类准确率比传统k-means算法明显提高。相似文献

14.

基于改进聚类分析的网络流量异常检测方法

下载免费PDF全文

李洪成吴晓平姜洪海《网络与信息安全学报》2015,1(1):66-71

针对传统基于聚类分析的网络流量异常检测方法准确性较低的问题,提出了一种基于改进 k-means聚类的流量异常检测方法。通过对各类流量特征数据的预处理,使k-means算法能适用于枚举型数据检测,进而给出一种基于数值分布分析法的高维数据特征筛选方法,有效解决了维数过高导致的距离失效问题,并运用二分法优化K个聚簇的划分,减少了初始聚类中心选择对k-means算法结果的影响,进一步提高了算法的检测率。最后通过仿真实验验证了所提出算法的有效性。相似文献

15.

一种基于聚类技术的个性化信息检索方法 总被引：7，自引：2，他引：5

下载免费PDF全文

于洪涛段军义杜照丰《计算机工程与应用》2008,44(8):187-188

实践证明聚类技术是改进搜索结果显示方式的一种有效手段。然而,目前的聚类方法没有考虑到用户兴趣,对于相同的查询,返回给所有用户同样的聚类结果。由此提出一种个性化聚类检索方法。该方法改进了k-means算法,利用该算法对传统搜索引擎返回的结果结合用户兴趣进行聚类,返回针对特定用户的网页簇。实验证明该方法能够提供个性化服务,改善了聚类的效果,提高了用户的检索效率。相似文献

16.

自适应聚类算法在DDoS攻击检测中的应用

李丽娟李少东《计算机工程与应用》2012,48(2):86-89

针对DDoS攻击检测中k-means算法对初始聚类中心敏感和要求输入聚类数目的缺点,提出了一种基于动态指数和初始聚类中心点选取的自适应聚类算法（Adaptive Clustering Algorithm）,并使用该算法建立DDoS攻击检测模型。通过使用LLS_DDoS_1.0数据集对该模型进行测试并与k-means算法对比,实验结果表明,该算法提高了DDoS攻击的检测率,降低了误警率,验证了检测方法的有效性。相似文献

17.

基于密度峰值的混合型数据聚类算法设计

李晔陈奕延张淑芬《计算机应用》2018,38(2):483-490

针对k-prototypes算法无法自动识别簇数以及无法发现任意形状的簇的问题,提出一种针对混合型数据的新方法：寻找密度峰值的聚类算法。首先,把CFSFDP（Clustering by Fast Search and Find of Density Peaks）聚类算法扩展到混合型数据集,定义混合型数据对象之间的距离后利用CFSFDP算法确定出簇中心,这样也就自动确定了簇的个数,然后其余的点按照密度从大到小的顺序进行分配。其次,研究了该算法中阈值（截断距离）及权值的选取问题：对于密度公式中的阈值,通过计算数据场中的势熵来自动提取;对于距离公式中的权值,利用度量数值型数据集和分类型数据集聚类趋势的统计量来定义。最后通过在三个实际混合型数据集上的测试发现：与传统k-prototypes算法相比,寻找密度峰值的聚类算法能有效提高聚类的精度。相似文献

18.

对k-means聚类算法的改进 总被引：17，自引：6，他引：17

袁方孟增辉于戈《计算机工程与应用》2004,40(36):177-178,232

提出了一种k-means聚类算法中寻找初始聚类中心的新方法。算法首先计算样本间的距离,然后根据样本点之间的距离寻找有可能是一类的数据,依据这些样本点形成初始聚类中心,从而得到较好的聚类结果。实验表明,改进后的方法相对于随机选取初始聚类中心具有较高的准确率。相似文献

19.

基于初始中心优化的遗传K-means聚类新算法 总被引：2，自引：2，他引：0

孙秀娟刘希玉《计算机工程与应用》2008,44(23):166-168

一个好的K-means聚类算法至少要满足两个要求：（1）能反映聚类的有效性,即所分类别数要与实际问题相符;（2）具有处理噪声数据的能力。传统的K-means算法是一种局部搜索算法,存在着对初始化敏感和容易陷入局部极值的缺点。针对此缺点,提出了一种优化初始中心的K-means算法,该算法选择相距最远的处于高密度区域的k个数据对象作为初始聚类中心。实验表明该算法不仅具有对初始数据的弱依赖性,而且具有收敛快,聚类质量高的特点。为体现聚类的有效性,获得更高精度的聚类结果,提出了将优化的K-means算法（PKM）和遗传算法相结合的混合算法（PGKM）,该算法在提高紧凑度（类内距）和分离度（类间距）的同时自动搜索最佳聚类数k,对k个初始中心优化后再聚类,不断地循环迭代,得到满足终止条件的最优聚类。实验证明该算法具有更好的聚类质量和综合性能。相似文献

20.

基于密度峰值优化的模糊C均值聚类算法

下载免费PDF全文

刘沧生许青林《计算机工程与应用》2018,54(14):153-157

针对传统模糊C均值聚类算法和基于K-means++优化聚类中心的模糊C均值算法存在初始聚类中心敏感、聚类速度收敛慢、聚类算法需要人为给定聚类数目等缺陷,受密度峰值聚类算法（Clustering by Fast Search and Find of Density Peaks,CFSFDP）的启发,提出了基于密度峰值算法优化的模糊C均值聚类算法,自适应产生初始聚类中心,确定聚类数目,并优化算法收敛过程。实验结果表明,改进后的算法与传统模糊聚类C均值算法相比能够准确地得到簇的数目,性能有明显的提高,并加快算法的收敛速度,达到相对更好的聚类效果。相似文献