首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
聚类是数据挖掘中重要组成部分,为了提高聚类的处理效率,将并行处理技术运用于k-means和PAM算法中,对k-means与PAM算法进行了改进。实验结果表明:并行k-means算法相对串行k-means算法有更好的执行效率;且k-means算法有比PAM算法更好的并行性和可扩展性。最后,该文提出和介绍了将并行技术引入谱聚类算法。  相似文献   

2.
针对大数据下密度聚类算法中存在的数据划分不合理、参数寻优能力不佳、并行性能较低等问题,提出一种基于IFOA的并行密度聚类算法(density-based clustering algorithm by using improve fruit fly optimization based on MapReduce,MR-DBIFOA)。首先,该算法基于KD树,提出网格划分策略(divide gird based on KD tree,KDG)来自动划分数据网格;其次在局部聚类中,提出基于自适应搜索策略(step strategy based on knowledge learn,KLSS)和聚类判定函数(clustering criterion function,CCF)的果蝇群优化算法(improve fruit fly optimization algorithm,IFOA);然后根据IFOA进行局部聚类中最优参数的动态寻优,从而使局部聚类的聚类效果得到提升;同时结合MapReduce模型提出局部聚类算法DBIFOA(density-based clustering algorithm using IFOA);最后提出了基于QR-tree的并行合并局部簇算法(cluster merging algorithm by using MapReduce,MR-QRMEC),实现局部簇的并行合并,使算法整体的并行性能得到加强。实验表明,MR-DBIFOA在大数据下的并行效率更高,且聚类效果更好。  相似文献   

3.
针对并行密度聚类算法在处理大数据集时存在伸缩困难、参数寻优能力不佳、并行化效率较低等问题,提出一种基于分组和重力搜索优化算法(improve gravitational search algorithm,IGSA)的并行密度聚类算法(densi-ty-based clustering algorithm based on groups and improve gravitational search,MR-GDBIGS).首先,该算法设计了基于图形的分组策略(grouping strategy based on pattern,GSP)来有效划分数据,加速邻域搜索,解决了处理大数据集时伸缩困难的问题;其次,在局部聚类中提出基于位置更新函数(position update function,PUF)的重力搜索优化算法,动态寻找局部聚类中的最优参数,提升了局部聚类的效果;最后,提出基于覆盖树的并行局部簇合并策略(cluster merging strategy by using MapReduce,MR-CTMC),在实现局部簇并行化合并的同时加快了合并局部簇的收敛速度,提升了算法整体的并行化效率.实验结果表明,MR-GDBIGS算法在处理大数据时的聚类效果更佳,且并行化性能更好.  相似文献   

4.
现有的基于密度优化初始聚类中心的k-means算法存在聚类中心的搜索范围大、消耗时间久以及聚类结果对孤立点敏感等问题,针对这些问题,提出了一种基于平均密度优化初始聚类中心的k-means算法adk-means。该算法将数据集中的孤立点划分出来,计算出剩余数据集样本的平均密度,孤立点不参与聚类过程中各类所含样本均值的计算;在大于平均密度的密度参数集合中选择聚类中心,根据最小距离原则将孤立点分配给离它最近的聚类中心,直至将数据集完整分类。实验结果表明,这种基于平均密度优化初始聚类中心的k-means算法比现有的基于密度的k-means算法有更快的收敛速度,更强的稳定性及更高的聚类精度,消除了聚类结果对孤立点的敏感性。  相似文献   

5.
为了解决k-means算法在Hadoop平台下处理海量高维数据时聚类效果差,以及已有的改进算法不利于并行化等问题,提出了一种基于Hash改进的并行化方案。将海量高维的数据映射到一个压缩的标识空间,进而挖掘其聚类关系,选取初始聚类中心,避免了传统k-means算法对随机选取初始聚类中心的敏感性,减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化,并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明,该算法不仅提高了聚类的准确率和稳定性,同时具有良好的处理速度。  相似文献   

6.
针对现有地理信息数据分类不能体现数据归属的多类别共存性问题,提出一种使用聚类和并行计算技术提高数据分类的有效性和效率的并行地理信息数据聚类算法,并实现相应的数据自动分类系统。采用文本向量建模和抽取数据的类别特征,然后采用基于GPU的并行k-means聚类算法对数据进行类别划分。实验表明,设计的并行聚类算法体现了特征属性归属的多类别交叉性,具有较好的运行性能和扩展性。  相似文献   

7.
文档聚类中k-means算法的一种改进算法   总被引:14,自引:0,他引:14  
万小军  杨建武  陈晓鸥 《计算机工程》2003,29(2):102-103,157
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感,为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算法的改进算法,实验表明,该改进算法比原k-means算法具有更高的准确性和稳定性。  相似文献   

8.
针对经典的K-means算法在多维数据聚类效率上还有待提高的问题,本文提出一种称为CK-means的改进聚类算法。该算法在k-means算法的基础上,通过引入Kd树空间数据结构,初始聚类中心从多维数据某一维的区间等间隔集中选取,以及在数据对象分配过程中采用剪枝策略来提高算法的运行效率。实验结果表明,CK-means聚类算法较经典的k-means聚类算法运行效率更高。  相似文献   

9.
针对传统基于聚类分析的网络流量异常检测方法准确性较低的问题,提出了一种基于改进 k-means聚类的流量异常检测方法。通过对各类流量特征数据的预处理,使k-means算法能适用于枚举型数据检测,进而给出一种基于数值分布分析法的高维数据特征筛选方法,有效解决了维数过高导致的距离失效问题,并运用二分法优化K个聚簇的划分,减少了初始聚类中心选择对k-means算法结果的影响,进一步提高了算法的检测率。最后通过仿真实验验证了所提出算法的有效性。  相似文献   

10.
针对传统的k-means算法处理离散型数据的不足以及选取初始聚类中心的随机性等缺点,提出了一种基于改进的粒子群优化k-means算法,根据文中提供的优化算法寻找初始聚类中心后,在阀值范围内进行数据样本间的迭代更新,直至聚类中心稳定。经过实验结果验证分析表明,经过改进的粒子群优化k-means算法与传统的k-means算法相比,更具有良好的聚类收敛效果,聚类效果也相对稳定。  相似文献   

11.
针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于MapReduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进。实验结果表明,基于MapReduce的K_means并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比。  相似文献   

12.
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数目最多的聚类中选择离散量最大与最小的两个对象作为初始聚类中心,再根据最近距离将这个大聚类中的其他对象划分到与之最近的初始聚类中,直到聚类个数等于指定的k值。最后将这k个聚类作为初始聚类应用到k-means算法中。将提出的算法与传统k-means算法、最大最小距离聚类算法应用到多个数据集进行实验。实验结果表明,改进后的k-means算法选取的初始聚类中心唯一,聚类过程的迭代次数也减少了,聚类结果稳定且准确率较高。  相似文献   

13.
一种基于改进k-means的RBF神经网络学习方法   总被引:1,自引:0,他引:1  
庞振  徐蔚鸿 《计算机工程与应用》2012,48(11):161-163,184
针对传统RBF神经网络学习算法构造的网络分类精度不高,传统的k-means算法对初始聚类中心的敏感,聚类结果随不同的初始输入而波动。为了解决以上问题,提出一种基于改进k-means的RBF神经网络学习算法。先用减聚类算法优化k-means算法,消除聚类的敏感性,再用优化后的k-means算法构造RBF神经网络。仿真结果表明了该学习算法的实用性和有效性。  相似文献   

14.
覃晓  梁伟  元昌安  唐涛 《计算机科学》2017,44(1):100-102
传统的谱聚类方法使用k-means达到最后的聚类目的。k-means对初始条件敏感,易陷入局部最优,从而导致传统的谱聚类方法应用到图像分割时效果不太理想。将遗传算法用于优化谱方法的聚类阶段,提出一种以遗传算法优化普聚类的图像分割方法(Image Segmentation Algorithm of Spectral Clustering Optimization Based on Genetic,ISCOG)。在合成图像与真实图像上的实验表明ISCOG算法极大地提高了谱聚类算法的稳定性和聚类质量,证明了ISCOG算法的优越性。  相似文献   

15.
为了解决粒子滤波多说话人跟踪过程中粒子易发散导致多目标跟踪精度低的问题,提出了并行粒子滤波和基于GPU的K-均值聚类的多声源定位方法。该方法首先分析了粒子滤波在实现多目标跟踪时,进行数据关联的过程产生较大的计算量,并且出现多个目标时,粒子会逐渐发散。针对计算量大和粒子发散的问题,提出了一种并行粒子滤波和K-均值聚类的方法。实验表明,随着粒子数和目标数的增加,计算量以指数增加,并且粒子发散严重,采用基于GPU的K-均值聚类方法的粒子滤波多说话人跟踪方法,相比传统粒子滤波跟踪方法具有更收敛的粒子集并且跟踪精度较高。  相似文献   

16.
基于PSO的k-means算法及其在网络入侵检测中的应用   总被引:2,自引:1,他引:1  
在传统k-means算法中,初始聚类中心随机选择,聚类结果随初始聚类中心的不同而波动,从而导致聚类结果不稳定。提出的PSO-based k-means算法使用PSO算法优化生成初始聚类中心,得到的聚类结果全局最优,不会陷入局部最优解。实验结果表明,将PSO-based k-means算法用于入侵检测系统的规则挖掘处理模块,其入侵检测率明显高于传统k-means算法,而误报率则大大低于后者。显然,PSO-based k-means算法可有效提高网络入侵检测系统的性能。  相似文献   

17.
改进的k-平均聚类算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
孙士保  秦克云 《计算机工程》2007,33(13):200-201
聚类算法的好坏直接影响聚类的效果。该文讨论了经典的k-平均聚类算法,说明了它存在不能很好地处理符号数据和对噪声与孤立点数据敏感等不足,提出了一种基于加权改进的k-平均聚类算法,克服了k-平均聚类算法的缺点,并从理论上分析了该算法的复杂度。实验证明,用该方法实现的数据聚类与传统的基于平均值的方法相比较,能有效提高数据聚类效果。  相似文献   

18.
针对传统k-均值算法对初始聚类中心敏感的问题,提出了启发式初始化独立的k-均值算法。该算法引入prim算法选择k个初始聚类中心,且通过设置阈值参数θ,避免同一类中的多个数据对象同时作为初始聚类中心,否则将导致聚类迭代次数增加,并得到错误的聚类结果。与传统的k-均值算法和基于遗传算法的k-均值聚类算法相比,实验结果表明改进的算法不仅降低了初始聚类中心选取的随机性对聚类性能产生的影响,有效减少了聚类迭代次数,而且降低了离群点对聚类性能的影响,从而验证了算法的可行性和有效性。  相似文献   

19.
基于云计算平台Hadoop的并行k-means聚类算法设计研究   总被引:2,自引:0,他引:2  
随着数据库技术的发展和Intcrnct的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临 许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算 法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、 扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号