首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
为获得分布式数据集上用户所期望的聚类结果,提出了基于约束信息的并行k-means聚类算法.在分析并行k-means能够有效实现对水平分布式数据集进行聚类的基础上,修改并行k-means算法的目标函数,设计约束并行k-means算法,将站点用户的约束信息以chunklet的形式引入到分布式聚类过程,从而引导算法执行有偏搜...  相似文献   

2.
随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低。讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapReduce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR)。该算法将串行聚类算法用作插件,具有很好的通用性。在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性。  相似文献   

3.
区间数据的并行模糊聚类算法   总被引:7,自引:0,他引:7  
研究了对区间数据进行聚类的模糊聚类算法;介绍和分析了模糊c-均值算法的基本思想及实现步骤;定义了区间数据的距离和四则运算,并推广模糊c-均值算法对区间数据进行聚类.在此基础上,讨论了对区间数据进行聚类的并行模糊c-均值算法.在分布式互连的PC/工作站环境下进行性能分析,结果表明并行的模糊c-均值算法具有好的可扩展性、规模增长性和加速比性能.  相似文献   

4.
给出了一种新的处理海量数据的聚类算法WIDE(window-density clustering algorithm).它通过网格方法将数据之间的相互关联局部化,通过窗口技术来提高算法的效率,通过密度方法提高聚类的精度.以窗口为中介将网格方法和密度方法融合在一起是算法的主要思想.在此基础上对算法进行了扩展,在功能方面实现了混合型数据聚类、含障碍物数据聚类和增量数据聚类;在速度方面实现了分布式并行聚类.WIDE算法能够在局域网中的多台计算机上并行工作,效率高,计算复杂度为O(N),且能够发现任意形状的聚类,对噪声不敏感.  相似文献   

5.
大规模的数据挖掘如聚类问题迫切需要大量计算,提出了自适应微粒群优化的并行聚类算法。通过从多种群并行地开始搜索,基于群体搜索技术的微粒群优化算法减少了初始条件的影响,采用任务并行和部分异步通信策略,降低计算时间。结合并行微粒群算法的自适应参数动态优化特性,克服群体逐渐失去迁移性而停止进化的问题,保持群体多样性从而了避免种群退化。仿真实验证明,该算法在并行机群上运行时,加快了聚类算法的计算速度,提高了聚类质量。  相似文献   

6.
针对传统k-means聚类算法面对海量数据存在时间复杂度急剧增加的问题,结合云计算的优势,提出基于MapReduce编程框架来实现k-means聚类算法的并行化处理。Map函数完成每个样本记录到聚类中心的距离计算并标记其所属聚类类别,Reduce函数汇总中间结果并计算出新的聚类中心,供下一轮迭代使用。通过实验表明:基于MapReduce的并行化k-means聚类算法具有较好的加速比和良好的扩展性。  相似文献   

7.
陶涛  毛伊敏 《科学技术与工程》2021,21(21):8989-8998
针对大数据背景下基于划分的聚类算法中存在参数寻优能力不佳、初始中心敏感、数据倾斜等问题,提出一种基于MapReduce和人工蜂群(artificial bee colony,ABC)算法的并行划分聚类(the partitioning-based clustering algorithm by using im-prove artificial bee colony based on MapReduce,MR-PBIABC)算法.首先,提出基于反向学习和聚类准则函数的初始化策略(backward learning and the clustering criterion function,BLCCF),提升人工蜂群算法搜索的解质量,并将ABC算法和人工鱼群(artificial fish colony,AFS)算法结合,提出改进人工蜂群(improve artificial bee colony,IABC)算法,通过利用AFS算法最优解能力较强的特性,来提高ABC算法的寻优能力;其次,根据改进的人工蜂群算法IABC获取初始聚类中心,提出相对熵策略(rela-tive entropy strategy,RES)衡量人工鱼间的距离,保证获得的初始聚类中心是最优人工鱼状态,从而有效避免了随机选取初始聚类中心,引起的初始中心敏感的问题;再次,设计数据均衡策略(data balancing strategy,DBS),通过动态收集节点负载并分配节点间的负载,解决了节点上数据倾斜的问题;最后,结合MapReduce计算模型,并行挖掘簇中心,生成最终聚类结果.实验结果表明,MR-PBIABC算法的聚类效果更佳,同时在大数据环境下,能有效地提高并行计算的效率.  相似文献   

8.
提出了并行数据库系统的哈希轮转(Hash-Round-Robin)数据划分方法以及其于该划分方法的并行记录分布B^n树,给出了基于该树的并行连接算法,分析了该算法的效率,这种连接算法充分利用了数据的已有分布及B^n树的特性,还利用了哈希轮转划分的特性,提高了并行连接的效率,该算法已经在自主研制的并行数据库管理系统PAROⅡ中得到实现。  相似文献   

9.
介绍PAROⅡ采用哈希轮转(Hash-Round-Robin)数据划分方法以及基于该划分方法的并行RDB^n树,着重,详细地讨论了基于该树的并行连接算法,该算法充分利用了数据的已有分布、B^n树的特性、叶结合点有序连接、哈希轮转划分的特性,这些特性减少了系统的额外消耗,提高了并行连接的效率。  相似文献   

10.
基于集群环境的K-Means聚类算法的并行化   总被引:1,自引:1,他引:0  
K-Means聚类算法在面对海量数据时,时间和空间的复杂性已成为K-Means聚类算法的瓶颈.在充分研究传统K-Means聚类算法的基础上,提出了基于集群环境的并行K-Means聚类算法的设计思想,给出了其加速比估算公式,并通过实验证明了该算法的正确性和有效性.  相似文献   

11.
分析研究了MB-UWB通信系统的干扰检测算法.针对传统MB-UWB通信系统中所存在的数据传输速率的不足,提出了改进的并行MB-UWB的系统方案,为了获得传输数据速率的提高,该方案采用了并行体制,并对MB-UWB系统各子带信号的正交化进行了设计.对改进的并行MB-UWB通信系统进行了数学分析和描述.基于并行MB-UWB系统方案,进一步提出了一种新的低采样率的干扰检测算法,并对该算法的处理过程和可行性进行了数学分析和系统仿真.分析和仿真结果表明,所提新算法可在较低的采样速率上,完成对与共存干扰的有效检测,并可与改进的MB-UWB通信系统的干扰抑制处理相结合,明显改善共存UWB系统的误码率性能.  相似文献   

12.
云计算技术是海量数据挖掘的一种高效解决方案,将MapReduce并行计算模型与粗糙集属性约简算法相结合,提出一种基于MapReduce的浓缩布尔矩阵并行属性约简算法.该算法提高了粗糙集属性约简算法对大数据的处理能力和效率,并能适应云计算环境.实验结果表明,所提算法具有良好的效率、加速比和可扩展性.  相似文献   

13.
在海量数据的关联规则数据挖掘中,采用并行计算是非常必要的;针对当前的关联规则算法,运用并行算法的思想,结合云计算环境下的Hadoop架构,提出了Hadoop下的并行关联规则算法的设计,最后实验表明,该算法能处理节点失效,并且能实现节点负载均衡。  相似文献   

14.
夏龄 《科学技术与工程》2012,12(35):9545-9551
数据挖掘并行算法,应该以不牺牲挖掘效率和挖掘质量为前提。通过对数据挖掘原理和并行化的深入研究,在考虑到挖掘效率,负载平衡,运行环境,节点状态等多方面因素的基础上,提出了一种新的基于动态调度的数据挖掘并行算法。该算法以规模较小的子数据集为并行挖掘单元,各个并行单元之间采用全局通讯模式—Master-Worker模式来进行互相通信。降低了并行挖掘的通信成本,提高了挖掘的效率,缩短了挖掘的时间。同时该算法对不断变化的节点状态适应能力强。最后,实验结果验证了该算法的有效性以及在大数据集挖掘应用中的优越性。该算法不但保证了挖掘结果的正确性,而且具有较高的加速比。  相似文献   

15.
本文利用修正枢轴选取,给出一种适合所有基本排序算法的并行化方法,对均匀数据模型排序具有理想的并行加速及效率。  相似文献   

16.
基于FP-Growth算法,提出一种并行加权的关联规则挖掘(PWARM)算法,证明其满足加权向下封闭性.使用MapReduce计算模型,在分布式集群中并行挖掘出关联规则.实验结果表明:该算法可以满足数据权重不同的需求,且在处理大数据集时能有效地提高挖掘的效率.  相似文献   

17.
为解决传统递归方式的归并排序算法串行执行效率低的问题, 使用数据依赖关系分析方法对归并排序算法进行并行性分析。通过分析发现算法本身具有并行的特征, 在多核处理器下使用OpenMp编译制导语句对算法进行直接并行化处理。在数据量较大的情况下, 为了使算法执行的速度更快, 在多核处理器系统中设置多个线程, 并将序列分成多个组, 每个线程操作一组数据, 最后对多个局部有序的结果进行逐一合并。实验验证结果表明, 该并行化算法可使执行速度提高50%以上。  相似文献   

18.
针对数据挖掘中经典的Apriori算法在计算频繁项目集时需消耗大量的时间缺点,文中利用多线程并行计算的特点,提出了基于线程并行计算的Apriori算法,该算法是将统计候选项目个数的任务交给多线程来执行,从而达到减少Apriori算法的运行时间。通过实验数据分析,该算法对减少Apriori算法的运行时间有很大的提高。  相似文献   

19.
传统算法数据划分冗余度和倾斜度高,无用连接数据多,降低负载均衡性,对整体效率产生不好的影响,不适于实际应用。为此,面向混合动态数据库集群提出一种新的并行空间连接优化算法。采用网格划分法对数据进行划分,依据空间数据划分结果获取数据分布状态,计算节点按照数据分布状态得到候选集。通过平面扫描形成若干子空间连接的子任务,利用构建节点花费模型,依据花费模型对并行空间连接所需的平均节点访问个数进行评估,把候选任务集分配至不同计算节点,在不同节点执行并行空间连接操作。通过边界过滤策略,删除不可能有结果的元组,提高效率,增强算法的实用性。实验结果表明,所提算法适于实际应用,效率高。  相似文献   

20.
一种小功率开关稳压电源设计   总被引:2,自引:0,他引:2  
本文设计了一种以电流型PWM控制器5L0380为控制核心的单端反激式开关稳压电源。重点给出EMI滤波器、整流电路、变压器、控制电路、反馈电路的参数设计。实验结果表明,所制作的电源具有稳压性能优良、纹波小、电压调整率和负载调整率小等优点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号