首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 46 毫秒
1.
基于MapReduce的Skyline-join查询算法   总被引:3,自引:0,他引:3  
Skyline查询是一种非常耗时的操作,而涉及多个表的Skyline查询(Skyline-join查询)则会给数据库系统带来更多的负载,从而影响整个系统的响应时间.为解决这个问题,提出了基于Google设计的MapRe-duce并行处理框架的Skyline-join查询处理算法,采用分片剪枝的方法降低复杂度,进而提高查询性能.在Amazon的云计算平台(EC2)上进行的实验表明,该算法可以有效减少冗余操作和网络数据传输,基本不受节点个数以及数据量的影响,具有很好的可扩展性.  相似文献   

2.
传统的关联规则算法要对数据库进行多次扫描,效率低下。使用MapReduce模型对Apriori算法进行改进,这种改进后的算法只需对数据库进行2次扫描,从实验结果可以看出挖掘效率得到明显提高。  相似文献   

3.
基于MapReduce模型的分布式粒子群算法   总被引:2,自引:2,他引:0  
通过对传统的单种群粒子群算法的分析,提出一种基于MapReduce模型的分布式粒子群算法,解决粒子群算法在求解大规模优化问题时求解效率和精度明显下降等问题。在粒子群进化过程中,粒子速度和位置的更新采用惯性权重的方法,其权重值线性递减,并且利用多子群进化策略,提高算法的收敛精度。通过MapReduce模型实现算法的并行化,有效提高算法求解效率。选取目前比较流行的几种算法,并在13个500维、1 000维的标准测试函数上仿真试验,结果显示该算法具有良好的优化性能。  相似文献   

4.
通过研究Hadoop平台和MapReduce编程框架,提出了一个基于MapReduce的并行遮盖文本聚类算法.遮盖算法提出了两个距离阈值T1,T2用来构建重叠子集,避免了传统聚类算法对噪声敏感的缺点.同时采用适当的快速近似距离度量,大大加快了聚类速度.实验表明该算法在MapReduce框架下有良好的集群加速性能,适合处理大规模的数据集.  相似文献   

5.
基于MapReduce的频繁项集挖掘方法   总被引:2,自引:0,他引:2  
为了改进关联规则挖掘的经典Apriori算法,设计一种基于Map/Reduce的频繁项集挖掘方法。通过搭建Hadoop平台,可使该方法得以实现,并籍此对该方法与Apriori算法的性能进行比较研究。实验结果表明该方法在对大数据集进行频繁项集挖掘时,可充分利用云计算的优势,从而能获得更好的时效性。  相似文献   

6.
借助分割数据技术优化了经典的Apriori算法,实现了对候选项集的分组统计。给出了优化Apriori算法的MapReduce编程实现模型,达到了Apriori算法并行化的目的。实验结果表明,该算法能够大量减少键/值对的产生,提高了算法的效率,并且随着挖掘频繁项目集节点数的增加,算法的加速比成线性提高。  相似文献   

7.
针对并行化密度聚类的过程中,不同密度聚类簇边界点划分模糊,并且存在数据噪声,从而影响聚类性能,使聚类结果受制于局部最优影响的问题,提出一种基于MapReduce与优化布谷鸟算法的并行密度聚类算法。首先,该算法结合K-means中的近邻与逆近邻思路的策略KDBSCAN(K-means DBSCAN),通过计算各数据点的影响空间,以此重新定义基于密度的聚类(Density-based spatial dutering of apptications with noise,DBSCAN)算法中聚类簇的拓展条件,避免了不同密度聚类簇边界点划分模糊的问题;其次,结合KDBSCAN密度聚类中的近邻思想提出了一种可行的迭代性噪声点处理策略,减轻数据中噪声点对于聚类算法性能的影响;再次,提出基于传统布谷鸟算法的优化改进策略MCS(Majorization cuckoo search),通过衰减发现巢穴概率的权重,随着迭代搜寻次数的增加提升算法收敛速度,解决了聚类结果受制于局部最优的问题;最后,结合MapReduce提出了并行密度聚类策略MCS-KDBSCAN,通过并行化密度聚类算法运算,减轻了并行聚类...  相似文献   

8.
传统BCH码串行迭代译码算法计算量大、译码速度慢,无法满足大数据环境下快速译码的要求。本文提出一种基于MapReduce分布式框架的并行译码算法,通过译码的分布式和并行化减少译码时间,通过查找表译码减少译码时的计算量,从而获得较好的译码性能。  相似文献   

9.
针对日益严峻的大数据处理时间长、执行速率低等问题,通过深入分析,提出了一种提高大规模数据聚类效率的方法。以K-均值聚类算法为原型,利用Map Reduce模型在大规模数据处理方面的优势,对原有算法进行并行化改进,设计出一种基于Hadoop分布式云平台的K-均值聚类Map Reduce模型。应用此模型,对淘宝用户仿真数据进行聚类试验,试验结果表明,对K-均值聚类算法的Map Reduce模型实现后,性能优于原算法性能,缩短了聚类时间,提高了聚类效率,特别适于对海量数据进行聚类处理。  相似文献   

10.
针对粗粒度并行遗传算法的特点,给出了MapReduce编程模型实现遗传算法的方法。将随机生成的初始种群分割成若干个子种群,用Map方法实现单个子种群的传统遗传算法。各个子种群在不同的Node上相互独立地并发执行个体适应值计算、选择、交叉和变异等操作,在Partition环节将每个子群所提取的最优个体迁移到其他子种群中,以实现各个子种群的共同进化。该方法充分利用了MapReduce的高度并行性,提高了算法的效率,同时在一定程度上克服了过早收敛和局部最优解问题。  相似文献   

11.
提出了一种基于MapReduce模型,利用向量矩阵和Apriori算法实现关联规则数据挖掘的新算法.算法利用MapReduce模型处理向量矩阵,结合Apriori算法思想,产生局部频繁项集,通过合并处理得到全局频繁项集.实验证明算法能提高关联规则挖掘的效率.  相似文献   

12.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间.  相似文献   

13.
研究基于小波的并行自适应天气雷达回波数据有损压缩算法。根据回波数据的特点,提出了回波数据的坐标转换算法、矢量场保持算法及标量场滤波算法等有效的预处理算法;利用并行自适应压缩算法对预处理后的雷达回波数据进行压缩实验。实验结果表明,该算法具有较好的并行性和自适应性,在低比特率情况下,能获得较高的功率信噪比值和满意的主观效果。  相似文献   

14.
传统数据库中存储的是相对静态的记录集,这些记录没有预先定义的时间概念,除非时间属性被显示地加上去.虽然这个模型能够较好地表示商业数据库和个人信息存储库,然而它对快速变化的数据流进行在线分析的支持存在很多限制.因此,需要对已有技术进行扩展研究,构建出新的管理系统来管理数据流.数据流的高速性和无限性以及计算机资源的有限性使得提高数据处理速度成为数据流管理系统(DSMS)的关键;本文主要讨论了DSMS的核心技术———查询优化;着重研究了在shared-nothing机群并行系统中,通过并行查询处理技术来提高数据流处理速度的新方法.  相似文献   

15.
网络并行计算是当今并行计算发展的新方向.在网络并行环境下探讨了并行遗传算法进行结构优化设计及其算法的实现方法.并在四台PC机组成的网络平台上,进行了桁架结构优化设计的数值测试.计算结果表明,设计的并行算法在网络并行计算环境中具有较高的加速比和效率,同时验证了并行遗传算法用于结构优化是可行的和有效的.  相似文献   

16.
用知识的条件粗糙熵定义了特征的相对重要性,提出了一种基于条件粗糙熵的入侵数据特征并行选择算法。算法首先将入侵数据决策表划分成多个子表,然后利用特征的相对重要性对各子表并行求解,最后以子表选出的局部特征为基础求得原决策表的约简。实验表明,该算法适用于大规模的入侵数据集,选出的特征属性不仅可以大大减少数据在存储、分析以及各组件共享中的代价,还能够保持并提高入侵分类的准确性。  相似文献   

17.
为了解决多传感器环境下各传感器观测的有效性具有时变不确定性时,难以恰当地构造系统观测向量与观测矩阵的困难,提出一种不确定性观测向量的量测融合算法.该方法对现有并行滤波量测融合估计算法进行推广,为各传感器观测向量的每一维定义其有效度函数,来构造能表示量测不确定性的广义观测向量以及广义误差方差阵,获得形式上的有效量测,就可以利用现有的量测融合方法获得最优融合估计.为了便于数值计算,同时给出一种次优的融合估计算法.实验结果表明,文中方法能适应量测有效性时变情况下的多传感器量测融合估计,且计算量与现有确定性量测的融合估计方法基本相同.  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号