首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
陈琳  赵政文  李强 《计算机工程与设计》2012,33(9):3465-3469,3474
目前大规模图挖掘算法的思路是基于MapReduce将矩阵与向量相乘的过程并行化,但却没有针对MapReduce特点对图数据进行划分,会产生大量中间结果,算法代价较高.针对这些问题,提出了GIM-V LI算法.该算法采用数据划分思想,将图矩阵横向划分,结合MapReduce特点以行为单位替代点或块的数据组织方式,并设计出<key,value>结构,使一个单位数据仅产生一个中间结果,从而大大减少了中间结果,提高了算法的性能.通过大量实验分析验证了该改进算法的正确性与有效性.  相似文献   

2.
矩阵乘法是线性代数和图算法中非常重要的一个基本操作,而大规模数据处理中的矩阵往往是稀疏矩阵。MapReduce编程框架能够有效地支持海量数据的分布式计算。因此,对如何运用MapReduce编程框架实现超大规模稀疏矩阵的乘法进行了研究。传统矩阵乘法并行算法没有针对稀疏矩阵进行专门优化,导致计算过程中出现大量不必要的通信开销。提出了一种新的算法--CRM(column row multiplication)算法,并与传统的矩阵分块算法进行了比较。实验证明,CRM算法运行效率有很大的提高,并且具有高度的可伸缩性,适合在MapReduce平台上运行。  相似文献   

3.
张宇  程久军 《计算机科学》2013,40(1):19-21,36
矩阵分解是近几年提出的一种协同过滤推荐技术,但其每项预测评分的计算都要综合大量评分数据,同时在计算时还需要存储庞大的特征矩阵,用单一结点来进行推荐将会遇到计算时间和计算资源瓶颈。结合MapReduce分布式计算框架和矩阵分解推荐算法,设计了一种基于MapReduce的矩阵分解推荐算法来解决该问题,利用Hadoop的分布式缓存技术和MapFile文件结构解决了大特征矩阵在多结点间的高效共享问题并实现了多正则因子的并行处理。通过在Netflix数据集上的实验表明,该MapReduce算法及数据存储方案能带来较高的加速比,从而提高了推荐算法的计算效率。  相似文献   

4.
基于分块主色调和纹理特征的彩色图像检索   总被引:1,自引:0,他引:1  
提出一种基于分块主色调和纹理特征的彩色图像检索方法。该方法首先提取占彩色图像比重较大的前几种主色调,根据主色调将图像划分为不同分块,并以主色调作为各分块图像的颜色特征。然后,采用灰度共生矩阵算法,提取各分块的纹理特征。综合考虑各分块图像的颜色特征和纹理特征,从图像数据库中检索相似图像。实验结果表明,该方法具有较高的检索效率。  相似文献   

5.
图像数据作为大数据的重要组成部分蕴含着丰富的知识,且图像分类有着广泛的应用,利用传统分类方法已经无法满足实时计算的需求.针对此问题,提出并行在线极端学习机算法.首先利用在线极端学习机理论得到隐层输出权值矩阵;其次根据MapReduce计算框架的特点对该矩阵进行分割,以代替原有大规模矩阵累乘操作,并将分割后的多个矩阵在不同工作节点上并行计算;最后将计算节点上的结果按键值合并,得到最终的分类器.在保证原有计算精度的前提下,将文中算法在MapReduce框架上进行拓展,以人脸图像为例对大规模图像数据进行分类的结果表明,该算法能够针对大数据图像进行快速、准确的分类.  相似文献   

6.
由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率.  相似文献   

7.
运用矩阵结构的可并行地形层次细节算法   总被引:1,自引:0,他引:1  
针对ROAM算法因分块间的耦合关系不适合大规模地形渲染,以及算法递归实现导致绘制效率低下的问题,结合嵌套网格算法压缩比高的优点,提出一种运用矩阵结构的可并行计算的地形层次细节算法.采用矩阵结构消除地形分块间的耦合关系,以解决大规模地形的分块渲染问题;用对矩阵的遍历代替递归操作来提高算法的执行速度;最后将计算并行化处理,...  相似文献   

8.
由于云健康生理监测数据因具有时间连续性、非精确性、模糊性等特性,从而导致传统分类算法很难直接运用.针对上述问题,提出一种基于粗糙集的慢性病变分级方法.该方法首先采用融合相关度和Chi-merge统计量离散化生理监测数据;然后,基于相容矩阵的属性约简算法去除数据冗余属性;最后,基于批量与增量相结合挖掘分类规则,并基于分布计算框架MapReduce应用上述规则实现慢性病变智能分级.实验验证表明,该方法具有较高的识别准确率,有助于个体全面认识健康风险状况.  相似文献   

9.
随着越来越多的数据累积, 对数据处理能力和分析能力的要求也越来越高. 传统k-Nearest Neighbor (kNN)查询算法由于其容易导致计算负载整体不均衡的规则区域划分方法及其单个进程或单台计算机运行环境的较低数据处理能力. 本文提出并详细介绍了一种基于不规则区域划分方法的改进型kNN查询算法, 并利用对大规模数据集进行分布式并行计算的模型MapReduce对该算法加以实现. 实验结果与分析表明, MapReduce框架下基于不规则区域划分方法的kNN查询算法可以获得较高的数据处理效率, 并可以较好的支持大数据环境下数据的高效查询.  相似文献   

10.
为解决矩阵分解应用到协同过滤算法的局限性和准确率等问题,提出基于边界矩阵低阶近似(BMA)和近邻模型的协同过滤算法(BMAN-CF)来提高物品评分预测的准确率。首先,引入BMA的矩阵分解算法,挖掘子矩阵的隐含特征信息,提高近邻集合查找的准确率;然后,根据传统基于用户和基于物品的协同过滤算法分别预测出目标用户对目标物品的评分,利用平衡因子和控制因子动态平衡两个预测结果,得到目标用户对物品的评分;最后,利用MapReduce计算框架的特点,对数据进行分块,将该算法在Hadoop环境下并行化。实验结果表明,BMAN-CF比其他矩阵分解算法有更高的评分预测准确率,且加速比实验验证了该算法具有较好的可扩展性。  相似文献   

11.
余晓山  吴扬扬 《计算机应用》2014,34(6):1595-1599
针对传统的层次聚类算法在处理大规模文本时可扩展性不足的问题,提出基于MapReduce编程模型的并行化文本层次聚类算法。将基于文本向量分量组特征统计的垂直数据划分算法应用于MapReduce的数据分发,将MapReduce的排序特性应用于合并点的选择,使得算法更加高效,同时有利于提高聚类精度。实验结果表明了利用该算法进行大规模文本聚类的有效性及良好的可扩展性。  相似文献   

12.
金伟健  王春枝 《计算机应用》2014,34(4):1010-1013
基于开源云计算平台Hadoop的MapReduce是当前流行的分布式计算框架之一,然而其先进先出(FIFO)调度算法存在资源利用效率低下的问题。提出了一种基于资源匹配规则的MapReduce任务调度模型并进行了算法实现。该调度模型通过获取任务的资源需求与计算节点的剩余资源,依据资源的匹配性进行任务分配,提高了系统的资源使用效率。首先对MapReduce的调度过程进行建模,提出了资源及匹配度的量化定义和相应的计算公式;然后给出了资源测量的具体方法及算法实现;最后利用TeraSort、GrepCount和WordCount任务与FIFO调度算法进行实验对比,实验结果显示,最好的情况下,提出的调度模型任务完成时间减少了22.19%,而最差情况下的吞吐量也提高了25.39%。  相似文献   

13.
大数据环境下的计算任务往往具有一定数据依赖性关系(如MapReduce),现有的分布式存储系统任务资源选择策略选择离请求者最近的数据块响应服务,忽略了对数据块所在服务器CPU、磁盘I/O与网络等资源负载状态的考虑。在分析研究系统集群结构、文件分块、数据块存储机制的基础上,定义了集群节点矩阵、CPU负载矩阵、磁盘I/O负载矩阵、网络负载矩阵、文件分块矩阵、数据块存储矩阵与数据块存储节点状态矩阵,为任务与数据之间的依赖性构建了基础数据模型,提出了一种数据依赖约束下的最优资源选择算法(ORS2DC)。任务调度节点负责维护基础数据,MapReduce任务与数据块读取任务由于依赖资源不同而采取不同的选择策略。实验结果表明:所提算法能够为任务选择质量更高的资源,提高任务完成质量的同时减轻了NameNode负担,减小了单点故障发生的概率。  相似文献   

14.
黄学雨  向驰  陶涛 《计算机应用研究》2021,38(10):2988-2993,3024
对于基于划分的聚类算法随机选取初始聚类中心导致初始中心敏感,聚类结果不稳定、集群效率低等问题,提出一种基于MapReduce框架和改进的密度峰值的划分聚类算法(based on MapReduce framework and im-proved density peak partition clustering algorithm,MR-IDPACA).首先,通过自然最近邻定义新的局部密度计算方式,将搜索样本密度峰值点作为划分聚类算法的初始聚类中心;其次针对算法在大规模数据下运行时间复杂,提出基于E2LSH(exact Euclidean locality sensitive hashing)的一种分区方法,即KLSH(K of locality sensitive hashing).通过该方法对数据分区后结合MapReduce框架并行搜寻初始聚类中心,有效减少了算法在搜索初始聚类中心时的运行时间;对于MapReduce框架中的数据倾斜问题,提出ME(multistage equilibrium)策略对中间数据进行多段均衡分区,以提升算法运行效率;在MapReduce框架下并行聚类,得到最终聚类结果.实验得出MR-IDPACA算法在单机环境下有着较高的准确率和较强的稳定性,集群性能上也有着较好的加速比和运行时间,聚类效果有所提升.  相似文献   

15.
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数 划分 数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡。基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。  相似文献   

16.
云计算环境下差别矩阵知识约简算法研究   总被引:2,自引:0,他引:2  
知识约简是粗糙集理论的重要研究内容之一。经典的差别矩阵知识约简算法只能处理小数据集,而已有的任务并行的知识约简算法是假设所有数据一次性装入内存中,这显然不适合处理海量数据。为此,剖析了差别矩阵元素的特性,根据属性(集)的不可辨识性和云计算技术MapRcducc设计了适合数据并行的差别矩阵,并首次提出了面向大规模数据的差别矩阵知识约简算法。实验结果表明该知识约简算法是有效可行的,且具有较好的可扩展性。  相似文献   

17.
针对传统协同过滤(CF)推荐算法存在评分矩阵稀疏、扩展性弱和推荐准确率低的缺陷,提出一种改进模糊划分聚类的协同过滤推荐算法(GIFP-CCF+)。在传统基于修正余弦相似度计算方法上,引入时间差因子、热门物品权重因子以及冷门物品权重因子以改善相似度计算结果;同时引入改进模糊划分的GIFP-FCM算法,将属性特征相似的项目聚成一类,构造索引矩阵,同索引间根据项目间的相似度寻找项目最近邻居构成推荐,从而提高协同过滤算法(CF)的精度。通过与Kmeans-CF、FCM-CF和GIFP-CCF算法进行仿真对比实验,证明了GIFP-CCF+算法在推荐结果和推荐精度上具有一定的优越性。  相似文献   

18.
针对传统社会网络隐私保护技术对大规模社会网络数据处理效率较低的问题,提出一种分布式结点分裂匿名社会网络隐私保护算法(Distributed-Vertex Splitting Social Network Privacy Preserving,D-VSSP)。D-VSSP算法利用MapReduce和Pregel-like分布式计算模型处理社会网络图数据。首先基于MapReduce分布式计算模型对大图中的结点的标签信息进行标签平凡化、标签平凡化分组和精确分组处理;然后基于Pregel-like的消息传递机制,选举结点分裂,进行分布式结点分裂匿名。实验结果表明,在 对大规模社会网络数据的处理效率上, D-VSSP算法优于传统算法。  相似文献   

19.
针对大数据环境下传统并行密度聚类算法中存在的数据划分不合理,聚类结果准确度不高,结果受参数影响较大以及并行效率低等问题,提出一种MapReduce下使用均值距离与关联性标记的并行OPTICS算法——POMDRM-MR。算法使用一种基于维度稀疏度的减少边界点划分策略(DS-PRBP),划分数据集;针对各个分区,提出标记点排序识别簇算法(MOPTICS),构建数据点与核心点之间的关联性,并标记数据点迭代次数,在距离度量中,使用领域均值距离策略(FMD),计算数据点的领域均值距离,代替可达距离排序,输出关联性标记序列;最后结合重排序序列提取簇算法(REC),对输出序列进行二次排序并提取簇,提高算法局部聚类的准确性和稳定性;在合并全局簇时,算法提出边界密度筛选策略(BD-FLC),计算筛选密度相近局部簇;又基于n叉树的并集型合并与MapReduce模型,提出并行局部簇合并算法(MCNT-MR),加快局部簇收敛,并行合并局部簇,提升全局簇合并效率。对照实验表明,POMDRM-MR算法聚类效果更佳,且在大规模数据集下算法的并行化性能更好。  相似文献   

20.
李悦  刘晨 《计算机应用》2016,36(3):864-870
针对现有套牌车检测方法中所具有的成本高及检测效率低等缺点,提出一种基于历史车牌识别数据(ANPR)集的套牌车并行检测方法TP-Finder,实现了基于整数划分的数据分块策略,能有效求解大规模数据并行处理时的数据倾斜问题,显著提升套牌车辆的发现性能。此外,实现了基于TP-Finder方法的套牌车辆查询系统,可准确呈现所有疑似套牌车辆的历史行车轨迹。最后,在某市真实交通数据集上对TP-Finder方法的性能进行了实验验证。实验结果表明,与缺省的MapReduce 分块策略相比较,TP-Finder的分块策略能够带来最大20%的性能提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号