排序方式: 共有952条查询结果,搜索用时 31 毫秒
81.
微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博.为了解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在hadoop平台上,充分利用hadoop分布式框架的特点,实现多节点同时抓取微博,很大程度上提高了抓取速率;并就微博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解决了负载不均衡的问题.最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台. 相似文献
82.
在对海量数据进行聚类的过程中,传统的串行模式局限性越来越明显,难以在有效时间内得出满意结果的问题,本文提出一种基于Hadoop平台下MapReduce框架的并行聚类模型。理论和实验结果证明该模型具有接近线速的加速比,针对海量数据具有较高效率。 相似文献
83.
Hadoop在处理海量小图像数据时,存在输入分片过多以及海量小图像存储问题。针对这些问题,不同于采用HIPI、SequenceFile等方法,提出了一个新型图像并行处理模型。利用Hadoop适合处理纯文本数据的特性,本模型使用存储了图像路径的文本文件替换图像数据作为输入,不需要设计图像数据类型。在Map阶段直接完成图像的读取、处理、存储过程。为了简化图像处理算法,将OpenCV和Map函数结合并设计了对应的存储方法,实现小图像文件的存储。实验表明,在Hadoop分布式系统平台下,模型不论在小数据量还是在大数据量的测试数据环境中,都具有良好的吞吐性能和稳定性。 相似文献
85.
Li WEIGANG Edans F. O. SANDES Jianya ZHENG Alba C. M. A. de MELO Lorna UDEN 《浙江大学学报:C卷英文版》2014,15(2):81-90
Online social networks (OSNs) offer people the opportunity to join communities where they share a common interest or objective. This kind of community is useful for studying the human behavior, diffusion of information, and dynamics of groups. As the members of a community are always changing, an efficient solution is needed to query information in real time. This paper introduces the Follow Model to present the basic relationship between users in OSNs, and combines it with the MapReduce solution to develop new algorithms with parallel paradigms for querying. Two models for reverse relation and high-order relation of the users were implemented in the Hadoop system. Based on 75 GB message data and 26 GB relation network data from Twitter, a case study was realized using two dynamic discussion communities:#musicmonday and #beatcancer. The querying performance demonstrates that the new solution with the implementation in Hadoop significantly improves the ability to find useful information from OSNs. 相似文献
86.
云计算作为当前互联网领域的一个新的热点,正在成为一种发展趋势。云计算的分布式架构使得其具有高性能价格比、高可靠性、可扩展性、高度灵活性。文章以Google的云计算为例介绍了云计算的分布式架构:分布式文件系统(GFS),分布式计算系统(MapReduce),分布式表格系统(BigTable)等。 相似文献
87.
88.
《中国新技术新产品》2016,(11)
传统计算可达性保持图的方法通常基于单机模式,针对小规模数据集进行计算。在处理大规模图数据以及大量中间数据时,传统方法将面临内存容量和计算速度的瓶颈问题。为了解决上述问题,本文提出了基于BFS结果集的可达性保持图并行计算方法。 相似文献
89.
为满足信息化处理需求的增长,提出MPI在云计算领域的应用研究。文章在介绍了云计算的优势、MPI概念的基础上,将MPI并行程序与并行机群系统及云计算平台整合在一起,借助Hadoop框架,充分利用MapReduce模式来实现并行化云计算对应的MPI算法。研究结果分析表明,该算法是可行的,可有效提高MPI并行处理的性能。 相似文献
90.