期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

全文获取类型

收费全文	98篇
免费	14篇
国内免费	29篇

学科分类

工业技术

141篇

出版年

2023年	3篇
2022年	1篇
2021年	4篇
2020年	4篇
2019年	3篇
2018年	4篇
2017年	19篇
2016年	15篇
2015年	12篇
2014年	33篇
2013年	17篇
2012年	15篇
2011年	5篇
2010年	5篇
2000年	1篇

排序方式： 共有141条查询结果，搜索用时 31 毫秒

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»

HADOOP平台与MAP-REDUCE编程模型

《信息记录材料》2019,(12)

大数据处理是近年来个人、公司、企业以及世界范围内的大型公司特别关注的问题之一。通常,Google已索引了100亿张图片,YouTube每分钟处理35小时的内容,Twitter每天处理6亿的计算机访问…以下就是我要讨论关于大数据的内容。曾经有一段时间,如此大规模的数据仅用于能够购买昂贵的超级计算机并雇用员工进行维护的大型公司。如今,由于降低存储数据成本和数据处理的能力变得司空见惯,一些较小的公司和个人已经开始类似于数据存储一样存储和挖掘数据。多个硬盘上的分布式数据存储有存储容量大和数据访问速度快的优势。但是,维护具有多个硬盘的分布式系统出现了许多需要解决的问题,例如硬件故障和要存储在其他硬件上的数据分析问题。由此,形成的大数据挖掘革命的技术之一是Hadoop平台上的MapReduce编程模型。因此,在本文的框架内,作者将介绍编程模型并提供有关它的说明性应用程序。相似文献

Hadoop对小文件的处理性能的研究

《信息技术》2015,(10)

Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。相似文献

A MapReduce-based scalable discovery and indexing of structured big data

《Future Generation Computer Systems》2017

Various methods and techniques have been proposed in past for improving performance of queries on structured and unstructured data. The paper proposes a parallel B-Tree index in the MapReduce framework for improving efficiency of random reads over the existing approaches. The benefit of using the MapReduce framework is that it encapsulates the complexity of implementing parallelism and fault tolerance from users and presents these in a user friendly way. The proposed index reduces the number of data accesses for range queries and thus improves efficiency. The B-Tree index on MapReduce is implemented in a chained-MapReduce process that reduces intermediate data access time between successive map and reduce functions, and improves efficiency. Finally, five performance metrics have been used to validate the performance of proposed index for range search query in MapReduce, such as, varying cluster size and, size of range search query coverage on execution time, the number of map tasks and size of Input/Output (I/O) data. The effect of varying Hadoop Distributed File System (HDFS) block size and, analysis of the size of heap memory and intermediate data generated during map and reduce functions also shows the superiority of the proposed index. It is observed through experimental results that the parallel B-Tree index along with a chained-MapReduce environment performs better than default non-indexed dataset of the Hadoop and B-Tree like Global Index (Zhao et al., 2012) in MapReduce. 相似文献

Hadoop在电信大数据平台的研究与设计

陈丹 ;郭先会《现代电信科技》2014,(8):12-16

针对传统Hadoop平台架构中单名字节点瓶颈和对小文件存储支持不理想的问题进行优化。首先针对第一个问题,增加节点层次并在第二层增加NameNode数量等措施,解决了单名字节点瓶颈;又通过在原 HDFS 的数据存储过程中增加合并处理模块,实现小文件合并为大文件处理的方法,提升了小文件的访问效率。实验数据对比表明这些方法是有效、可行的。相似文献

Enhancing throughput of the Hadoop Distributed File System for interaction-intensive tasks

Xiayu Hua Hao Wu Zheng Li Shangping Ren 《Journal of Parallel and Distributed Computing》2014

The Hadoop Distributed File System (HDFS) is designed to run on commodity hardware and can be used as a stand-alone general purpose distributed file system (Hdfs user guide, 2008). It provides the ability to access bulk data with high I/O throughput. As a result, this system is suitable for applications that have large I/O data sets. However, the performance of HDFS decreases dramatically when handling the operations of interaction-intensive files, i.e., files that have relatively small size but are frequently accessed. The paper analyzes the cause of throughput degradation issue when accessing interaction-intensive files and presents an enhanced HDFS architecture along with an associated storage allocation algorithm that overcomes the performance degradation problem. Experiments have shown that with the proposed architecture together with the associated storage allocation algorithm, the HDFS throughput for interaction-intensive files increases 300% on average with only a negligible performance decrease for large data set tasks. 相似文献

企业大数据治理研究

王宇德《互联网天地》2014,(1):20-24

介绍了面对大数据的数据量大、种类多、速度快和高价值的处理技术挑战,企业应当如何建立可靠的大数据平台。利用信息架构原则和实践,实现大数据与企业数据的灵活集成,通过结合使用分布式文件系统、NoSQL与关系型数据库,企业可以获取、组织和分析其所有企业数据(包括结构化和非结构化数据),从而做出最科学的决策。相似文献

基于Hadoop的小文件分布式存储技术研究

袁晓春《机电工程技术》2014,(12)

HDFS （Hadoop Distributed File System）以其高容错性、高伸缩性等优点,允许用户将Hadoop部署在低廉的硬件上,广泛适用于大文件存储。然而对于海量小文件,因为内存开销过高,因此对数据的存储技术提出了更高的要求。基于Hadoop分布式文件系统(HDFS)架构,研究小文件在Hadoop架构下的数据处理策略,通过实验将其与传统的文件系统的读写、计算速度进行比较。相似文献

电力计量数据仓库技术研究

付学谦邓广昌温盛科杨悦辉《西北电力技术》2014,(2):36-40

基于电力计量数据处理环境与需求进行分析,描述了基于电力计量数据仓库思想的数据模型设计.数据挖掘的核心就是将正确的模型应用于数据.从体系结构、功能设计、模块实现等方面详细阐述了一个可视化数据挖掘平台.采用了公共信息模型CIM,以XML文件作为底层载体,设计的数据仓库可以适应电量用户即席查询. 相似文献

基于HDFS的小文件存储与读取优化策略 总被引：1，自引：0，他引：1

下载免费PDF全文

张海马建红《计算机系统应用》2014,23(5):167-171

本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率. 相似文献

10.

Hadoop平台的研究及其改进

蔡静《计算机光盘软件与应用》2014,(5):146-147

本文论述了Hadoop的起源与发展,Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件,支持通过编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短,研究还不够深入,还有较多值得改进的地方。相似文献

1 [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] 下一页 » 末页»