首页 | 官方网站   微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   98篇
  免费   14篇
  国内免费   29篇
工业技术   141篇
  2023年   3篇
  2022年   1篇
  2021年   4篇
  2020年   4篇
  2019年   3篇
  2018年   4篇
  2017年   19篇
  2016年   15篇
  2015年   12篇
  2014年   33篇
  2013年   17篇
  2012年   15篇
  2011年   5篇
  2010年   5篇
  2000年   1篇
排序方式: 共有141条查询结果,搜索用时 31 毫秒
1.
大数据处理是近年来个人、公司、企业以及世界范围内的大型公司特别关注的问题之一。通常,Google已索引了100亿张图片,YouTube每分钟处理35小时的内容,Twitter每天处理6亿的计算机访问…以下就是我要讨论关于大数据的内容。曾经有一段时间,如此大规模的数据仅用于能够购买昂贵的超级计算机并雇用员工进行维护的大型公司。如今,由于降低存储数据成本和数据处理的能力变得司空见惯,一些较小的公司和个人已经开始类似于数据存储一样存储和挖掘数据。多个硬盘上的分布式数据存储有存储容量大和数据访问速度快的优势。但是,维护具有多个硬盘的分布式系统出现了许多需要解决的问题,例如硬件故障和要存储在其他硬件上的数据分析问题。由此,形成的大数据挖掘革命的技术之一是Hadoop平台上的MapReduce编程模型。因此,在本文的框架内,作者将介绍编程模型并提供有关它的说明性应用程序。  相似文献   
2.
Hadoop是Apache基金会所开发的支持涉及数千个节点和海量数据的分布式计算的高级项目。它是一个开源免费的软件框架,受到谷歌的MapReduce和谷歌文件系统(GFS)的启发,由Java语言实现,全球的开发志愿者共同对它进行完善。Hadoop的子项目包括HDFS,MapReduce,HBase,Hive等。HDFS是一个分布式文件系统,提供高吞吐量的应用数据接口使得Hadoop具有很好的性能。MapReduce是一个软件框架,它执行涉及海量集群数据的分布式计算的MapReduce算法。尽管Hadoop被广泛使用,但它仍然存在一些影响性能的缺陷,对于小文件的处理能力就是其中缺陷之一。档案文件(Hadoop Archives)和序列文件(sequence files)是两种现有的改善小文件处理问题的解决方案,但它们仍然有各自的不足,提出一个解决方案,保留它们的优点使Hadoop在处理小文件上拥有更好的性能。  相似文献   
3.
Various methods and techniques have been proposed in past for improving performance of queries on structured and unstructured data. The paper proposes a parallel B-Tree index in the MapReduce framework for improving efficiency of random reads over the existing approaches. The benefit of using the MapReduce framework is that it encapsulates the complexity of implementing parallelism and fault tolerance from users and presents these in a user friendly way. The proposed index reduces the number of data accesses for range queries and thus improves efficiency. The B-Tree index on MapReduce is implemented in a chained-MapReduce process that reduces intermediate data access time between successive map and reduce functions, and improves efficiency. Finally, five performance metrics have been used to validate the performance of proposed index for range search query in MapReduce, such as, varying cluster size and, size of range search query coverage on execution time, the number of map tasks and size of Input/Output (I/O) data. The effect of varying Hadoop Distributed File System (HDFS) block size and, analysis of the size of heap memory and intermediate data generated during map and reduce functions also shows the superiority of the proposed index. It is observed through experimental results that the parallel B-Tree index along with a chained-MapReduce environment performs better than default non-indexed dataset of the Hadoop and B-Tree like Global Index (Zhao et al., 2012) in MapReduce.  相似文献   
4.
针对传统Hadoop平台架构中单名字节点瓶颈和对小文件存储支持不理想的问题进行优化。首先针对第一个问题,增加节点层次并在第二层增加NameNode数量等措施,解决了单名字节点瓶颈;又通过在原 HDFS 的数据存储过程中增加合并处理模块,实现小文件合并为大文件处理的方法,提升了小文件的访问效率。实验数据对比表明这些方法是有效、可行的。  相似文献   
5.
The Hadoop Distributed File System (HDFS) is designed to run on commodity hardware and can be used as a stand-alone general purpose distributed file system (Hdfs user guide, 2008). It provides the ability to access bulk data with high I/O throughput. As a result, this system is suitable for applications that have large I/O data sets. However, the performance of HDFS decreases dramatically when handling the operations of interaction-intensive files, i.e., files that have relatively small size but are frequently accessed. The paper analyzes the cause of throughput degradation issue when accessing interaction-intensive files and presents an enhanced HDFS architecture along with an associated storage allocation algorithm that overcomes the performance degradation problem. Experiments have shown that with the proposed architecture together with the associated storage allocation algorithm, the HDFS throughput for interaction-intensive files increases 300% on average with only a negligible performance decrease for large data set tasks.  相似文献   
6.
介绍了面对大数据的数据量大、种类多、速度快和高价值的处理技术挑战,企业应当如何建立可靠的大数据平台。利用信息架构原则和实践,实现大数据与企业数据的灵活集成,通过结合使用分布式文件系统、NoSQL与关系型数据库,企业可以获取、组织和分析其所有企业数据(包括结构化和非结构化数据),从而做出最科学的决策。  相似文献   
7.
HDFS (Hadoop Distributed File System)以其高容错性、高伸缩性等优点,允许用户将Hadoop部署在低廉的硬件上,广泛适用于大文件存储。然而对于海量小文件,因为内存开销过高,因此对数据的存储技术提出了更高的要求。基于Hadoop分布式文件系统(HDFS)架构,研究小文件在Hadoop架构下的数据处理策略,通过实验将其与传统的文件系统的读写、计算速度进行比较。  相似文献   
8.
基于电力计量数据处理环境与需求进行分析,描述了基于电力计量数据仓库思想的数据模型设计.数据挖掘的核心就是将正确的模型应用于数据.从体系结构、功能设计、模块实现等方面详细阐述了一个可视化数据挖掘平台.采用了公共信息模型CIM,以XML文件作为底层载体,设计的数据仓库可以适应电量用户即席查询.  相似文献   
9.
基于HDFS的小文件存储与读取优化策略   总被引:1,自引:0,他引:1       下载免费PDF全文
本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低. 本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取小文件时通过元数据信息直接以流式方式进行读取. 此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率. 实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率.  相似文献   
10.
本文论述了Hadoop的起源与发展,Hadoop是一个在集群上运行大型数据库处理应用程序的开放式源代码框架。它主要包括HDFS和MapReduce两大套件,支持通过编程范例来创建并执行的应用程序,在很多大型网站上都已经得到了应用,可以说是目前最为广泛应用的开源云计算软件平台。但其发展时间较短,研究还不够深入,还有较多值得改进的地方。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号