期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

宋爱波万雨桐贡欢薛荧荧《计算机工程与应用》2016,52(13):25-31

基于数据仓库的OLAP系统是当前海量多维数据分析的主要工具。随着信息技术的发展,海量多维数据的规模急剧增长,结构日益复杂,OLAP系统的性能严重下降,已经无法满足人们的数据分析需求。基于分布式计算系统Hadoop给出了新的海量多维数据的存储方法和查询方法。设计了HDFS上的列存储文件格式HCFile,基于HCFile给出了海量多维数据存储方案,该方案能够提高聚集计算效率,并有很好的可扩展性。同时,利用多维数据的层次性语义特征,设计了维层次索引,并给出了利用维层次索引和MapReduce进行聚集计算的方法。通过和Hive的对比实验,表明了数据存储方案和查询方法能够有效提高海量多维数据分析的性能。相似文献

2.

QAR数据仓库在Hive中的构建

冯兴杰吴稀钰赵杰贺阳房戍《计算机工程与应用》2017,53(11):90-94

分析QAR数据是一种非常有效的监控飞机状态的方法。但随着民航领域的快速发展,QAR数据的规模急剧增大,现有基于关系型数据库的QAR数据仓库不足以支撑海量数据下的存储与分析,导致海量的QAR数据因无法处理变成了信息垃圾。因此,针对现有数据仓库的不足,提出基于Hive的QAR数据仓库。通过对Hive特点及QAR数据结构分析,设计了基于Hive的QAR数据仓库的总体架构和存储结构。通过将现有数据仓库中的数据移植到基于Hive的QAR数据仓库,实现了对已有数据仓库的兼容。实验结果表明基于Hive的QAR数据仓库在面对QAR数据剧增的情况下,处理所需时间依然保持着线性增长。相似文献

3.

数据仓库索引启发式查询优化方法 总被引：1，自引：0，他引：1

下载免费PDF全文

黄金钗杨科华陈楠楠《计算机工程与应用》2010,46(3):122-124

在大型数据仓库查询过程中,经常涉及多事实表的连接操作。传统的查询优化方法是在计算多关系连接时尽可能地减少中间关系的大小,并没有考虑到数据仓库中数据的海量,以读为主且事实表一般建有索引的特点,往往无法取得最优的效果。针对数据仓库查询的特点,提出了一种利用索引加快查询的启发式优化方法。理论分析与实验表明,该方法在查询处理代价和执行时间上都明显减少,方法具有有效性。相似文献

4.

基于Hadoop平台的分布式ETL系统设计与实现

李晨翔何刚孙莉《福建电脑》2013,(11):111-114

为了解决传统的抽取、转换和加栽工具处理数据仓库中海量数据的效率问题,设计并实现了基于Hadoop平台的分布式ETL系统。详细的探讨了渐变维度、雪花维度、大维度数据和事实数据的并行处理。实验结果表明,与Hive数据仓库相比,该分布式ETL系统在并行处理数据仓库中海量数据的问题上,具有更高的效率和扩展性。相似文献

5.

基于Hadoop的气象信息数据仓库建立与测试

薛胜军刘寅《计算机测量与控制》2012,20(4):926-928,932

气象相关的数据随着气象事业现代化水平的不断提高而与日俱增,使得气象部门对于气象数据存储、管理和读取的要求越来越高;通过分析开源云平台Hadoop的分布式文件系统HDFS、数据仓库工具Hive等架构,研究了Hadoop气象云平台的构建过程,最终实现了气象信息数据仓库的建立与测试;该气象信息数据仓库实现了海量气象数据文件的分布式存储、元数据管理以及气象数据的查询;应用表明,使用气象数据仓库进行大型气象数据文件存储和操作时,可以大大提升数据吞吐率和数据读写操作效率。相似文献

6.

Presto在美团的应用实践

陈纯《程序员》2014,(6):98-102

Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。但随着数据越来越多,Hive很难满足交互式查询的需求,而比Hive更快的工具又无法操作Facebook庞大的数据仓库,所以Facebook研发了交互式查询引擎Presto,并称其性能要比Hive好10倍。本文分享了这一利器在美团的应用实践情况。相似文献

7.

基于统计方法的Hive数据仓库查询优化实现

王有为王伟平孟丹《计算机研究与发展》2015,52(6)

Map/Reduce是海量离线数据分析中广泛应用的并行编程模型.Hive数据仓库基于Map/Reduce实现了查询处理引擎,然而Map/Reduce框架在处理偏斜数据时会出现工作负载分布不均的问题.均衡计算模型(computation balanced model,CBM),其核心思想是通过数据分布特征指导查询计划优化.相应研究贡献包括2部分,首先针对应用极广的GroupBy查询和Join查询建立了运行估价模型,确定了不同场景下查询计划的优化选择分支;其次基于Hive ETL机制设计了一种统计信息收集方法,解决了统计海量数据分布特征的问题.实验数据表明,通过CBM优化的GroupBy查询耗时节省了8％～45％,Join查询耗时节省了12％～46％;集群CPU负载均衡指标优化了60％～80％,I/O负载均衡指标优化了60％～90％.实验结果证实了基于CBM模型优化的查询计划生成器能显著均衡化Hive查询运行时的集群负载,并优化了查询处理效率. 相似文献

8.

RB+树——一种列存储数据的树型索引结构

胡玉乐孙莉王梅《计算机研究与发展》2010,47(Z1)

索引技术是提高海量数据查询效率的关键技术之一.传统索引如B+树等在更新事务环境中具有较好的性能,然而在面向列存储的分析型数据仓库查询环境下,时间空间代价较大.根据列存储数据仓库查询环境的特点,提出一种新型树型索引--RB+树(reduced B+-tree).该索引对传统B+树结构进行了改进,并结合自底向上创建索引树的方法,使得索引的空间利用率、创建和查找效率得到显著的提高.进一步将RB+树应用于列存储数据仓库中,建立了行号索引、列值索引,特别地为解决星型模型中多表连接问题提出连接索引,有效地提高了列存储数据仓库中元组重构与多表连接的效率.在数据仓库基准数据集SSB上的实验验证了方法的有效性. 相似文献

9.

基于TEZ引擎和LLAP技术的Hive数据查询能力研究

黄健文丁奕欧阳辉苏丽裕匡磊怀《信息与电脑》2023,(3):138-140

分布式计算框架（HadoopMapReduce）解决了大数据分布式计算和并发计算问题,具有良好的扩展性和容错性,非常适合超大规模数据处理和分析。Hive基于HadoopMapReduce构建数据仓库分析系统,提供丰富的结构化查询语言（Structured Query Language,SQL）查询能力,可将SQL语句转变成MapReduce任务执行分析数据。但是,MapReduce本身的特点（Map阶段和Reduce阶段）使得其在多表关联和复杂SQL场景时运行较慢。因此,基于真实场景打造了一套通过TEZ引擎和LLAP(Live Long and Process)技术结合来提升Hive查询能力的系统,面对复杂的多表关联查询、使用频率较高的复杂查询时能够快速高效率执行,缩短了用户等待时间。相似文献

10.

数据仓库技术在水文数据综合分析中的应用研究

《水利信息化》2010,(3)

针对全国水利信息化建设中建成的一批综合数据库中所积累的海量数据,探讨如何在综合数据库基础上建立数据仓库系统,并以水文主题为例,设计水文数据仓库总体结构,构建面向水文主题的多维数据组织模式,建立水文数据仓库,为水利综合决策支持服务。相似文献

11.

基于Hadoop平台的OLAP煤炭销售数据分析系统

聂瑞卢建军卫晨《工矿自动化》2012,38(11):77-80

针对煤炭销售数据量大而信息量少的问题,开发了基于Hadoop平台的OLAP煤炭销售数据分析系统,介绍了系统设计思想及架构,并以销售量统计为例阐述了实现数据深层次快速挖掘和直观显示的具体过程。该系统利用Hadoop云平台对数据进行ETL处理,创建Hive分布式数据仓库,并采用Hive的HQL语言进行OLAP统计分析,能够快速、准确地实现对销售量信息的多层次、多角度、深层次的数据挖掘、统计和分析,并直观、多角度地反映数据分析结果。相似文献

12.

基于Spark的航空信息服务平台

颜廷龙李瑛王凤芹《计算机系统应用》2021,30(4):77-81

针对大数据时代下,海军航空部队存在的种种数据治理问题,设计了一种基于Spark的航空信息服务平台,平台实现了航空数据的存储,分析与挖掘等功能.平台采用4层体系架构,使用了HDFS分布式文件存储框架和Hive数据仓库工具实现了数据的存储和管理.最后,通过仿真实验,比较在不同数据量下航空信息服务平台与传统航空数据仓库的性能优劣.通过海军航空信息服务平台建设,可以有效为海军航空部队实训提供数据支撑,为平台使用者提供辅助决策. 相似文献

13.

基于Hadoop平台的用户行为挖掘

曾志浩姚贝张琼林孙琪《计算技术与自动化》2015,(2):100-103

随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。相似文献

14.

基于Hadoop平台的事实并行处理算法 总被引：1，自引：0，他引：1

孙莉何刚李继云《计算机工程》2014,(3):59-62,81

针对传统的抽取、转换和加载工具在面临数据仓库中海量事实数据时效率较低的问题,从事实表查找代理键和多粒度事实预聚合2个角度出发,提出在渐变维度表上的多路并行查找算法和在不同粒度上对事实数据进行聚合的算法。第1种算法综合考虑了渐变维度和大维度的情况,运用分布式缓存方法将小维度表复制到各个数据节点的内存中,同时对事实数据和大维度数据采用相同的分区函数进行分区,从而解决内存不足的问题,在Map阶段实现多路查找代理键,避免由于数据传输产生的网络延迟。第2种算法在Reduce阶段之后增加Merge阶段,可有效解决事实数据按照不同粒度进行聚合的问题。实验结果表明,与Hive数据仓库相比,2种算法在并行处理数据仓库的事实数据的问题上具有更高的处理效率。相似文献

15.

水利普查成果分析中数据立方体计算研究

朱凯万定生程习锋《计算机与数字工程》2014,42(9):1591-1594

n维的立方体将生成2n个聚集立方体.如何进行立方体计算,在存储空间和查询时间方面寻求平衡,成为多维分析应用中的关键问题.基于部分物化的策略,并结合水利普查数据特征,改进Minimal cubing方法,提出了层次维编码片段方法HDEF cubing.该方法利用编码长度较小的层次维编码及其前缀,快速检索出与查询关键字相匹配的层次维编码,减少了多表连接操作,从而提高查询效率.以水利普查数据为例,验证了改进的立方体计算方法能高效地对立方体进行存储和查询,适用于水利普查成果分析. 相似文献

16.

基于Hadoop的海量电费数据处理模型

下载免费PDF全文

谌章义毕伟向万红王国安吴爱国《计算机系统应用》2014,23(5):37-42

随着电费数据量的快速增长,某特大型集团公司财务管理信息系统传统的电费数据处理模式已经成为系统的性能瓶颈. Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于海量数据处理领域. 本文在对电费业务和Hadoop进行分析和研究的基础上,提出了电费数据新的处理模型,建立了基于Hadoop和Hive的电费明细数据处理平台. 实验证明该模型可以有效解决目前海量电费数据处理面临的性能瓶颈,提高电费数据处理的速度和效率,并且可以提供高性能的明细数据查询功能. 相似文献

17.

Benchmarking performance for migrating a relational application to a parallel implementation

《Future Generation Computer Systems》2016

Many organizations rely on relational database platforms for OLAP-style querying (aggregation and filtering) for small to medium size applications. We investigate the impact of scaling up the data sizes for such queries. We intend to illustrate what kind of performance results an organization could expect should they migrate current applications to big data environments. This paper benchmarks the performance of Hive (Thusoo et al., 2009) [9], a parallel data warehouse platform that is a part of the Hadoop software stack. We set up a 4-node Hadoop cluster using Hortonworks HDP 1.3.2 (Hortonworks HDP 1.3.2). We use the data generator provided by the TPC-DS benchmark (DSGen v1.1.0) to generate data of different scales. We compare the performance of loading data and querying for SQL and Hive Query Language (HiveQL) on a relational database installation (MySQL) and on a Hive cluster, respectively. We measure the speedup for query execution for three dataset sizes resulting from the scale up. Hive loads the large datasets faster than MySQL, while it is marginally slower than MySQL when loading the smaller datasets. Query execution in Hive is also faster. We also investigate executing Hive queries concurrently in workloads and conclude that serial execution of queries is a much better practice for clusters with limited resources. 相似文献