首页 | 官方网站   微博 | 高级检索  
     

基于分布式数据仓库的分类分析研究
引用本文:李伟卫,李 梅,张 阳,申爱丽. 基于分布式数据仓库的分类分析研究[J]. 计算机应用研究, 2013, 30(10): 2936-2939
作者姓名:李伟卫  李 梅  张 阳  申爱丽
作者单位:西北农林科技大学 信息工程学院,陕西 杨凌,712100
基金项目:国家自然科学基金资助项目(60873196); 中央高校基本科研业务费专项资金资助项目(QN2009092)
摘    要:针对GAC-RDB分类算法只能应用于单机版数据仓库的局限性,为了能够更方便、快捷地在云计算平台上开展数据挖掘工作,基于分布式数据仓库HBase,结合GAC-RDB分类算法的实现机理,制定适合分布式平台的运行策略,使用原生HiveQL语言提出了一种分布式GAC-RDB分类算法。实验显示,随着集群中节点的不断增加,算法的运行时间稳步下降。结果表明,在保证算法准确率的前提下,分布式数据仓库能够有效提高GACRDB分类算法的扩展性和运行效率,相对于MapReduce框架,HiveQL语言降低了对数据挖掘从业人员的技术要求,更大程度地减少了算法的开发时间,为挖掘海量数据提供了新的解决方案。

关 键 词:数据挖掘  分布式数据仓库  分类分析  GAC-RDB  Hadoop  HBase  Hive

Research of classification analysis for distributed data warehouse
LI Wei-wei,LI Mei,ZHANG Yang,SHEN Ai-li. Research of classification analysis for distributed data warehouse[J]. Application Research of Computers, 2013, 30(10): 2936-2939
Authors:LI Wei-wei  LI Mei  ZHANG Yang  SHEN Ai-li
Affiliation:College of Information Engineering, Northwest A&F University, Yangling Shaanxi 712100, China
Abstract:According to the limit of GAC-RDB classification algorithm which was designed for stand-alone data warehouse, in order to carry out data mining works more convenient and efficient on cloud computing platform, based on HBase, a distributed data warehouse, and the implementation mechanism of GAC-RDB classification algorithm, this paper proposed a distributed strategy, put forward the distributed GAC-RDB classification algorithm by native HiveQL language. Experiments show that the algorithm running time steadily decline as increased the number of nodes in the cluster. Results indicate that the efficiency of GAC-RDB algorithm can be improved when it is working on a distributed data warehouse, with extended scalability. Relative to the MapReduce framework, HiveQL cut down the technical requirements for data mining workers, decrease development time of the algorithm.
Keywords:data mining  distributed data warehouse  classification analysis  GAC-RDB  Hadoop  HBase  Hive
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号