首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。  相似文献   

2.
针对当前朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,提出一种基于Map Reduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用Map Reduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和数据处理能力。  相似文献   

3.
冀素琴  石洪波  卫洁 《计算机工程》2012,38(16):203-206
集中式系统框架难以进行海量文本数据分类。为此,提出一种基于Map Reduce的Bagging贝叶斯文本分类算法。介绍朴素贝叶斯文本分类算法,将其与Bagging算法结合,运用Map Reduce并行编程模型,在Hadoop平台上实现算法。实验结果表明,该算法分类准确率较高,运行时间较短,适用于大规模文本数据集的分类学习。  相似文献   

4.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

5.
Hadoop是一个可实现大规模分布式计算的开源软件平台,已经被广泛应用在云计算领域。从Hadoop分布式文件系统架构的整体入手,描述了其分布式数据存储、分布式任务分配、分布式并行计算和分布式数据库4个方面的核心内容,并论述了HDFS的工作原理、文件操作流程及Map/Reduce工作原理和计算过程。使开发人员深入地理解Hadoop架构的工作原理与实现过程,为云计算背景下的应用程序开发提供重要的参考。  相似文献   

6.
针对云计算中的虚拟化、分布式存储与并行编程模型等问题,提出基于云计算的多电站计算平台的体系结构,实现电站数据中心的可靠存储与快速并行处理。详细讨论了传统的电站计算平台在数据存储和数据处理过程中的不足,设计了基于 Hadoop 的电站数据中心云计算平台,并利用 Hadoop 云计算平台对数据检索的效率进行实验比较分析。  相似文献   

7.
基于Hadoop的分布式数据库系统   总被引:1,自引:0,他引:1  
云计算是当前研究的热点,包括分布式存储和分布式计算技术。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。基于对大量数据进行处理和分析的需求,本文分析了基于Hadoop的分布式计算平台,介绍基于Hadoop的分布式数据库系统。  相似文献   

8.
基于MapReduce的并行贝叶斯分类算法的设计与实现   总被引:1,自引:0,他引:1  
针对现代大规模文本文档分类在单机计算机上训练和测试过程计算时间长,本文设计和实现了一种基于MapReduce架构的并行贝叶斯文本分类算法。在用普通PC搭建的Hadoop集群上研究实验,结果表明,基于MapReduce架构的贝叶斯文本自动分类算法处理大规模的文档自动分类时,在保证分类效果的情况下,并能获得接近线性的加速比。  相似文献   

9.
基于Hadoop的云存储的研究及实现   总被引:1,自引:0,他引:1  
首先描述了云计算、云存储的概念、云计算的体系结构及云存储的架构模式;然后介绍了Hadoop工作原理及其文件存储的方法;最后基于eyeOS的Web操作系统,对传统的文件存储方法进行改进,采用Hadoop的HDFS技术实现文件的分布式存储及容错控制。  相似文献   

10.
中国科学院计算机网络信息中心与青海湖保护区管理局合作,共同建设了青海湖野外网络视频监控。如何高效地处理每天产出的超过 100GB 的视频数据成为了一个难题。现在的视频处理系统采用计算和存储相分离的架构,这需要配置较高的专门服务器进行支撑,本文基于廉价扩展性能较好的 Hadoop 平台对视频处理做出了分布式的实现,并对单个视频文件做出了分布式转码的实现。同时,本文将基于 Hadoop 的分布式视频处理的实现和基于 HTCondor 的分布式视频的批处理实现进行了对比,实验证明,在不损失视频处理效率的条件下,基于 Hadoop 的分布式视频处理的实现拥有分布式文件系统支撑、完善的任务监控等优势。  相似文献   

11.
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程。通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验。实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化。  相似文献   

12.
云计算模式解决了大规模数据存储和计算能力上存在的瓶颈,为大规模数据挖掘技术提供了理想的计算模式和技术手段。分析Hadoop云计算平台的数据存储和计算模型,在云计算模式的基础上.实现云计算平台上Web文本数据的贝叶斯分类模型。对于大规模数据挖掘中的数据存储和计算的问题和难点.提出一种高效、低成本的解决方案。  相似文献   

13.
针对传统机器翻译系统准确性差、人工翻译成本高等缺陷,提出了一种基于Hadoop云计算框架与XMPP协议的云翻译系统解决方案,结合传统翻译技术和Hadoop云计算框架,利用XMPP在异构系统之间的互通,建立用户、译员和对象的三方互助云平台.该系统可挖掘互助沟通过程中的庞杂的语料资源,具有语料库数据量大,翻译准确、翻译效率高、智能性强等特点,解决了人工翻译成本高、机器翻译歧义性大等问题,实现了不同语种人群通过互联网进行文字即时通信时的多语无障碍沟通.  相似文献   

14.
Cloud computing techniques take the form of distributed computing by utilizing multiple computers to execute computing simultaneously on the service side. To process the increasing quantity of multimedia data, numerous large-scale multimedia data storage computing techniques in the cloud computing have been developed. Of all the techniques, Hadoop plays a key role in the cloud computing. Hadoop, a computing cluster formed by low-priced hardware, can conduct the parallel computing of petabytes of multimedia data. Hadoop features high-reliability, high-efficiency, and high-scalability. The numerous large-scale multimedia data computing techniques include not only the key core techniques, Hadoop and MapReduce, but also the data collection techniques, such as File Transfer Protocol and Flume. In addition, distributed system configuration allocation, automatic installation, and monitoring platform building and management techniques are all included. As a result, only with the integration of all the techniques, a reliable large-scale multimedia data platform can be offered. In this paper, we introduce how cloud computing can make a breakthrough by proposing a multimedia social network dataset on Hadoop platform and implementing a prototype version. Detailed specifications and design issues are discussed as well. An important finding of this article is that we can save more time if we conduct the multimedia social networking analysis using Cloud Hadoop Platform rather than using a single computer. The advantages of cloud computing over the traditional data processing practices are fully demonstrated in this article. The applicable framework designs and the tools available for the large-scale data processing are also proposed. We show the experimental multimedia data including data sizes and processing time.  相似文献   

15.
Hadoop平台在云计算中的应用   总被引:4,自引:0,他引:4  
王宏宇 《软件》2011,32(4):36-38,50
云计算是当前比较热门的新兴技术之一,受到业界的广泛关注。Hadoop是一个可实现大规模分布式计算的开源软件平台,因此被广泛应用在云计算领域。本文在对Hadoop的主要组件Hadoop分布式文件系统HDFS(Hadoop Distributed File System)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云计算模型,通过实验证明该模型可以有效完成分布式数据处理任务。  相似文献   

16.
随着云计算技术的广泛应用,人们越来越关注安全和隐私问题。由于云端是第三方服务器,并非完全可信,数据属主需要将数据加密后再托管云存储。如何实现对加密数据的高效访问控制是云计算技术亟需解决的问题。结合Hadoop云平台、基于属性与固定密文长度的加密方案提出并实现了一种在Hadoop云环境下基于属性和固定密文长度的层次化访问控制模型。该模型不仅具有固定密文长度、层次化授权结构、减少双线性对计算量的特点;同时经过实验验证,该模型能够实现云计算环境下对加密数据的高效访问控制,并解决了云存储空间有限的问题。  相似文献   

17.
近年来,随着我国互联网技术的飞速发展与大规模网络运算平台研究的深入,云平台下的数据处理已成为大规模数据的主要处理方式;但是,现有的云计算Hadoop平台在海量数据异常涌入状态下,常常出现数据逻辑错误、数据链完整性缺失、数据失效的问题,造成无法对上述异常数据进行有效检测处理,严重影响云计算Hadoop平台的数据运算准确性;针对上述问题,提出云计算Hadoop平台的异常数据检测算法研究方法;采用JNS数据采集筛查模组、算法逻辑补偿模组与动态反馈模组对现有的云端计算平台存在的问题进行针对性解决;通过仿真模拟实验证明,提出的云计算Hadoop平台的异常数据检测算法研究方法,具有异常数据识别率高,准确性高,速度快、可实施性强、稳定性好的特点。  相似文献   

18.
如何有效解决云计算中存在的安全问题是关系到云计算产业发展的关键。针对Hadoop云计算系统在数据共享中存在的安全问题,采用了一种基于RC4和RSA的混合加密保护方案,该方案在云存储数据共享过程中,紧密结合Hadoop云计算系统的特性,能够实现数据的安全共享,同时兼顾保密性与效率。  相似文献   

19.
基于学习方式对Hadoop作业调度的改进研究   总被引:1,自引:0,他引:1  
余正样 《计算机科学》2012,39(101):220-222,256
随着并行计算、分布式计算和网格计算技术的发展,云计算作为一种新的模型被提出来,发展极为迅速。Hadoop作为一个开源的云计算系统,得到了广泛的运用。作业调度是Hadoop平台的核心问题之一,通过对Hadoop中已有调度算法的了解和分析后,基于学习的方式,利用过去的节点历史记录和作业属性来不断地改进作业调度;应用了基于特征加权的朴素贝叶斯分类器算法来改进任务的分配调度,并通过实验进行了验证,结果表明它对任务分配调度执行效率有一定的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号