首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 640 毫秒
1.
为解决早期云计算模型对医学小文件存储出现的单节点问题,数据高冗余造成数据的不一致性以及检索效率低等方面的问题,提出一种新型云存储模式。模型中,引入BWFS算法实现优化海量医学小文件序列化合并,优化纠删码算法实现数据块编码,减少数据块的冗余存储,而且引入位图索引技术与HBase索引结合形成新型并行索引策略,优化HBase主索引的缺点。实验表明,新型存储模型通过使用BWFS算法和纠删码技术减少了集群主控节点的内存消耗,在保证数据快速恢复的情况下,减少了集群数据的冗余存储,并行索引技术提高了医学数据影像的检索效率。  相似文献   

2.
针对传统的图像检索方法在处理海量数据时面临的问题,提出一种基于改进的分布式K-Means特征聚类的海量场景图像检索方法。对分布式K-Means算法进行改进,优化了初始聚类中心的选择和迭代过程,并将其应用与场景图像的特征聚类中;充分利用Hadoop分布式平台的海量存储能力和强大并行计算能力,提出了海量场景图像的存储和检索方案,设计了场景图像特征提取、特征聚类以及图像检索三个阶段分布式并行处理的Map和Reduce任务。多组实验表明,提出的方法数据伸缩率曲线平缓,取得了优良的加速比,效率大于0.6,检索的平均准确率达到了88%左右,适合海量场景图像数据的检索。  相似文献   

3.
范敏  徐胜才 《计算机应用》2013,33(12):3345-3349
为了提高海量医学图像检索效率,针对单节点医学图像检索系统的缺陷,提出一种基于Hadoop的海量医学图像检索系统。首先采用Brushlet变换和局部二值模式算法提取医学示例图像特征,并将图像特征库存储于Hadoop分布式文件系统(HDFS);然后采用Map将示例图像特征与特征库的特征进行匹配,采用Reduce接收各Map任务的计算结果,并按相似度大小进行排序;最后根据排序结果找到医学图像的最优检索结果。实验结果表明,相对于其他医学图像检索系统,Hadoop的医学图像检索系统减少了图像存储和检索时间,提高了图像检索速度。  相似文献   

4.
针对服饰图像都是小文件的特性,提出了一种HDFS和传统关系型数据库相结合的服饰图像及其特征数据的存储结构设计方法,实现了海量图像信息的快速存储和读取;改进了多特征点图像特征提取和匹配算法,并基于Map/Reduce框架实现了基于多特征的服饰图像数据分布式检索。实验结果表明,该方法能够均衡系统负载,提高资源利用率,扩展性强,有效地降低了海量服饰图像检索时间,是一种高效的服饰图像存储和检索的方法。  相似文献   

5.
为了提高海量医学图像检索效率,提出一种基于云计算的医学图像检索系统。采用Brushlet变换和LBP算法提取医学示例图像的频域和空域特征,采用具有分布式、并行处理能力云计算将任务分配到各个工作节点共同完成医学图像检索,采用仿真实验对系统的性能进行测试。结果表明,相对于B/S单节点的医学图像检索系统,云计算的医学图像检索系统提高了图像检索速度和效率,尤其对于大规模医学图像检索优势更加明显。  相似文献   

6.
随着信息技术的快速发展,数据量在以指数级飞速增长的同时数据类型也越来越多样化,传统的关系型数据库已不能满足日常数据存储的需求,因此如何实现海量多样化数据的存储和检索成为急需解决的问题。根据上述问题,文中对基于列式存储的HBase数据库的发展和技术原理进行大量调研,得出HBase数据库不但能够有效处理海量数据还可以实现更快速的检索。文中针对HBase的架构和列式存储模型进行检索效率和适用场景的研究,并通过实验验证得出当数据量和返回结果集达到一定数量时,使用HBase数据库的响应时间比传统数据库快得多。  相似文献   

7.
《软件》2016,(11):64-67
随着大数据时代的到来,海量数据对传统数据库技术提出了存储和检索性能的挑战。HBase是开源No SQL数据库,适合于各种非结构化和半结构化的松散数据的存储和管理,目前已经被很多大型企业用于处理海量数据。它基于rowkey的有序存储,对rowkey支持毫秒级的快速检索。然而,随着HBase应用的不断深入,单一的通过rowkey检索数据的方式不再满足需求,在实际应用中,经常需要根据指定字段,或者几个字段进行组合检索。针对该问题,本文提出了一种基于Redis创建HBase二级索引的方法,使得在实际应用中,支持多条件查询,提升查询的效率和性能。  相似文献   

8.
污染源监控系统中需要存储大规模监测数据,现有基于关系的数据库存储系统在数据存储和检索效率上不能很好地满足要求。为提高污染源监控数据存储系统使用性能,提出一个基于HBase的分布式三层数据存储架构,给出该存储架构下数据通信机制和实现方法。深入讨论HBase下数据存储表的设计过程和数据写入技术,并给出相应的实验分析。实验结果验证了基于HBase的污染监控数据存储系统的有效性。  相似文献   

9.
在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特...  相似文献   

10.
陆婷  房俊  乔彦克 《计算机应用》2015,35(1):103-107
交通流数据具有多来源、高速率、体量大等特征,传统数据存储方法和系统暴露出扩展性弱和存储实时性低等问题.针对上述问题,设计并实现了一套基于HBase交通流数据实时存储系统.该系统采用分布式存储架构,通过前端的预处理操作对数据进行规范化整理,利用多源缓冲区结构对不同类型的流数据进行队列划分,并结合一致性哈希算法、多线程技术、行键优化设计等策略将数据并行存储到HBase集群服务器中.实验结果表明:该系统与基于Oracle的实时存储系统相比,其存储性能提升了3~5倍;与原生的HBase方法相比,其存储性能提升了2~3倍,并且具有良好的扩展性能.  相似文献   

11.
鉴于单节点数据库审计系统检索性能低下的现状,探讨应用Hadoop伪分布模式和HBase列存储模型重构数据库审计系统的检索存储体系,重点研究HDFS存储机制、MapReduce运算框架和HBase数据模型三者的集成,以提升数据库审计系统实时检索和综合分析的性能.重构方案有效提升了检索性能,但鉴于数据的高可靠性和大体积,提出结合生产现状应用Hadoop和HBase分布式集群的展望.  相似文献   

12.
Flink流处理系统默认的任务调度策略在一定程度上忽略了集群异构和节点可用资源,导致集群整体负载不均衡。研究分布式节点的实时性能和集群作业环境,根据实际作业环境的异构分布情况,设计结合异构Flink集群的节点优先级调整方法,以基于Ganglia可扩展分布式集群资源监控系统的集群信息为依据,动态调整适应当前作业环境的节点优先级指数。基于此提出Flink节点动态自适应调度策略,通过实时监测节点的异构状况,并在任务执行过程中根据实时作业环境更新节点优先级指数,为系统任务找到最佳的执行节点完成任务分配。实验结果表明,相比于Flink默认的任务调度策略,基于节点优先级调整方法的自适应调度策略在WorldCount基准测试中的运行时间约平均减少6%,可使异构Flink集群在保持集群低延迟的同时,节点资源利用率和任务执行效率更高。  相似文献   

13.
Apache Flink是现在主流的大数据分布式计算引擎之一,其中任务调度问题是分布式计算系统中的关键问题。由于集群的异构性以及不同算子复杂度不同,大数据计算系统Flink中不可避免地会出现负载不均的情况,针对这种问题,提出了基于资源反馈的负载均衡任务调度算法RFTS。通过实时资源监控、区域划分和基于人工萤火虫优化的任务调度算法3个模块,把负载过重的机器中处于等待状态的任务分配给负载较轻的机器,来实现集群的负载均衡,提高系统集群利用率和执行效率。最后通过基于TPC-C和TPC-H数据集的实验结果表明,RFTS算法从执行时间和吞吐量2个方面有效提升了Apache Flink计算系统的性能。  相似文献   

14.
针对公共安全领域能够获取的人脸图像数据急速增长,传统的人工方式辨别人物身份工作量大、实时性差、准确度低,本文设计了一种大容量实时人脸检索系统.该系统通过Storm分布式平台实现人脸抓拍图像的实时存储与检索,通过HBase分布式存储系统实现大容量非结构化人脸数据的存储与维护.多组实验结果表明,该系统具有良好的加速比,在大容量人脸图像数据检索场景下具有良好的可扩展性和实时性.  相似文献   

15.
分布式数据库HBase在大规模数据加载中较传统关系型数据库有较大的优势但也存在很大的优化空间.基于Hadoop分布式平台搭建HBase环境,并优化自定义数据加载算法.首先,分析HBase底层数据存储,实验得出HBase自带数据加载方式在效率和灵活性方面存在不足;进而,提出了自定义并行数据加载算法,并针对集群进行优化.实验结果表明,优化后的自定义并行数据加载方式能充分发挥集群性能,具有较好的加载效率和数据操作能力.  相似文献   

16.
基于HBase的气象地面分钟数据分布式存储系统   总被引:1,自引:0,他引:1  
针对气象地面分钟数据要素多样、信息量大、产生频次高等特点,传统的关系型数据库系统在存储和管理数据上出现负载饱满、读写性能不理想等问题。结合对分布式数据库HBase的存储模型的研究,行主键(row key)采用时间加站号的方式设计了气象分钟数据存储结构模型,实现对海量气象数据的分布式存储和元信息管理。对HBase的唯一索引在面对气象业务的复杂查询用例时响应时间过长的问题,使用搜索引擎solr提供的API接口并参考气象业务中的查询用例对相关字段建立辅助索引,来满足业务检索时效。实验结果表明,该系统具有很好的存储能力和检索效率,入库效率最高可达每秒34000条,并且在常规查询用例的结果返回时效达到毫秒级,能够满足大规模气象数据在业务应用中对存储和查询时效的性能要求。  相似文献   

17.
作为新一代的大数据计算引擎,Flink得到了广泛应用。Flink在云环境下进行容器化部署时,其默认任务调度算法不能感知节点的资源信息,导致即时调整负载和自主均衡能力较差,而主流的容器编排工具虽然提供了管理容器的可能性,却也未能结合Flink特点解决平衡资源利用的同时降低容器组内的通信开销问题。针对以上问题开展研究,提出了一种面向云环境的Flink负载均衡策略FLBS,综合考虑了Flink集群中算子的分布特点和容器间通信机制,以节点间通信开销和均衡负载作为评估标准。实验结果表明,与Flink默认调度策略相比,FLBS能够有效提高计算效率,提升系统性能。  相似文献   

18.
在大数据环境背景下,传统机器学习算法多采用单机离线训练的方式,显然已经无法适应持续增长的大规模流式数据的变化。针对该问题,提出一种基于Flink平台的分布式在线集成学习算法。该方法基于Flink分布式计算框架,首先通过数据并行的方式对在线学习算法进行分布式在线训练;然后将训练出的多个子模型通过随机梯度下降算法进行模型的动态权重分配,实现对多个子模型的结果聚合;与此同时,对于训练效果不好的模型利用其样本进行在线更新;最后通过单机与集群环境在不同数据集上做实验对比分析。实验结果表明,在线学习算法结合Flink框架的分布式集成训练,能达到集中训练方式下的性能,同时大大提高了训练的时间效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号