首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 437 毫秒
1.
分布式存储系统需要完善的数据副本创建、部署、选择、定位和一致性管理机制以保证分布式计算环境中的数据安全、可用、可靠、可扩展性和服务的高效、连续性。文中全面分析与研究了国内外对分布式存储系统中的副本管理机制研究现状,重点对副本创建、副本定位、副本一致性维护和副本撤销机制进行深入的研究,并从数据可用性、节点负载均衡、数据一致性和带宽消耗等性能指标进行了分析。文中的研究成果对于分布式存储系统的合理设计与构建具有良好的参考价值。  相似文献   

2.
数据复制是分布式数据库提高可用性的重要手段,通过在不同区域放置数据库的部分副本,还可以提高本地读写操作的响应速度,增加副本数量也会提升读负载的线性扩展能力.考虑到这些优良特性,近年来国内外都出现了众多多副本分布式数据库系统,包括Google Spanner、CockroachDB、TiDB、OceanBase等一系列主流的工业界系统,也出现了包括Calvin、Aria、Berkeley Anna等一系列优秀的学术界系统.然而,多副本数据库带来诸多收益的同时,也带来了一致性维护、跨节点事务、事务隔离等一系列挑战.总结分析现有的复制架构、一致性维护策略、跨节点事务并发控制等技术,对比几个代表性多副本数据库系统之间在分布式事务处理方面上的差异与共同点,并在阿里云环境下搭建跨区域的分布式集群环境,对几个代表性系统的分布式事务处理能力进行了实验测试分析.  相似文献   

3.
分布式键值存储将数据复制到多个存储服务器的本地引擎中,并通过一致性协议保证各副本数据的一致性。其中,以日志结构合并树为核心数据结构的实现方式最为常见。然而,面向通用业务模式设计的日志结构合并树,并不适合一致性逻辑的特殊业务模式,会引发增删改性能的降低,并在全量修复过程中造成空间放大。针对上述问题,该文提出了一种新型本地引擎 PheonixLSM,通过增加增删改操作和回刷操作的约束,消除了分布式键值存储增删改流程中的双写问题,提升了引擎性能。通过重构日志结构合并树底层的 SST 文件布局,支持删除实时回收空间,消除了全量修复时的额外空间放大。实验结果显示,与原生本地引擎相比,使用 PheonixLSM 的分布式键值存储系统,增删改性能提升 90.7%,全量修复的空间放大从 65.6% 降至 6.4%,并减少了 72.3% 的修复时间。  相似文献   

4.
随着科研工作的推进, 科研数据出现了海量的增长, PB级科研数据需要高效、稳定的存储系统. 传统的数据存储方案存在资源利用率差、集群扩展性能低以及用户界面操作不友好等问题, 严重限制了数据在科研场景下的有效利用. 依托中科院地球科学大数据专项, 本文设计并实现高效的存储系统i-Harbor. 该系统以对象存储系统为核心架构, 以开源的Ceph分布式存储系统和MongoDB数据库作为对象数据和元数据的存储载体, 设计通用的基于HTTP和FTP协议的数据接口, 同时利用多副本和纠删码技术消除单点故障, 配合Zabbix集群监控系统, 实时定位平台参数以及故障, 提高平台容灾性和安全性. 此外, 基于底层分布式结构的特点, 集群可以随意添加存储节点, 提高了平台的扩展性.  相似文献   

5.
NoSQL数据库以其支持数据高并发读写,海量数据高效率存储和访问,以及高扩展性和高可用行的特点在分布式存储系统中得到了广泛的应用。通过对分布式存储系统负载均衡的研究,提出了使用一致性哈希函数来实现系统负载均衡,并通过添加为集群节点添加虚拟节点的方式来增加缓存的命中率。  相似文献   

6.
在云计算环境下分布式存储系统中,通常采用副本技术保证存储系统的可用性和可靠性,放置策略是副本技术的一个关键问题。针对现有副本放置策略中存在的副本访问开销大的问题,提出一种基于离散型萤火虫优化的副本放置算法。考虑副本放置对用户访问性能的影响,对其建立数学模型,计算萤火虫位置的适应度函数,并朝着荧光素值最大即最优值移动,进而得到合适的副本放置节点。通过仿真实验评估提出的方法,并与基于蚁群算法的副本放置策略进行比较。实验结果证明该算法能够选择合适的副本放置节点,具有较好的收敛性,并有效地降低存储系统的副本访问开销。  相似文献   

7.
卫朝霞  徐艳 《计算机仿真》2021,38(6):195-199
为降低主副本数据更新延时、减少存储开销大的问题,解决分布式存储信息出现不一致的情况,提出基于模式识别的分布式存储信息一致性控制方法.通过组建中心控制端、传输控制端以及移动端构成分布式信息存储机制,了解其具有主副本数据延时更新的问题;将数据全相关一致性更新技术与模式识别法相结合,选取最优特征子集,将添加、修改、删除三种操作下形成的数据集定义为结构序列,以状态向量的记录作为数据一致性主要参考,分析对比两个节点数据库的状态向量,完成分布式存储信息一致性控制.通过仿真表明,所提方法可以实时更新主副本数据,节省存储开销.  相似文献   

8.
如今分布式键值存储系统在工业界得到了广泛的应用,如何提升其性能成为分布式系统和并行计算领域的研究热点。远程直接数据存取是高性能计算中常用的通信技术,利用其低延迟高带宽的特性,可以有效提升分布式键值存储系统的性能表现。MPI单边通信是一种支持RDMA的通信方法,本文使用MPI单边通信实现分布式键值操作,并根据其特点重新设计通信模型。为了解决RMA带来的数据一致性问题,本文改变键值对的存储结构并制定存取操作的通信策略。通过将单边通信与TCP/IP进行对比,对不同长度的数据测试通信延迟,验证了RDMA给系统带来的性能提升。  相似文献   

9.
结构化P2P系统通常使用数据复制来提高数据可用性,但P2P环境中的节点搅动、多节点并发更新以及恶意节点的存在也为副本的一致性管理带来了新的挑战.基于协商的算法要求节点间以全交换的方式通讯,在P2P环境中其可伸缩性不够理想.本文针对结构化P2P系统提出一种基于Quorum的副本管理算法:使用混合失效模型降低容错开销,利用DHT服务处理节点搅动,将数据存储与其元信息管理分离,使数据可靠性和数据可用性得以独立调整.模拟实验表明该算法可以明显改善系统的可伸缩性,减少系统的容错开销.  相似文献   

10.
云存储环境下,元数据提供数据定位与资源描述服务,云存储系统利用副本技术保障元数据的可用性。为了解决元数据的动态更新导致的元数据副本的不一致,本文从云存储系统中不同元数据对一致性强度需求的差异性出发,提出了基于元数据弹性分级的一致性保障机制。根据元数据访问频率以及更新属性敏感度对元数据更新弹性分级,结合基于读优化的Quorum算法实现元数据更新的分级一致性保障。实验证明该机制可以有效权衡元数据副本可用性、一致性和系统开销,相比单一的一致性策略更为灵活。  相似文献   

11.
More and more unstructured data are produced and consumed over network. How to maintain these data and improve the availability and scalability of the storage systems has become a considerable challenge. Although some NoSQL systems such as Dynamo, Cassandra, MongoDB have provided different advantages for unstructured data management, no one can provide flexible query functions like MongoDB, meanwhile guarantee the availability and scalability as Cassandra simultaneously. This paper presents a new high available distributed storage system called MyStore based on an optimized clustered MongoDB for unstructured data. Consistent hash is used to distribute data on multiple MongoDB nodes by applying virtual node method. NWR mode is applied to provide automatic backup operation and guarantee data consistency. And a gossip protocol is taken for exchanging information of failures in the system. Moreover, a user-friendly interface module and an efficient cache module are designed for improving the usability of the system. Based on above strategies, the system can realize high availability for unstructured data storage, while providing complex query functions like rational databases. Moreover, it is applied in a multi-discipline virtual experiment platform named VeePalms that has run practically. Experimental evaluation shows that the methodology is powerful enough not only to enhance the data availability, but also to improve the server’s scalability.  相似文献   

12.
大数据对存储系统的可扩展性、性能和成本等方面提出了更高的要求。瓦记录(Shingled Magnetic Recor-ding,SMR)硬盘由于存储密度高、价格便宜,正逐步被广泛应用于大数据存储系统。但是,SMR硬盘的随机写性能较差,与快速的基于闪存的固态硬盘(Solid State Drive,SSD)一起构成混合存储时可以显著提升性能。同时,基于写优化的日志结构合并(Log-Structured Merge,LSM)树的键值存储已被广泛应用于许多NoSQL系统,如BigTable,Cassandra和HBase等。因此,如何基于新型的SSD-SMR混合存储构建出高性能的LSM树键值存储系统是一个具有很大研究价值的问题。首先建立基于SSD-SMR混合存储的LSM树键值系统的性能模型,然后针对SSD和SMR的硬件特征以及LSM树键值存储的软件特点,设计了一套面向SSD-SMR混合存储进行性能优化的LSM树键值存储系统,并基于LevelDB实现了该系统。在仅仅使用0.4%~2%空间的SSD的情况下,所提方法可以使SSD-SMR混合存储方案比普通磁盘方案的随机写性能提高20%,随机读性能提高5倍。  相似文献   

13.
Due to the gradual expansion in data volume used in social networks and cloud computing, the term “Big data” has appeared with its challenges to store the immense datasets. Many tools and algorithms appeared to handle the challenges of storing big data. NoSQL databases, such as Cassandra and MongoDB, are designed with a novel data management system that can handle and process huge volumes of data. Partitioning data in NoSQL databases is considered one of the critical challenges in database design. In this paper, a MapReduce Rendezvous Hashing-Based Virtual Hierarchies (MR-RHVH) framework is proposed for scalable partitioning of Cassandra NoSQL database. The MapReduce framework is used to implement MR-RHVH on Cassandra to enhance its performance in highly distributed environments. MR-RHVH distributes the nodes to rendezvous regions based on a proposed Adopted Virtual Hierarchies strategy. Each region is responsible for a set of nodes. In addition, a proposed bloom filter evaluator is used to ensure the accurate allocation of keys to nodes in each region. Moreover, a number of experiments were performed to evaluate the performance of MR-RHVH framework, using YCSB for database benchmarking. The results show high scalability rate and less time consuming for MR-RHVH framework over different recent systems.  相似文献   

14.
The tradeoff between consistency and availability is inevitable when designing distributed data stores, and today’s cloud services often choose high availability instead of strong consistency, leading to visible inconsistencies for clients. Convergent causal consistency is one of the strongest consistency model that still remains available during system partitions, and it can also satisfy human perception of causality between events. In this paper, we present CoCaCo, a distributed key-value store that provides convergent causal consistency with asynchronous replication, since it is able to provide cloud services’ desired properties including high performance and availability. Moreover, CoCaCo can efficiently guarantee causal consistency by performing dependency checking only during handling read operations. We implement CoCaCo based on Cassandra and our experimental results indicate that CoCaCo provides performance comparable to eventually consistent Cassandra.  相似文献   

15.
随着Web2.0网络应用的兴起和大数据技术的发展,传统的关系型数据库(ORDBMS)已经难以满足海量数据的存储需求。非关系型数据库(NoSQL)因其高扩展性、高伸缩性、高可用性和容错性等特点,得到了越来越多的应用。作为一种新兴的NoSQL数据库,MongoDB数据库因具有模式自由、易于扩展、故障自动恢复、支持自动分片等特点,被广泛应用于大数据处理与分析中。文中首先介绍了MongoDB自动分片架构原理和实现机制,然后分析了MongoDB自带的负载均衡算法,其虽能使各个节点数据量达到平衡,但没有考虑各个节点的负载均衡。为了解决节点的负载平均问题,在原算法基础上提出了一种基于节点实时负载的负载均衡改进算法,改进算法的主要思想是引入节点负载指数作为chunk块迁移的一个判断条件。通过搭建测试环境并进行实验,验证了改进的负载均衡算法可以有效地均衡分片中的数据,提高集群的并发读写性能,从而证明了算法的有效性。  相似文献   

16.
随着数据与系统规模的不断扩大,网络传输成为了键值存储系统的性能瓶颈。同时,远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为键值存储系统设计提供了新的思路。结合高性能网络中的RDMA技术,设计并实现了高性能、低CPU负载的键值存储系统Chequer;结合RDMA原语的特性,重新设计了键值存储系统的基本操作工作流程;并设计了基于线性探测的共享hash表,解决客户端缓存失效的问题以及提高hash命中率来减少客户端的读取轮数,进一步提高了系统的性能。在小规模集群上实现了Chequer系统,并通过实验验证了其性能。  相似文献   

17.
《Parallel Computing》2007,33(4-5):264-274
We explore the feasibility of implementing a reliable, high performance, distributed storage system on a commodity computing cluster. Files are distributed across storage nodes using erasure coding with small low-density parity-check (LDPC) codes, which provide high-reliability with small storage and performance overhead. We present performance measurements done on a prototype system comprising 50 nodes, which are self organised using a peer-to-peer overlay.  相似文献   

18.
相比于传统内存,持久性内存具有容量大和非易失的特点,这为构建大规模键值存储系统提供了新的机遇.然而,在多核服务器架构下设计持久性内存键值系统面临着诸多挑战,包括并发控制带来的CPU缓存抖动、对持久性内存有限写带宽的消耗和竞争以及持久性内存高延迟带来的线程冲突加剧.提出一种多核友好的持久性内存键值系统(multicore-friendly persistent memory key-value store,MPKV),通过设计高效并发控制方法和减少对持久性内存的写操作,充分提高多核并发性能.为避免锁资源带来的额外持久性内存写带宽消耗,MPKV引入了易失性锁管理机制,将写锁资源从索引中分离,在DRAM(dynamic RAM)中单独维护它们.为保证崩溃一致性和提高并发查询性能,MPKV引入了2阶段原子写机制,利用CPU提供的原子写操作指令将系统从一个一致性状态原子地切换到另一个一致性状态,并支持了无锁查询.基于易失性锁管理机制,MPKV还提出一种并发写消除机制,以提高更新操作之间的并发效率.当出现2个冲突的更新操作时,并发写消除机制让其中一个操作直接返回,不做任何持久性内存的分配与写操作.实验显示,MPKV相比于pmemkv具有更良好的性能以及多核扩展性.其中,在18线程环境下,MPKV的吞吐达到pmemkv的1.7~6.2倍.  相似文献   

19.
非结构化数据呈爆炸态势增长, 传统存储技术在吞吐能力可扩展性及易管理性等方面急需改进, 通过分析安保视频数据存储的问题, 设计一种云计算架构下的安保视频监控存储系统, 基于框架技术搭建了对等架构的云计算环境, 并对其中的云存储策略进行了设计和建模. 实现在廉价不可信节点上存储海量私有化只读视频数据, 并提供高效可靠地访问. 仿真结果显示, 系统的存储性能可靠度高且易于扩展, 可提供效能较高的视频云存储服务.  相似文献   

20.
目的 对于大数据挖掘,可视分析是一种非常重要的研究手段,有助于快速、直观地理解分析大数据蕴含的价值信息。但因其海量、时空、高维等特征,大数据可视化存在内存消耗大、渲染延迟高、可视效果差等问题。针对上述问题,以海量时空点数据为例,采用预处理可视化方案,设计并实现了一套高可扩展的分布式可视分析框架。方法 借鉴瓦片金字塔模型提出一种多维度聚合金字塔模型(MAP),将瓦片金字塔的2D空间层级聚合扩展到时间/空间/属性多维度,同时支持时间、空间、属性的多维层级聚合。进而以Spark集群作为并行预处理工具,以HBase分布式数据库持久化存储MAP模型数据,实现了一套开源的分布式可视化框架(MAP-Vis)。结果 以纽约出租车数据集为例,本研究实验证明能够支持时间/空间/属性多尺度、多维度联动的交互式可视化,同时具有高可扩展的预处理能力和存储能力。结论 在分布式处理能力支持下,系统能实现亚秒级的查询响应,达到良好的交互式可视化效果,证明MAP-Vis是一种有效的大数据交互式可视化方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号