首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
大数据的一个重要方面:数据可用性   总被引:9,自引:0,他引:9  
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.  相似文献   

2.
李建中  王宏志  高宏 《软件学报》2016,27(7):1605-1625
信息技术的迅速发展催生了大数据时代的到来.大数据已经成为信息社会的重要财富,为人们更深入地感知、认识和控制物理世界提供了前所未有的丰富信息.然而,随着数据规模的增长,劣质数据也随之而来,导致大数据质量低劣,极大地降低了大数据的可用性,严重困扰着信息社会.近年来,数据可用性问题引起了学术界和工业界的共同关注,开展了深入研究,取得了一系列研究成果.本文介绍数据可用性的基本概念,讨论数据可用性的挑战与研究问题,综述数据可用性方面的研究成果,探索大数据可用性的未来研究方向.  相似文献   

3.
基于数据仓库环境下的数据可用性研究   总被引:1,自引:0,他引:1  
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案———模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。  相似文献   

4.
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案——模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。  相似文献   

5.
随着大数据时代的到来,如何在保护用户隐私的前提下完成多维类别数据上的频率分布估计问题成为研究热点.已有的工作主要是基于中心化差分隐私模型或本地化差分隐私模型完成安全算法的设计.鉴于上述两种模型在隐私保护程度或发布结果可用性方面的弊端,基于新兴的混洗差分隐私模型,设计用户数据收集策略,进而提供高安全、高可用的频率分布估计...  相似文献   

6.
分布式存储系统需要完善的数据副本创建、部署、选择、定位和一致性管理机制以保证分布式计算环境中的数据安全、可用、可靠、可扩展性和服务的高效、连续性。文中全面分析与研究了国内外对分布式存储系统中的副本管理机制研究现状,重点对副本创建、副本定位、副本一致性维护和副本撤销机制进行深入的研究,并从数据可用性、节点负载均衡、数据一致性和带宽消耗等性能指标进行了分析。文中的研究成果对于分布式存储系统的合理设计与构建具有良好的参考价值。  相似文献   

7.
随着大数据技术的不断成熟,大数据环境下数据治理工作对企业数据资产管理提出更高的要求。大数据时代,数据即为资产,且数据呈现出新的特点,即需要处理的数据量更大,需要处理的数据种类更多,数据产生和变化的速度更快。电网大数据具有多样性、一源共享、多源多标准、业务连动性等特点,如何针对全局数据的可用性、完整性、安全性和可用性进行全面管理,利用电网海量生产、运行数据从而产生实际的应用价值并且使得结构化和非结构化的信息价值最大化,已成为迫切需要解决的问题。本文针对数据分析问题,设计并实现一种完善的大数据调度管理平台,来满足可扩展的、分布式的、支持异构分析工具的、面向服务的大数据的要求,加快数据分析速度,为企业管理提供更好的服务。  相似文献   

8.
李新庆  王凡  张智  卫建国 《软件》2020,(4):72-76
省级气象数据存储环境虽然有效解决数据标准存储、共享服务的难点问题,但是存在数据完整性不足、可用性不高等影响数据质量的问题,造成气象行业用户的数据服务应用效果较差。针对数据质量中数据完整性这一评估指标,采用宁夏气象综合数据库作为研究数据集,结合数据完整性精确评估方法和大数据可视化技术对评估结果进行仿真,并在宁夏综合气象数据库管理系统中进行应用,为后续完善省级气象数据环境建设提供借鉴。  相似文献   

9.
我刊2月21日的监管与审计栏目,刊发了国家审计署信息中心主任王智玉在“中国IT法规遵从论坛”中演讲的部分内容,即从“数据可用性四要求”和“信息化下数据可用的新问题”两方面,阐述了审计监督与数据可用性之间的关系,以及在信息化环境中对数据可用性提出的新要求。到底应该如何保障实现数据法规遵从呢?王智玉主任在演讲的下半部分—“数据法规遵从的任务”中,从四个方面给予了讲述。  相似文献   

10.
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。  相似文献   

11.
《国际计算机数学杂志》2012,89(12):1489-1498
Data replication can be used to improve the availability of data in a distributed database system. In such a system, a mechanism is required to maintain the consistency of the replicated data. Grid structure (GS) technique based on quorum is one of the latest solutions for performing this while providing a high availability of the system. It was shown in the previous study, that it still requires a bigger number of copies be made available to construct a quorum. So it is not suitable for the large systems. In this paper, we propose a technique called the binary vote assignment on grid (BVAG) technique by considering only neighbors have the replicated data. In comparison to the GS technique, BVAG requires lower communication cost for an operation, while providing higher data availability, which is preferred for large systems.  相似文献   

12.
针对潜射武器健康状态评估中的大数据分析问题,对大数据概念以及特点进行了论述,重点阐述了神经网络、群体智能、相关分析和粒计算四种大数据分析方法的主要思想、应用范围,提出了潜射武器健康状态评估与大数据分析技术相结合的技术路线;指出了当前大数据分析应用存在的存储问题、弱可用性问题、大数据建模问题;最后指出了大数据分析在潜射武器健康状态评估中应用的可行性。  相似文献   

13.
海量存储网络中的虚拟盘副本容错技术   总被引:2,自引:1,他引:2  
大规模存储网络中的数据可用性和读写性能越来越重要.在海量存储虚拟化系统的基础上,实现了多副本虚拟盘技术来提高网络存储的数据容错能力.同时,通过多副本选择调度与异步副本更新以及副本盘空间布局的动态调整算法,提高了系统的数据读写能力.测试结果表明,加入虚拟盘副本后,在设备数量充足情况下的读性能可提高26%;即使少量磁盘失效,读写操作也能正确执行,且读性能仍然比无副本时提高10%以上.  相似文献   

14.
一种面向可用性的P2P数据分发方法   总被引:2,自引:0,他引:2       下载免费PDF全文
对等网络由高度动态的节点构成,节点间会话时间极端异构。对等节点频繁加入和退出导致对等网络维护开销增大,数据可用性降低。面向可用性的对等网络数据分发方法,针对热点数据和节点可用性的分析,通过增加系统中数据的副本数量,提高数据的可用性,同时减小消息扩散的范围,提高系统的效率,克服会话时间异构性。实验结果表明,该方法可以有效提高数据可用性,降低系统的维护开销。  相似文献   

15.
MapReduce programming paradigm has been widely applied to solve large‐scale data‐intensive problems. Intensive studies of MapReduce scheduling have been carried out to improve MapReduce system performance. Delay scheduling is a common way to achieve high data locality and system performance. However, inappropriate delays can lead to low system throughput and potentially break the original job priority constraints. This paper proposes a deadline‐enabled delay (DLD) scheduling algorithm that optimizes job delay decisions according to real‐time resource availability and resource competition, while still meets job deadline constraints. Experimental results illustrate that the resource availability estimation method of DLD is accurate (92%). Compared with other approaches, DLD reduces job turnaround time by 22% in average while keeping a high locality rate (88%).Copyright © 2013 John Wiley & Sons, Ltd.  相似文献   

16.
The availability of big data is increasing in various sectors of the economy worldwide. Consequently, opportunities for data services are expanding in special, academic and public libraries. Librarians’ cataloging, archiving, research, and reference skills remain especially suited for the provision of big data services. In this article the authors examine the literature on big data and libraries to identify major themes as well as highlight possibilities and problems with the management of large datasets. Librarians can utilize this information to develop or improve data services in their institutions’ libraries.  相似文献   

17.
The rise of new experimental techniques, such as high-throughput combinatorial methods, and the availability of large data sets by means of the Internet have greatly increased the amount of data that must be managed by relatively small projects. Scientific data management systems developed for large projects are often not available, suitable, nor affordable for projects with lesser resources. Increasing numbers of open-source frameworks have made available numerous options for smaller facilities to build for themselves effective and robust data management solutions. We will present considerations of these options and a case study.  相似文献   

18.
为了满足指数级增长的大数据存储需求,现代的分布式存储系统需要提供大容量的存储空间以及快速的存储服务.因此在主流的分布式存储系统中,均应用了纠删码技术以节约数据中心的磁盘成本,保证数据的可靠性,并且满足应用程序和客户端的快速存储需求.在实际应用中数据往往重要程度并不相同,对数据可用性要求不一,且不同磁盘的故障率和可靠性动态不一的特点,对于传统RAID存储方式包括基于纠删码的存储系统提出了新的挑战.本文提出了一种面向数据可用性和磁盘可靠性动态要求的灵活自适应纠删码存储设计On-demand ARECS(On-demand Availability and Reliability Oriented Adaptive Erasure Coded Storage System),根据存储后端数据可用性和磁盘可靠性的多个维度进行设计,综合确定纠删码编码策略和存储节点选择,从而减少存储冗余度和存储延迟,同时提高数据可用性和存储可靠性.我们在Tahoe-LAFS开源分布式文件系统中进行了实验,实验结果验证了我们的理论分析,在保证具有多样性要求的数据可用性和磁盘可靠性的前提下,明显减少了数据冗余度和存储延迟.  相似文献   

19.
王理想  刘波  林伟伟 《微机发展》2013,(12):82-85,91
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。  相似文献   

20.
深度学习模型训练存在缺少大量带标签训练数据和数据隐私泄露等问题.为了解决这些问题,借由生成对抗网络可生成大量与真实数据同分布的对抗样本的特点,提出了一个基于条件生成对抗网络的深度学习模型训练数据生成方案.该方案采用条件生成对抗网络生成数据,满足了生成大量带标签训练数据的需求;结合数据变形方法实现数据隐私保护,解决了数据隐私泄露的问题.实验结果表明该方案是高效可行的,而且与其他方案相比,其在数据可用性和保护隐私方面具有优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号