共查询到20条相似文献,搜索用时 109 毫秒
1.
大数据的一个重要方面:数据可用性 总被引:9,自引:0,他引:9
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果. 相似文献
2.
3.
基于数据仓库环境下的数据可用性研究 总被引:1,自引:0,他引:1
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案———模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。 相似文献
4.
随着数据仓库技术的广泛应用,如何存储数据并保证数据长期可用性已成为近年来的研究重点。文中阐述了在数据仓库环境下存在的数据长期可用性问题,并分析了已有解决方案的优劣,从而给出了一种较为完善的解决方案——模拟策略的核心思想和具体实现过程,以及相关的关键技术,指出了保障数据可用性的未来研究方向。该策略通过模拟历史的硬件平台环境,较好地解决了数据仓库中大量历史数据的长期可用性问题。 相似文献
5.
6.
7.
随着大数据技术的不断成熟,大数据环境下数据治理工作对企业数据资产管理提出更高的要求。大数据时代,数据即为资产,且数据呈现出新的特点,即需要处理的数据量更大,需要处理的数据种类更多,数据产生和变化的速度更快。电网大数据具有多样性、一源共享、多源多标准、业务连动性等特点,如何针对全局数据的可用性、完整性、安全性和可用性进行全面管理,利用电网海量生产、运行数据从而产生实际的应用价值并且使得结构化和非结构化的信息价值最大化,已成为迫切需要解决的问题。本文针对数据分析问题,设计并实现一种完善的大数据调度管理平台,来满足可扩展的、分布式的、支持异构分析工具的、面向服务的大数据的要求,加快数据分析速度,为企业管理提供更好的服务。 相似文献
8.
9.
10.
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。 相似文献
11.
《国际计算机数学杂志》2012,89(12):1489-1498
Data replication can be used to improve the availability of data in a distributed database system. In such a system, a mechanism is required to maintain the consistency of the replicated data. Grid structure (GS) technique based on quorum is one of the latest solutions for performing this while providing a high availability of the system. It was shown in the previous study, that it still requires a bigger number of copies be made available to construct a quorum. So it is not suitable for the large systems. In this paper, we propose a technique called the binary vote assignment on grid (BVAG) technique by considering only neighbors have the replicated data. In comparison to the GS technique, BVAG requires lower communication cost for an operation, while providing higher data availability, which is preferred for large systems. 相似文献
12.
郑帮涛 《计算机测量与控制》2018,26(4):272-276
针对潜射武器健康状态评估中的大数据分析问题,对大数据概念以及特点进行了论述,重点阐述了神经网络、群体智能、相关分析和粒计算四种大数据分析方法的主要思想、应用范围,提出了潜射武器健康状态评估与大数据分析技术相结合的技术路线;指出了当前大数据分析应用存在的存储问题、弱可用性问题、大数据建模问题;最后指出了大数据分析在潜射武器健康状态评估中应用的可行性。 相似文献
13.
海量存储网络中的虚拟盘副本容错技术 总被引:2,自引:1,他引:2
大规模存储网络中的数据可用性和读写性能越来越重要.在海量存储虚拟化系统的基础上,实现了多副本虚拟盘技术来提高网络存储的数据容错能力.同时,通过多副本选择调度与异步副本更新以及副本盘空间布局的动态调整算法,提高了系统的数据读写能力.测试结果表明,加入虚拟盘副本后,在设备数量充足情况下的读性能可提高26%;即使少量磁盘失效,读写操作也能正确执行,且读性能仍然比无副本时提高10%以上. 相似文献
14.
对等网络由高度动态的节点构成,节点间会话时间极端异构。对等节点频繁加入和退出导致对等网络维护开销增大,数据可用性降低。面向可用性的对等网络数据分发方法,针对热点数据和节点可用性的分析,通过增加系统中数据的副本数量,提高数据的可用性,同时减小消息扩散的范围,提高系统的效率,克服会话时间异构性。实验结果表明,该方法可以有效提高数据可用性,降低系统的维护开销。 相似文献
15.
MapReduce programming paradigm has been widely applied to solve large‐scale data‐intensive problems. Intensive studies of MapReduce scheduling have been carried out to improve MapReduce system performance. Delay scheduling is a common way to achieve high data locality and system performance. However, inappropriate delays can lead to low system throughput and potentially break the original job priority constraints. This paper proposes a deadline‐enabled delay (DLD) scheduling algorithm that optimizes job delay decisions according to real‐time resource availability and resource competition, while still meets job deadline constraints. Experimental results illustrate that the resource availability estimation method of DLD is accurate (92%). Compared with other approaches, DLD reduces job turnaround time by 22% in average while keeping a high locality rate (88%).Copyright © 2013 John Wiley & Sons, Ltd. 相似文献
16.
Barbara Blummer 《国际互联网参考资料服务季刊》2018,23(1-2):15-40
The availability of big data is increasing in various sectors of the economy worldwide. Consequently, opportunities for data services are expanding in special, academic and public libraries. Librarians’ cataloging, archiving, research, and reference skills remain especially suited for the provision of big data services. In this article the authors examine the literature on big data and libraries to identify major themes as well as highlight possibilities and problems with the management of large datasets. Librarians can utilize this information to develop or improve data services in their institutions’ libraries. 相似文献
17.
The rise of new experimental techniques, such as high-throughput combinatorial methods, and the availability of large data sets by means of the Internet have greatly increased the amount of data that must be managed by relatively small projects. Scientific data management systems developed for large projects are often not available, suitable, nor affordable for projects with lesser resources. Increasing numbers of open-source frameworks have made available numerous options for smaller facilities to build for themselves effective and robust data management solutions. We will present considerations of these options and a case study. 相似文献
18.
为了满足指数级增长的大数据存储需求,现代的分布式存储系统需要提供大容量的存储空间以及快速的存储服务.因此在主流的分布式存储系统中,均应用了纠删码技术以节约数据中心的磁盘成本,保证数据的可靠性,并且满足应用程序和客户端的快速存储需求.在实际应用中数据往往重要程度并不相同,对数据可用性要求不一,且不同磁盘的故障率和可靠性动态不一的特点,对于传统RAID存储方式包括基于纠删码的存储系统提出了新的挑战.本文提出了一种面向数据可用性和磁盘可靠性动态要求的灵活自适应纠删码存储设计On-demand ARECS(On-demand Availability and Reliability Oriented Adaptive Erasure Coded Storage System),根据存储后端数据可用性和磁盘可靠性的多个维度进行设计,综合确定纠删码编码策略和存储节点选择,从而减少存储冗余度和存储延迟,同时提高数据可用性和存储可靠性.我们在Tahoe-LAFS开源分布式文件系统中进行了实验,实验结果验证了我们的理论分析,在保证具有多样性要求的数据可用性和磁盘可靠性的前提下,明显减少了数据冗余度和存储延迟. 相似文献
19.
云数据处理系统中广泛采用了多数据副本复制技术,以防止数据丢失,如果数据复制的份数或位置不当,就会引起数据的可用性小于用户期望的数据可用性或存储空间的浪费(如复制份数过多)。针对该问题,经研究提出了一种基于模糊预测的数据复制优化模型,该模型由模糊预测模块和复制优化模块组成。模糊预测模块以节点信息(CPU信息、节点带宽信息、内存信息和硬盘信息)作为输入,预测出节点的可用性;复制优化模块把节点的可用性和用户期望的数据可用性作为输入,计算出在满足用户期望情况下数据复制的份数和位置。提出的复制优化模型能根据云数据存储系统中数据节点可用性实现动态的优化数据复制,能获得较高的存储性价比。模拟实验中基于模糊预测的数据复制优化模型策略需要的存储空间分别是Hadoop策略的42.62%,42.84%,但文件的平均可用性可达到88.69%,90.54%,表明提出的基于模糊预测的复制模型实现了在节省存储空间的同时保证了文件可用性。 相似文献
20.
深度学习模型训练存在缺少大量带标签训练数据和数据隐私泄露等问题.为了解决这些问题,借由生成对抗网络可生成大量与真实数据同分布的对抗样本的特点,提出了一个基于条件生成对抗网络的深度学习模型训练数据生成方案.该方案采用条件生成对抗网络生成数据,满足了生成大量带标签训练数据的需求;结合数据变形方法实现数据隐私保护,解决了数据隐私泄露的问题.实验结果表明该方案是高效可行的,而且与其他方案相比,其在数据可用性和保护隐私方面具有优势. 相似文献