共查询到19条相似文献,搜索用时 78 毫秒
1.
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正. 相似文献
2.
大数据技术的发展为数据管理开辟了一条新的道路,这也为数据集成创造了新的机会。高质量的数据对于数据集成项目的成功具有关键的作用,而不关心数据质量的数据集成注定将会失败。除了与数据质量和主数据管理更好的集成以外,用户还希望工具能够支持更加广泛的数据集成风格与功能。 相似文献
3.
数据网格的数据管理策略 总被引:6,自引:0,他引:6
数据网格的目标是使数据密集型的高性能计算和数据密集型的数据共享事务处理及科学研究成为可能,数据网格主要包括数据存储系统和数据管理系统两大部分.数据管理系统对所存储的数据进行管理,主要包括数据的传送和复制等操作.文章对数据管理策略进行了详细的分类评述并且讨论了目前数据管理系统中的某些局限性和进一步的工作. 相似文献
4.
重建数据立方体的数据覆盖方法 总被引:1,自引:0,他引:1
数据切片体现了数据立方体某方面的数据特征,当产生数据切片的数据立方体由于某种原因不可访问时,通过已知的多个数据切片尽可能地恢复数据立方体中的原始信息,有利于对数据的深入分析和理解.提出了一种基于数据切片重建数据立方体的方法,通过数据切片的连接生成多维细粒度空间,利用数据覆盖操作逐步细分每个数据切片所对应的多维空间,以逼近多维细粒度空间.提出了重建后数据立方体的可查询判据.该方法直接利用数据库中的基本操作来实现,高效地支持大数据量的应用环境. 相似文献
5.
6.
数据收集是无线监测网络的关键环节.利用无人机进行数据收集,其本质是通过无人机的移动代替网络中的转发节点,减少数据从源节点到基站的转发次数,有效节约监测网络能量,从而成为未来发展的趋势.现有研究关注如何利用无人机有限的能量获得更多的数据,缺乏对获取数据的价值评估,从而导致无人机数据收集能效比不高.如何利用无人机最少的能量付出在监测区域获取最大的数据价值,其难点在于数据价值是针对不同应用的主观评价,而不同节点获取的数据价值如何比较,目前缺乏统一的标准.我们发现,数据相似节点的数据价值存在相似性.在此基础上,我们提出了一种数据收集方法OnValueGet,利用关键性代表节点的数据,最大程度的近似代表整个监测区域的数据,从而在能量约束下获得最大数据价值.其核心思想在于:从分析感知数据的时空相似性入手,确定数据价值较高的感知节点,本文称为数据关键节点,在应用的误差范围内,它们采集的数据可以近似表示全部网络感知节点采集的数据.无人机以数据关键节点为数据采集的核心目标,在能量有限的情况下,根据遇到的障碍物和节点感知到数据的异常与否,动态的规划数据收集路线,从而使收集到的数据具有最大价值,显著提升数据收集的能效比. 相似文献
7.
数据质量和数据清洗研究综述 总被引:75,自引:1,他引:75
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望. 相似文献
8.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式. 相似文献
9.
对数据质量的概念和来源进行了阐述;分析了大数据背景下数据质量面临的主要问题,从大数据应用需求、大数据质量管理建设研究,以及大数据质量相关技术攻关三个方面提出了大数据时代改进数据质量的对策建议.所得出的观点和结论为下一步工作提供有益参考. 相似文献
10.
11.
12.
13.
数据仓库中数据质量控制研究 总被引:18,自引:1,他引:18
随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。 相似文献
14.
15.
李岩 《电脑与微电子技术》2011,(17):53-55
数据仓库与数据挖掘是当今新的技术热点,数据仓库是一种解决数据使用的高效技术,数据挖掘为之提供更好的决策支持和服务,同时促进数据仓库技术的发展。主要介绍这两者的概念、应用,以及它们之间的关系。 相似文献
16.
数据仓库环境下以用户为中心的数据清洗过程模型 总被引:7,自引:1,他引:7
数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。 相似文献
17.
18.
数据仓库与数据挖掘是当今新的技术热点,数据仓库是一种解决数据使用的高效技术,数据挖掘为之提供更好的决策支持和服务,同时促进数据仓库技术的发展。主要介绍这两者的概念、应用,以及它们之间的关系。 相似文献