首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
数据ETL工具通用框架设计   总被引:18,自引:0,他引:18  
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。  相似文献   

2.
本文讨论了在数据集成过程中遇到的数据合并问题,主要包括重复记录判断(对象识别技术)和重复记录的冲突处理(冲突解决机制)等,提出了比较实用、有效的方法,并通过实验对多表合并的两种算法进行了比较,指出了需要进一步改进的方向。  相似文献   

3.
《软件》2003,(2):58-58,54
有的时候,我们经常需要把客户信息等一些资料发布到网上以便联系,但是随着客户资料的越来越多,网上更新是越来越力不从心,这该怎么办?其实,除了用asp、php等这些后台语言来实现快捷更新外,Dreamweaver本身就提供了数据导入与排序的方法,这对不懂后台的朋友来说绝对是个大大的福音,Dreamweaver从版本3到最新的MX一直都保留了该功能,可见它的实用之处。下面我们就来见识一下它的功效究竟如何。(注:本文以DreamweaverMX为例)  相似文献   

4.
介绍一个Web数据提取与发布工具,内容包括系统结构、功能设计、数据组织、界面设计和实现技术。该工具已用于多个部门信息网站建设和信息系统开发之中。  相似文献   

5.
伴随着人类进入大数据时代,大数据在彰显出巨大应用价值的同时,也凸显出数据可用的科技问题。如何解决数据可用带来的挑战,成为各国政府和学界高度关注的问题。目前,针对大数据的可用性研究刚刚起步,对大数据可用性进行了探讨,并就数据可用性的研究前景进行了展望。  相似文献   

6.
大数据时代的到来催生了一门新的学科——数据科学。首先,探讨了数据科学的内涵、发展简史、学科地位及知识体系等基本问题,并提出了专业数据科学与专业中的数据科学之间的区别与联系。其次,分析现阶段数据科学的研究特点,并分别提出了专业数据科学、专业中的数据科学及大数据生态系统中的相对热门话题。接着,探讨了数据科学研究中的10个争议及挑战:思维模式的转变(知识范式还是数据范式)、对数据的认识(主动属性还是被动属性)、对智能的认识(更好的算法还是更多的数据)、主要瓶颈(数据密集型还是计算密集型)、数据准备(数据预处理还是数据加工)、服务质量(精准度还是用户体验)、数据分析(解释性分析还是预测性分析)、算法评价(复杂度还是扩展性)、研究范式(第三范式还是第四范式)、人才培养(数据工程师还是数据科学家)。然后,提出了数据科学研究的10个发展趋势:预测模型及相关分析的重视,模型集成及元分析的兴起,数据在先、模式在后或无模式的出现,数据一致性及现实主义的回归,多副本技术及靠近数据原则的广泛应用,多样化技术及一体化应用并存,简单计算及实用主义占据主导地位,数据产品开发及数据科学的嵌入式应用,专家余及公众数据科学的兴起,数据科学家与人才培养的探讨。最后,结合文中工作,对数据科学研究者给出了几点建议和注意事项。  相似文献   

7.
文章以数据产权问题的由来为切入点,针对实践分析数据产权治理的三大困境,提出数据产权的法制化治理路径,构建开放型的数据产权谱系,为数据产权治理奠定基础;在治理原则上,协调财产权体系的整体性与数据产权的独特性;在治理内容上,提出建立新型数据产权保护机制,分别从个人、企业、政府角度对数据所有权、数据使用权、数据收益权进行权利构建。  相似文献   

8.
数据的集成与交换,对企业的管理和决策意义重大.数据集成和交换必须解决抽取、转换和加载,但过去的异构系统很难实现,从需求分析、系统设计和系统实现3个方面,设计了一种针对数据抽取、转换和装载(Extract、Transform、Load)的ETL工具.根据ETL工具的综合要求,通过结构化分析需求,构建了系统逻辑模型;设计了...  相似文献   

9.
数据仓库中的数据不是传统数据库中数据的简单堆积,它是一个复杂的容纳数据集成的系统工程,为决策者提供访问、分析及共享信息的能力,从而发挥数据仓库的真正功效。本文针对于零售业,阐述了在零售业数据仓库系统中ETL的流程并结合实际应用提出了在零售业数据仓库系统中的ETL过程应考虑的诸多问题及解决方案。  相似文献   

10.
当前,全球各国日益重视数据资源开发利用,美国、欧盟、韩国等经济体探索通过开放数据倡议、数据经纪人、数据空间、个人数据管理(Mydata)、数据信托等模式,释放公共数据、企业数据以及个人数据价值.相比之下,虽然我国数据资源储量日益提升,在数据资源开发利用方面形成了很多特色化探索,但仍面临公共数据供给不足、企业数据流通效率不高、个人数据创新应用不够等问题.因此,我国应借鉴发达国家经验做法,从数据供给、数据流通、数据应用等方面入手,提高我国数据资源开发利用水平.  相似文献   

11.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

12.
介绍一种高效、可靠的基于实时数据库读写的工业实时数据清洗系统的实现方案.目前,工业实时数据的清洗主要采用了基于关系型数据库的方式,在数据量呈现海量增长的今天,弊端显著.针对该现状,提出了一种基于实时数据库本身的工业实时数据清洗系统设计思路,从系统功能需求、系统分析与设计,以及系统实现3个方面做了阐述.实践表明,系统实现了对工业实时数据的快速、稳定清洗目的.  相似文献   

13.
基于移动行业的ETL方法及策略探讨   总被引:2,自引:1,他引:2  
基于移动行业的数据仓库,对数据抽取、数据转换、数据装载和数据审计的方法和策略进行了探讨,这些方法和策略对其他行业数据仓库的构建具有借鉴作用。  相似文献   

14.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

15.
实时数据库数据特征对事务处理的影响   总被引:17,自引:0,他引:17  
实时数据库系统事务调度一般只考虑事务的截止期,这对保证满足事务访问数据的时间正确性是不够的。文中针对时序数据的特点给出了同时考虑事务的截止及“数据截止期”的事务优先级分派、调度及并发控制方法。  相似文献   

16.
《软件工程师》2017,(1):1-4
为解决当前分布式系统中多数据源、多异构数据库问题,针对现有的数据库同步方案在实际应用中所暴露出的资源损耗大、可移植性差、应用范围窄等问题,在分析了现有的数据同步技术的各自优缺点的基础上,提出了采用Sql plus和Merge语句相结合的数据库同步方案,并对数据同步的系统进行了设计,最后通过功能比较和性能分析,该方案在资源损耗、可移植性、应用范围等方面更具优势。  相似文献   

17.
随着信息采集机制的演变,存储和数据库技术的进步,产生了大量异构信息,整合和使用这些信息成为了巨大的挑战。大数据是指庞大的,有异质数据字典且包含复杂操作的数据。数据迁移是指将数据从一个系统或多个系统迁移至一个新环境的过程。大数据由于自身的特点,迁移过程极其复杂,需要一个行之有效的方法和系统来管理这个过程。本文就是探讨如何行之有效的进行大数据的迁移,并确保信息迁移的完成以及数据的高准确性和一致性。  相似文献   

18.
19.
本文介绍了数据测量中干扰数据的合理剔除与取代的几种方法。大量数据处理实例证明这些方法很有效。  相似文献   

20.
在数据驱动教学的时代背景下,教师数据应用能力显得尤为重要。数据意识的内涵有狭义数据意识和广义数据意识之分。本文从课前、课中、课后三个阶段分享教学过程中数据收集和分析的应用研究经验,帮助教师树立数据意识。通过对数据的应用,实现基于数据的以学生个性化学习为目标的教学活动,促进学生的个性化发展。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号