首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
分布式海量矢量地理数据共享研究   总被引:16,自引:0,他引:16       下载免费PDF全文
地理空间数据的应用应用范围迅速扩大,实现空间数据的共享,充分有效利用已有数据,可节约用户成本,栅格数据的共享方式在多媒体领域有较多研究,而矢量数据研究得不多,本文讨论了分布式海量矢量地理空间数据共享的几个问题-海量空间数据的管理,传输,可视化及空间数据共享的安全问题。  相似文献   

2.
电力企业业务数据存在人为干预多、数据口径不一致、缺乏管理规范等现象,造成数据统计困难、及时性低、数据失真等问题,严重影响数据的深化应用。针对该问题,本文提出一种基于数据全生命周期管理的电网企业数据治理方案,通过构建公共数据云,开展数据资源池建设,部署结构化数据中心、非结构化数据中心及海量准实时数据中心等三大公共数据资源管理平台,定义完整的电网数据管控流程和数据责任机制,对数据进行从数据获取到数据加工、数据分发到数据使用的数据全生命周期管理,从各环节把控数据质量,辅以数据质量评估,提升电网数据的及时性、准确性及完整性。经过在输电、配电、电网调度、电网规划等多方面应用实践,该方案实现了多口径业务数据的质量管控及集中应用,提升了数据质量及综合治理水平,实现了专业数据资产全面共享。  相似文献   

3.
高云君  葛丛丛  郭宇翔  陈璐 《软件学报》2023,34(5):2365-2391
目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势.  相似文献   

4.
随着智能时代和大数据时代的到来,各种复杂异构数据不断涌现,成为数据驱动的人工智能方法、机器学习模型的基础。复杂异构数据的表征直接关系着后续模型的学习性能,因此如何有效地表征复杂异构数据成为机器学习的一个重要研究领域。文中首先介绍了数据表征的多种类型,并提出了现有数据表征方法面临的挑战;其次,根据数据类型将数据划分成单一类型数据和复合类型数据,针对单一类型数据,分别介绍了4种典型数据的表征学习发展现状和代表算法,包含离散数据、网络数据、文本数据和图像数据;然后,详细介绍了4种由多个单一数据或数据源复合而成的复杂数据,包含了离散特征与连续特征混合的结构化数据、属性数据与复杂网络复合的属性网络数据、来自不同领域的跨领域数据和由多种数据类型复合的多模态数据,分别介绍了基于上述复杂数据的表征学习现状以及最新的表征学习模型;最后,对复杂异构数据表征学习的发展趋势进行了探讨。  相似文献   

5.
数据仓库/数据集市体系结构的改进   总被引:2,自引:0,他引:2  
本文提出了一种新的建立数据集市/数据仓库体系结构的方法。它使用同一数据加载机制同时向各数据集市和中心数据仓库加载数据,将当前数据和轻度综合数据加我到数据集市,将历史数据和共享数据加载到中心数据仓库.并通过二次集成特各部门高度综合的数据加载到中心数据仓库。这种结构既具有自底向上方法的优点,又具有自顶向下方法的优点,例如。开发简单、数据结构统一等;而且比联合方法优越的是,解决数据的重复存储,使数据存储结构更合理,提供的数据更符合各级决策者需要。  相似文献   

6.
各企业在进行数据共享之前,首要考虑的是数据模型的数据映射关系,然而数据模型在不断的更替与升级,给数据集成带来了很大困难。文中设计了一种对数据源结构进行统一描述的数据字典元模型,利用数据元来规范数据项,将编辑距离算法思想应用其中,实现数据项与数据元字典中数据元的相似度匹配。应用语义树的表示方法来描述数据元结构,利用语义相似度算法进行数据元间的相似性、一致性检查,寻找数据元间的关联关系,间接地定位数据项间的语义关系,为数据映射奠定良好基础。以中石化标准数据元规范油田企业搜索引擎数据项,确保研究的实用价值。  相似文献   

7.
科学数据出版现状及其体系框架   总被引:3,自引:0,他引:3  
科学数据出版是深化数据共享的重要手段,能够激励数据生产者发布和共享数据,又能保护数据的知识产权。回顾了国内外科学数据出版现状,从数据中心和传统出版系统两个角度,提出和完善了科学数据出版体系架构。提出数据出版涉及数据提交、同行审议、数据发布和永久存储、数据引用和影响评价5个基本环节,应由出版系统、数据中心和第三方数据评价机构协同实施。重点讨论了科学数据出版面临的关键问题:数据授权、数字资源唯一标识符、数据集成和数据稿源问题。倡议建立我国的科学数据出版体系,科学数据中心在开展数据收集和共享的同时,加强与学术期刊的合作,成为数据出版的永久存储机构;学术期刊积极开展机制创新,推动学术论文相关数据的公开发布;积极开展数据知识产权保护,倡导对科学数据的引用;加强科学数据的影响评价研究,让数据成果成为普遍认同的科研产出成果,激励科学家主动参与科学数据共享。  相似文献   

8.
一个基于XML数据仓库系统的设计与实现   总被引:2,自引:0,他引:2  
黄土高原数据仓库系统以分布式数据仓库为核心,包含多个异质数据源。系统采用中间件技术不仅提供多层次资源查询服务,并且还使用数据挖掘技术和信息检索技术对资源数据进行深加工,能够主动地为用户提供黄土高原生态环境咨询、评测、预测与决策支持服务。论文重点介绍了一种基于XML的统一模式查询语言———XUSQL,用以解决多数据源中多模式数据融合问题。XUSQL使得在数据仓库中的查询与数据源模式无关,把数据源和数据仓库隔离开,从而有利于构造分布式数据仓库,便于异质数据源之间数据融合以及数据源本身的结构调整。  相似文献   

9.
详细介绍了“黑河综合遥感联合试验”(Watershed Allied Telemetry Experimental Research,WATER)的地面观测数据(气象水文和涡动相关数据除外)的数据质量控制和处理过程。从观测规范的制定和执行、数据处理和规范化、数据文件命名规范化、数据质量评价等方面进行详细阐述。不仅为数据用户提供数据质量参考信息,也为以后类似试验的开展提供一些数据质量控制和处理的借鉴。通过数据评价可以看出WATER试验的地面观测数据总体上具有较高的数据质量,这些质量控制措施为最后获取高质量的试验数据提供了重要的保证。利用这一套多尺度、标准化的高质量综合数据集开展大量数据分析和应用研究是下一步工作的重点。  相似文献   

10.
在大数据产业发展的背景下,医疗卫生领域也开始探索生物医疗大数据的新用途、新价值。随着生物医疗大数据在临床治疗与科学研究中的应用,相应的数据安全隐患也随之出现,其隐私安全保障问题开始引起人们的重视。为了降低隐私泄露的风险,加强人们对生物医疗数据的保护意识,需要从数据的生命周期角度出发,在采集、存储、访问、应用、共享、销毁这些阶段,对生物医疗大数据的操作、管理行为进行规范,并初步搭建了一个大数据云平台来实现电子数据的安全保障。  相似文献   

11.
随着大数据时代的到来,对大数据的处理变得越来越重要。本文对如何处理大数据进行了分析,研究了大数据处理的相关技术,包括数据存储架构、数据结构处理、极限存储处理等方面。最后,对大数据的未来发展进行了展望。  相似文献   

12.
试飞数据是民机飞行试验的重要产物,具有测量参数数量大,数据体量大,飞行试验数据与试飞任务信息关联性强等特征,支撑飞机型号取证与设计优化等任务。试飞数据平台数据架构对多源异构数据集成接入、多类形态数据存储管理、多种层次数据处理分析等技术进行了研究,采用湖仓一体的关键技术和方法打造试飞数据全集。试飞数据接入采用流批一体的数据处理技术,融合Spark和Flink主流数据处理引擎,具备试飞数据快速入库能力。提出按秒聚合方法,具备PB级多维度试飞数据压缩存储功能,存储性能提升近10倍;采用以秒为索引条件支持快速检索,强化数据湖查询能力。研究数据仓库技术,设计试飞数据多层数据模型,具备多维信息精细查询,多层数据灵活钻取,多功能自定义函数集成等功能,并成功应用在某型国产民机的飞行试验数据管理中,服务于试飞数据用户,提高了试飞数据管理效率与试飞数据应用价值。  相似文献   

13.
涂菲菲  周明辉 《软件学报》2019,30(5):1522-1531
问题追踪系统和版本控制系统等软件开发支持工具已被广泛应用于开源和商业软件的开发中,产生了大量的数据,即软件开发活动数据.软件开发活动数据被广泛应用于科学研究和开发实践,为智能化开发提供支持.然而数据质量对相关的研究和实践有重大影响,却还没有得到足够的重视.为了能够更好地警示数据使用者潜在的数据质量问题,通过文献调研和访谈,并基于自有经验对数据进行分析,总结出了9种数据质量问题,覆盖了数据产生、数据收集和数据使用这3个不同的阶段.进一步地,提出了相应的方法以帮助发现和解决数据问题.发现问题是指加强对数据上下文的理解和通过统计分析及数据可视化发现潜在的数据质量问题,解决问题是指利用冗余数据或者挖掘用户行为模式进行修正.  相似文献   

14.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

15.
为了使网络大数据应用的范围更广,更大程度地提高网络数据存储与管理精度,减少网络数据处理与控制的时间,需要对网络大数据进行研究。当前的网络大数据研究方法多是采用Hadoop基础架构对网络大数据进行研究,在数据存储中没有设定具体的安全存储指标,无法得到数据安全存储指标权重,存在数据存储安全性能低,网络大数据研究精度偏差大等问题。为此,提出一种基于云计算和物联网的网络大数据研究方法。该方法首先利用分级网络编码对网络数据进行传输,以传输的数据为基础,采用CRC算法实现网络数据的计算,然后依据分组存储的方式将数据进行存储,最后利用分层逆序叠加定位法对网络数据进行高精度查询,由此完成对网络大数据的研究。实验结果表明,所提方法可以全面具体地对网络大数据进行研究,提高了数据处理精度和网络数据计算速度,增加了网络数据存储空间容量和查询效率,减少了网络数据运行时的丢失率,扩展了网络数据的运作范围,为后续网络大数据的研究提供了强有力的依据。  相似文献   

16.
针对运载火箭测试发射数据分散存储且数据利用不充分的问题,提出了以数据仓库技术对火箭的测试发射数据进行组织和存储管理,实现对火箭数据价值的深层次发掘。根据运载火箭数据的特点,提出了数据仓库基础层、源数据层、数据交互层、数据架构层、应用层、显示层六个层次的框架设计;通过面向火箭数据分析和故障诊断的数据清洗规则设计,对不同来源、不同格式的数据进行清洗和加载;对火箭的数据应用方向进行了探索,设计了包络分析、相关性分析、故障诊断等数据分析模块。用某型号火箭测试发射数据进行了验证,结果表明,数据仓库方案切实可行,为后续火箭数据的持续性管理和分析奠定了基础。  相似文献   

17.
数据树——一种用于异构数据源集成的公共数据模型   总被引:7,自引:0,他引:7  
文中提出一种异构数据源集成的公共数据模型-附有元数据的数据树。数据树的元数据附在数据上,便于表达没有稳定模式的数据、自描述的数据、非结构化和半结构化的数据以及从各种异构数据源集成的数据。作为数据树操纵语言的数学基础,文中提出了数据树代数,它提供了八种操作,比关系代数具有更大的灵活性和较强的功能。  相似文献   

18.
[目的]基于现有的业务信息系统数据,建立医院数据统一应用平台,提升业务数据的服务与再利用能力.[方法]通过建立医院数据统一应用平台改善业务系统数据获取能力、实现数据集中统一存储、提升医院数据综合应用利用与服务能力.[结果]通过门诊实时流量监控数据展示与医院综合运营数据展示作为医院数据统一应用平台的示范应用,建立医院数据统一应用的示范原型,实现了医院数据统一应用的综合展示、数据准实时监控的效果.[讨论]数据统一应用平台的建设过程涉及多个业务系统数据的整合,解决好数据一致性、海量数据处理、如何规划好数据统一应用主题的问题是建设过程中的关键性问题.  相似文献   

19.
在数据中心放置海量数据时,每个数据常有多个副本,服务提供商需要支付巨额电费以运行存储这些数据副本的服务器。同时,为保证多个数据副本的一致性,放置在不同数据中心的副本需要通过数据中心之间的网络进行同步,从而引发高额的网络传输费用。为此,以最小化多副本数据放置代价为目标,建立数据放置问题模型,并提出一种基于数据组和数据中心划分的数据放置算法DDDP。将数据划分为多个数据组,按用户访问数据的延迟要求将数据中心划分成数据中心子集,并将每个数据组中的数据放置到能满足访问延迟要求且能最小化放置代价的数据中心子集中。仿真结果表明,相比NPR算法,DDDP算法能有效降低数据中心存储数据时的放置代价。  相似文献   

20.
目的 数据清洗是一个长期存在并困扰人们的问题,随着可视化技术的发展,可视数据清洗必将成为数据清洗的重要方法之一.阐述数据的主要质量问题和可视数据清洗的过程,回顾可视数据清洗的研究现状(包括数据质量问题的来源、分类以及可视数据清洗方法),并根据已有文献总结可视数据清洗面临的主要挑战和机遇.方法 由于数据清洗的方法和策略与具体的数据质量问题相关,因此本文以不同的数据质量问题为线索来归纳和评述可视数据清洗的方法和策略.结果 根据数据质量问题的不同,将可视清洗方法归纳为直接可视清洗、可视缺失数据、可视不确定数据、可视数据转换和数据清洗资源共享等,并依据不同的数据质量问题归纳总结出相应问题所面临的挑战和可进一步研究的方向.结论 对可视数据清洗的归纳、总结和展望,并指出在数据清洗领域中可视数据清洗将会是未来最有前景的研究方向之一.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号