首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
针对传统的关系数据存储系统性能不足、容错性差,无法适应海量非结构化数据管理的问题,提出一种高性能、高可用非关系型存储管理机制。首先,设计了良好的用户访问服务接口,通过高效的一致性哈希算法支持数据分发到多个存储节点;其次,采用可配置的数据副本机制改善存储系统的可用性;最后,提出查询故障处理机制,用以提升存储系统的容错性,避免节点失效导致服务中断问题。实验结果表明,在不同规模用户负载下,新的存储系统的并发访问请求能力和传统的文件系统、关系数据库相比,分别提升了30%和50%;同时,在合理响应时间内,故障状态下的存储系统的可用性损失小于14%。因此,该机制适用于海量非结构化数据的高效存储管理。  相似文献   

2.
非结构化数据通常指相对于关系数据而言没有固定的显式结构的数据,比如视频、音频、图像、文档等非结构化数据。根据权威数据咨询机构或研究机构的预测报告显示,近 5~10年的数据量将呈指数级增长,而其中的非结构化数据占到当前数字信息总量的70%~85%。面对如此庞大的数据量和信息量,如何有效管理非结构化数据、获得有价值的信息或知识显得迫在眉睫。(非结构化) 数据管理可以简单化为3个目标,即:实现数据的“存得下、管得了、用的上”。本文将主要围绕前两个基本目标介绍目前的非结构化数据存储管理的研究情况。同时介绍中国人民大学非结构数据管理(Unstructured DataManagement,UDM)研究小组基于“自由表”数据模型和BUD(Bank of Unstructured Data)参考体系模型在这一个问题上所作的初步研究与探索工作,以及在原型平台myBUD中的若干存储管理技术。  相似文献   

3.
介绍了数据脱敏技术的相关信息,提出了利用BERT预训练语言模型结合Transformer编码器和条件随机场等人工智能技术处理文字、音频、图像、视频中敏感信息的方法,为解决数据安全和数据共享之间的矛盾提供了思路。  相似文献   

4.
非结构化数据的信息服务系统设计方法   总被引:6,自引:0,他引:6  
1概述 信息服务系统是指在 Internet上,以 Intemet/Intranet技术为基础,向广大用户提供丰富而实用的信息的网络服务系统。它以信息内容为中心,以提供完善的信息服务为宗旨,通过网络来满足用户的信息需求。 信息服务系统是以信息内容为中心,表现为一大批各种各样文档和数据。在没有使用数据库的信息服务系统中,只有非结构化的数据存在。它的设计过程如图1所示。下面以海事信息网站的部分数据为例,说明非结构化数据的信息服务系统的设计过程。2超文本概念设计 超文本概念设计的目标是描述应用领域的信息内…  相似文献   

5.
非结构化数据是大型企业的宝贵数据资产,其基本特征是数据格式多样、数据存储分散、数据总量大、增长速度快,蕴含有提升企业管理水平的大量重要信息.非结构化数据的统一存储、集中管理与深化应用是当今大型企业信息化建设的重要方向之一.文章从非结构化数据和结构化数据的特点、可行性分析,以及对非结构化数据的重要模块语义分析建模及其优化从而高校提炼出结构化信息几个方面来讲述非结构数据的特点.从而为企业解决非结构化数据的集中存储、有效利用等技术难题,提高企业的管理.  相似文献   

6.
非结构化数据的可视化编辑系统   总被引:1,自引:0,他引:1  
在创新计算中碰到大量的非结构化数据,采用超图模型实现非结构化数据在计算机中的存储与表示,并实现了一个非结构化数据的编辑系统,通过图形界面,用户可以交互式的编辑非结构化数据。  相似文献   

7.
基于XML的非结构化文本数据转换研究与实现   总被引:1,自引:0,他引:1  
采用XML作为存储数据的中间过程,通过两次调用Java程序,使非结构化的数据结构化因为XML作为一种半结构化的语言,适合数据存储与数据转换 而Java程序可以让基于XML的非结构化数据转换成结构化的数据,使其完全的结构化.使用该Java程序,可以完成类似的非结构化数据的转换工作.  相似文献   

8.
为了解决传统数据存储方法存在的内存消耗过大、读取效率低等多种问题,提出了基于MapReduce模型的非结构化数据分布式存储方法。设计了非结构化数据垂直分片与水平分片方案,并采用聚类算法对分片处理后的非结构化数据进行聚簇处理,在此基础上构建用于数据分布式存储的MapReduce模型,得到非结构化数据分布式存储结果。实验测试结果表明,与传统非结构化数据存储方法相比,研究方法的内存消耗更小、写入量更大、读取效率更高、访问频率动态调节性能好,由此证明该方法的存储性能更优越,实际应用效果更好。  相似文献   

9.
针对传统地理信息系统(GIS)结构化或半结构化属性查询方法对查询语句输入的精度及查询范围的限制,提出了以哈尔滨工业大学《同义词词林》扩展版文本相关度计算为核心的非结构化文本数据GIS描述性查询方法。基本过程是根据描述性查询语句计算其与地理要素所关联的文本的相关度,进而以相关度值得出概括性查询结果。对比实验结果表明,描述性查询方法不但支持查询语句输入的多样化,而且能够有效地得出与输入的描述性查询相关联的地理要素。  相似文献   

10.
作为一种先进计算方式的云计算,不断在信息服务与科研领域升温,并且影响了存储和运算大规模数据。本文主要分析了云存储技术,非结构化数据存储方式,面向云存储的非结构化数据存储系统架构,面向云存储的非结构化数据存储结构设计和实现。  相似文献   

11.
随着国网公司信息化建设的不断推进,在整个电网的运检和管理的过程中都会产生海量的数据,这些数据中包含各场景产生的视频、图片、传感器数据和一些企业档案信息等非结构(异构)化数据.在面对如此大规模非结构化的数据存储要求时,传统关系型数据库已经表现的力不从心了.如何对此类数据进行高效地、廉价地和安全可靠地存储,并且可以快速检索与分析,是当下研究的重要热点课题之一.本文首先分析了电网大数据的产生及特征,然后综述了工业界大数据分布式文件存储技术,最后分析适合国网非结构化数据的分布式文件存储策略.  相似文献   

12.
针对云存储系统中数据副本管理的延时响应等问题,提出一种面向非结构化数据的分布式副本管理模型.该模型采用机架选举算法,通过提高每个机架能源利用率的方法降低系统整体能耗,为绿色数据中心提供技术保障.运用多路线性散列算法,将数据副本动态均匀地分布到不同机架的不同节点中,以提高系统性能、平衡负载和资源利用率.仿真实验结果证明,与传统的全局映射法相比,该模型可以达到较高的存储与负载平衡,具有良好的扩展性和可用性.  相似文献   

13.
非结构化Word数据表与RDB间的存储转换   总被引:1,自引:0,他引:1       下载免费PDF全文
黄蔚  张璟  李军怀  白敏 《计算机工程》2009,35(20):37-40
针对信息系统中非结构化信息Word数据表与关系数据库之间的数据交互,提出一种基于PIA和ADO.NET技术的Word数据表互操作方法。该方法通过Word PIA对象操作Word表格,采用数据提取、数据规范化检查、虚拟表定义、分段导入和表格定制等策略解决关系数据库与Word表格之间的数据转换问题,将Word表格数据批量导入数据库,导出数据库数据生成Word数据表。通过应用案例验证该方法的可行性和实用性。  相似文献   

14.
该文从数据的存储方式入手,列出了目前业界对非结构化数据的几种管理方式和方法,并提出了通过XML,采用"非结构化数据-半结构化数据-结构化数据"的逐步转换方式,将目前难以管理的非结构化数据转到容易管理的结构化数据的方法,达到了非结构化数据为我所用的目的。  相似文献   

15.
随着互联网和信息技术的日新月异,非结构化数据量有呈几何级数增长的趋势。尤其是Web2.0网络社区的流行与火爆,使得增长趋势得到了进一步的加速。因此,面对海量的非结构化数据,如何有效地管理和组织它们,以便于终端用户进行信息存取,成为了一个迫在眉睫的重要研究课题。本文通过对非结构化数据的文本的建模和文本相似度比较,对于大规模非结构化数据的分类算法进行了讨论和研究,并将此算法应用到了中国移动的投诉数据分类系统中。在系统实施后,非常有效地提高了投诉数据的处理效率,从而印证所提出分类算法及系统框架的有效性。  相似文献   

16.
随着生态学研究尺度的不断扩大,现有的数据采集管理系统已不能满足生态系统观测数据的跨学科、大规模等转变。我们针对现代生态学研究的要求,设计了一种通用的跨学科观测数据模型,采用 NoSQL 的技术方案构建了支持分布式大规模存储的数据库,并设计实现了通用的生态观测数据管理平台。解决了跨学科异构数据的融合存储、数据模型的高度可扩展等科学问题。  相似文献   

17.
在分布式信号采集分析系统中,为保证系统的通用性,需要加装一些不同的数据采集设备,在系统规模较大时,按照传统的开发方式,要实时处理由于硬件架构不同带来的海量非结构化数据,将往往会导致不同设备无法同时工作的问题。本文将数据采集线程转化为系统服务进程,解决了这一问题。测试表明,本文设计的方案仅使得系统资源略有增加,保证了系统的稳定工作。  相似文献   

18.
电网公司多年来建设了很多业务系统,各业务系统相互孤立应用.随着企业信息化建设的深入,业务系统中数据特别是非结构化数据的数据量急剧增长,人员查找数据信息极为不便.建设面向整个电网公司的分布式非结构化数据检索平台,该平台在Linux计算机集群上部署Hadoop开发框架以及Solr分布式全文检索系统,将各业务系统中的非结构化数据进行集中式的存储、管理,并且提供统一的搜索服务,使得企业相关人员能够高效、便捷地检索出所需的数据.实现知识服务无处不在,为员工工作提供帮助,为企业提供决策支持.  相似文献   

19.
作为云存储安全的重要问题,数据完整性验证技术受到学术界和工业界的广泛关注.为了验证云端数据完整性,研究者提出了多个数据完整性公开审计模型.然而,现有的数据完整性审计模型采用固定参数审计所有文件,浪费了大量计算资源,导致系统审计效率不高.为了提高系统的审计效率,提出了一种自适应数据持有性证明方法(self-adaptive provable data possession, SA-PDP),该方法基于文件属性和用户需求动态调整文件的审计方案,使得文件的审计需求和审计方案的执行强度高度匹配.为了增强审计方案更新的灵活性,依据不同的审计需求发起者,设计了2种审计方案动态更新算法.主动更新算法保证了审计系统的覆盖率,而被动更新算法能够及时满足文件的审计需求.实验结果表明:相较于传统方法,SA-PDP的审计总执行时间至少减少了50%,有效增加了系统审计文件的数量.此外,SA-PDP方法生成的审计方案的达标率比传统审计方法提高了30%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号