首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 453 毫秒
1.
基于实体描述属性技术的XML重复对象检测方法   总被引:1,自引:0,他引:1  
李亚坤  王宏志  高宏  李建中 《计算机学报》2011,34(11):2131-2141
由于XML文档越来越广泛地被用于信息交换与集成,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.当实体识别被应用于XML数据中时,最为关键的操作是实体数据对象的匹配.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,文中提出一种基于实体描述属性技术的高效XML重复数据对象...  相似文献   

2.
存在多值依赖的XML DTD规范化研究   总被引:1,自引:0,他引:1  
丘威  张立臣 《计算机科学》2007,34(2):149-151
XML DTD文档中可能包含由非函数依赖引起的数据冗余和操作异常,首先从消除DTD文档内数据冗余的角度出发研究了文档的规范化的问题,讨论了在DTD文档中存在多值依赖的情况下,如何规范XML文档,提出了以DTD为模式的XML文档的多值依赖的概念。然后基于多值依赖的概念,提出了XML文档的一种多值依赖范式MXNF。最后在此基础上提出了把一个XML文档的DTD无损联接地分解成为符合MXNF的规范化算法,来规范存在多值依赖的XML DTD文档,并给出了该算法的分析说明。  相似文献   

3.
XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.经过试验验证该方法良好的扩展性,伸缩性和高效性.  相似文献   

4.
利用XML文档可以实现异构数据库之间的数据交换。各个应用系统只需将数据转换为符合行业规定的XML文档格式.就寸以相互识别交换的数据。文章介绍了在.NET框架下如何利用ADO.NET和XSLT技术将关系型数据转换为规定格式的XML文档。  相似文献   

5.
XML文档到关系数据库的转换研究   总被引:1,自引:0,他引:1  
XML作为网络数据交换的标准技术,广泛应用于计算机软件.目前存储数据的主流手段是关系数据库,因此XML文档与关系数据库之间必须进行转换.通过分析XML文档的层次结构,建立了XML文档树模型,并给出结点定义.依据XML的BNF规则给出了元素与属性的正规表达式和相对应的状态转换图,设计了识别元素和属性的词法分析程序用于解析XML文档.提出了XML文档树到关系数据库存储的转换思想和算法,并结合实例给出转换后的关系表.  相似文献   

6.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

7.
XML文档架构与关系数据模型间的映射研究   总被引:6,自引:2,他引:6  
XML逐渐成为Internet上数据描述和交换的标准。随着Web上大量数据用XML文档表示出来,有必要对这些XML文档进行操纵管理。为了结合关系数据库系统强大的数据操纵能力,论文在对XML文档的逻辑结构进行简要介绍的基础上,就XML文档特别是结构化XML文档与关系数据模型数据之间的互动映射作了深入探讨,特别是在数据结构和数据完整性约束条件的映射关系上作了更深一层的研究,提出了一系列基于XML本身的映射规则。  相似文献   

8.
不完全信息环境下存在XML强多值依赖的XML文档规范化研究   总被引:3,自引:0,他引:3  
不完全信息环境下XML文档中的数据存在多值依赖时.为了避免在没有约束条件下XML文档数据出现冗余及更新异常,引入XML强多值依赖的概念和理论对XML文档的规范化进行了系统研究.基于节点信息等价、节点信息相容的概念给出了XML强多值依赖的定义;基于层次化的XML强多值依赖,提出了不完全XML文档树满足XML强多值依赖范式的条件;给出了满足该条件的不完全XML文档树无数据冗余的判定定理;提出了不完全XML文档树的规范化算法,对其时间复杂性进行了分析.理论研究和实例分析表明:研究成果较好地解决了在不完全信息环境下XML文档中存在层次化的XML强多值依赖引起的数据冗余问题.  相似文献   

9.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

10.
GML文档是XML技术在GIS方面的应用,成为空间数据在Internet上的实际表示、传输和交换的标准。目前,GML文档的查询是GIS领域的研究热点。对这一问题,研究了GML文档的数据特点和结构特点,设计了一种新的索引结构--GB树,GB树是专门针对GML文档中空间数据节点的索引结构。将XML Twig模式查询思想引入GML文档查询,借助GB树的索引特点,提出了GML文档的Twig模式查询算法--GMLTwigStackGB。GMLTwigStackGB算法保留了XML文档Twig模式查询算法的优势和特点,具有完整的空间查询功能。测试实验表明,该算法能够高效地满足GML文档上的各种数据查询。  相似文献   

11.
XML数据库和关系数据库之比较   总被引:1,自引:1,他引:0  
董东  马丽  苏国斌 《计算机工程与设计》2005,26(8):2092-2096,2099
XML已经成为数据表示和交换的数据格式标准。随着大量XML文档的出现,应用数据库技术实现对XML数据的管理引起了越来越多研究者的兴趣。作为研究XML数据库技术的一个开始点,通过与关系数据库比较,可以深刻理解XML数据库与关系数据库的异同,进而为解决XML数据库所面临的问题,如为数据冗余控制、并发访问控制等提供必要的基础。两种数据库的比较是从数据模型、查询路径、完整性约束和规范化5个方面进行的,由于数据模型是数据库的基石,二者的数据模型从构造机制、名字的惟一性、空值、实体标识、实体问关系、文档顺序、数据结构的规则性、递归、数据自描述性等9个方面进行了详细讨论。  相似文献   

12.
With the growing use of the eXtensible Markup Language (XML) in database technology as a format for the permanent storage of data, the topic functional dependencies in XML (XFDs) has assumed increased importance because of its central role in database design. Recently, two different approaches have been proposed for defining an XFD. The first uses the concept of a ‘tree tuple’, whereas the second uses the concept of a ‘closest node’. In general, the two approaches are not comparable, but are comparable when a Document Type Definition is present and there is no missing information in the XML document. The first contribution of this article shows that when the two XFD definitions are comparable, the definitions are equivalent, and so there is essentially a common definition of an XFD in complete XML documents. The second contribution is to provide justification for the definition of a ‘closest node’ XFD. We show that if a complete flat relation is mapped to an XML document by an arbitrary sequence of nest operations, the XML document satisfies a ‘closest node’ XFD if and only if the relation satisfies the corresponding functional dependency. The class of XML documents generated in this fashion is a subset of the class of XML documents for which the two definitions of XFDs coincide. Hence ‘tree tuple’ and ‘closest node’ XFDs both capture the semantics of FDs when a complete relation is mapped to an XML document via arbitrary nesting.  相似文献   

13.
基于结构分析和实体识别的信息集成   总被引:4,自引:0,他引:4  
针对海量的web数据,提出了一种基于文档结构分析和实体识别的web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.  相似文献   

14.
一种基于XML的文档处理模型   总被引:1,自引:0,他引:1  
在某军用软件开发过程中,由于系统文档格式不一致、结构性差,造成了系统文档管理、数据库存储及资源共享的不便。为解决这些问题,给出了一种基于XML的文档处理模型,应用XML和Oracle XML DB技术,对文档作结构化处理,并映射到关系数据库,映射过程中保持了文档模式语义约束和文档保真性;详细介绍了模型的结构和实现技术,并给出了应用实例。  相似文献   

15.
随着语义Web技术的不断发展,基于XML的数据文档管理成为语义Web技术发展的难题,特别是RDF,DAML,OIL,OWL等本体语言的提出,基于XML的本体文档日趋复杂,传统的在关系数据库中依靠映射关系管理本体文档越来越困难。提出使用XML数据库Xindice来存储查询本体文档并设计了存储查询方法。  相似文献   

16.
基于XML数据库的Web应用研究*   总被引:6,自引:2,他引:4  
使用XML作为数据库存储数据,是XML应用的重要领域。讨论了如何用XML数据库系统进行Web应用开发设计的相关技术,如XML数据库、XML文档及其有效性定义、数据转换链接和Web平台搭建等。  相似文献   

17.
针对关系模式在养猪管理方面存在内容整齐划一、数据分散、访问数据效率低等不足之处,提出采用XML文档存储种猪数据的方案。根据XML的自我描述性特点,采用一个XML文档保存一头猪的所有数据,同时在XML文档中添加种猪谱系信息,设计出基于XML的种猪遗传评估系统。通过采用XML文档集中地存储种猪数据,管理人员能够方便地查询、分析及传输种猪数据,从而实现种猪精细化管理以及提高遗传育种计算效率。  相似文献   

18.
个人计算机中存在大量无结构文档,从无结构文档中提取有效信息是实现语义桌面管理的一个重点和难点。而实体的识别和提取又是信息提取技术中的一个重要前提和关键步骤。本文首先提出一种利用文本线索和本体元数据来识别无结构文档中实体的方法,然后手工建立一个文档集合,在该集合上验证新方法在特定领域内的实体识别效果。  相似文献   

19.
XML(eXtensible Stylesheet Language)是目前流行的内容存储格式,而PDF(Portable Document Format)是电子文档的内容载体格式,如何将XML文档转换成PDF及其他一些用于显示的文档格式越来越受到人们的关注。FOP(格式对象处理器Formatting Objects Processor)是由James Tauber开发的一个开源项目,目的是利用XSL-FO将XML文档转换成PDF、TXT、DOC等文档,该文仅以PDF文档为例,介绍如何利用FOP将XML文档转换为其他文档格式。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号