首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
半结构化数据的模式抽取   总被引:1,自引:1,他引:1  
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。  相似文献   

2.
XML正在迅速成为WWW上采用的信息交换、表示和存储手段之一。本文首先基于OEM数据模型提出了离散的XML数据模式概念,并以形式化的方式表达了这一思想,以此为出发点给出了带冗余的可拆分XML数据树存储方法,定义了基于模式匹配的数据查询概念,最后给出了以本文方法与传统方法所存储数据查询效率的比较。  相似文献   

3.
基于离散模式的XML数据查询的CSP实现   总被引:2,自引:1,他引:2  
XML成为WWW上采用的信息交换,表示和存储手段之一,文中给出了基于OEM数据模型的XML数据离散模式概念和基于模式匹配的数据查询概念,重点研究了通过将模式匹配转换到约束满足问题(CSP)来具体求解匹配实例的方法,此方法使WWW上基于内容的查询转变为更为精确的基于结构的查询,理论上证明了这种模式匹配到CSP转换的可行性。  相似文献   

4.
XML犤1犦正在迅速成为WWW上采用的信息交换、表示和存储手段之一,该文简单介绍了基于OEM数据模型犤2犦的离散XML数据模式概念和在此思想上发展起来的基于模式匹配的数据查询概念;通过将模式匹配转换到约束满足问题(CSP)来具体求解匹配实例,从而使WWW基于内容的查询转变为更为精确的基于结构的查询;接下来,从理论上证明了这种模式匹配到CSP转换的可行性;最后,讨论了求解CSP的算法的改进问题。  相似文献   

5.
构造Web文档中半结构化信息的技术   总被引:3,自引:0,他引:3  
为了对Web上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(OEM)建立了Web上信息模型。为了将页面中各个部分表示为应用的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

6.
基于约束的半结构化信息的抽取方法   总被引:1,自引:0,他引:1  
为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

7.
由于半结构化数据缺乏模式信息,因而半结构化数据的存储与查询将是一个十分重要且具有挑战性的研究课题。利用关系数据库存储半结构化数据可以重用数据库的查询优化器和事务处理机制,能够保证半结构化数据的一致性和完整性。该文提出一种实现半结构化数据存储与查询的新方法,该方法使用关系数据库系统来实现半结构化数据的存储与查询。给出了把基于半结构化数据的查询重写为基于关系的查询的算法,同时介绍一个可视化查询程序。  相似文献   

8.
半结构化、层次数据的模式发现   总被引:10,自引:0,他引:10  
Web数据资源及数据集成引发了半结构化数据问题,半结构化数据指其结构隐含或不规整的自描述数据。由于缺乏独立于数据的模式,有效地查询划浏览该类数据比较困难,半结构化数据的模式发现成为解决该问题的基础步骤。本文提出的算法能够快速有效地发现半结构化层次数据中的规整结构。它采用自顶向下的生成,结合有效的剪枝策略,从OEM模型表达的半结构化层次数据中构建模式树。  相似文献   

9.
随着语义Web的快速发展,如何使用RDF来描述万维网上的数据以方便语义Web的应用成为一项重要的研究课题。鉴于大部分数据都保存在关系数据库中,设计并实现了一个面向关系数据库的RDF映射系统。给出了关系数据库到RDF数据模型的映射方法,在此基础上,介绍了映射系统的实现过程。实验结果表明,映射系统能够完整地表示关系数据库的模式、数据以及隐含的语义信息。  相似文献   

10.
一种基于XML的半结构化数据存储方法   总被引:6,自引:0,他引:6  
提出了一种基于XML存储半结构化数据的方法,设计并实现了相应存储与解析算法。鉴于OEM模型是一种图状模型,而通常的XML据模型是树状模型,为此需解决图状模型数据映射为树状模型数据这一关键问题,利用XML元素和属性的语义信息可从语义级别解决该问题。,  相似文献   

11.
随着Web数据和数据集成技术的飞速发展,半结构化数据越来越引起人们的重视。半结构化数据是指那些具有隐含结构或结构不严谨的自描述数据。它不同于传统数据中的模式,它是先有数据后有模式,而且半结构化数据的模式是用于描述数据的结构信息而不是对数据结构进行强制约束。为此,半结构化数据的模式发现就成为知识发现的首要步骤。采用了层次数据的概念,提出了分层事务数据库和“累加变换”的计数原则,并据此提出了基于SHDP-tree树结构的SHDP-mine算法和挖掘出半结构、层次数据的基本模式。最后从理论和实验分析和验证了它的有效性和高效性。  相似文献   

12.
当前,深层Web数据库数量急剧增加,然而其知识并没有得到有效的利用.本文提出将特定的深层Web数据库应用于网格环境中的思想,并针对支持深层Web数据库网格的部分关键技术进行研究,主要包括:(1)深层Web数据库元信息定义模型与模式抽取模型的研究;(2)多层次的模式匹配模型和自协调模型研究;(3)基于属性松弛的Web数据库查询与集成模型研究;(4)多目标函数代价模型和面向局部性的自适应优化调度模型研究.研发成果将为构建深层Web数据库网格提供良好的支持,就像网格的概念所定义的一样,为用户提供统一的接口,可按需为消费者提供集成的深层Web数据知识.其具有广阔的应用前景.  相似文献   

13.
Current query languages for the Web (e.g., W3QL, WebLog and WebSQL) explore the structure of the Web. However, usually, the structure of the Web has little to do with the semantics of the data. Therefore, it is practically difficult to pose database queries over the Web. We introduce a new type of tags for denoting the semantics of data stored in HTML pages. These semantic tags (implemented as HTML comments) superimpose on HTML pages semistructured objects in the style of the OEM model. The paper discusses two implemented tools for fully utilizing the semantics. The first is a visualization tool for displaying both the HTML reading of Web pages and the OEM reading of Web pages. The second tool is a query language, similar to LOREL, that can query the HTML structure and/or the OEM reading. The above formalism and tools provide data-modeling capabilities for the Web that fit its heterogeneous nature. Real database queries, taking the OEM point of view, can be formulated, including queries about the schema as well as queries about the HTML structure of Web pages. Therefore, the query language is not restricted to portions of the Web in which semantic tags are used.  相似文献   

14.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.  相似文献   

15.
XML正迅速成为互联网上数据表示和交抉的标准,用关系数据库存储XML数据是XML存储策略之一。为了将XML数据存储到关系数据库中,人们研究了很多从DTD到关系模式的映射方法。Hybrid Inlining方法是一种比较常用的映射方法,此方法将多个元素内联到一个表中,从而可以降低查询时连接操作的次数,但同时也存在一些诸如删除异常、插入异常的问题。本文将Hybria Inlining方法运用在从Schema到关系模式的转抉中,同时在Hybrid Inlining方法的基础上做进一步改进,从而解决删除、插入异常等问题。最后给出其具有无损连接性以及锨持函数依赖的证明。  相似文献   

16.
This research investigates and approach to query processing in a multidatabase system that uses an objectoriented model to capture the semantics of other data models. The object-oriented model is used to construct a global schema, defining an integrated view of the different schemas in the environment. The model is also used as a self-describing model to build a meta-database for storing information about the global schema. A unique aspect of this work is that the object-oriented model is used to describe the different data models of the multidatabase environment, thereby extending the meta database with semantic information about the local schemas. With the global and local schemas all represented in an object-oriented form, structural mappings between the global schema and each local schema are then easily supported. An object algebra then provides a query language for expressing global queries, using the structural mappings to translate object algebra queries into SQL queries over local relational schema. The advantage of using an object algebra is that the object-oriented database can be viewed as a blackboard for temporary storage of local data and for establishing relationships between different databases. The object algebra can be used to directly retrieve temporarily-stored data from the object-oriented database or to transparently retrieve data from local sources using the translation process described in this paper.  相似文献   

17.
从DTD映射到关系模式:一种保持数据依赖的映射方法   总被引:9,自引:0,他引:9  
XML正迅速成为互联网上数据表示和交换的标准.用关系数据库存储XML数据是XML存储策略之一.为了将XML数据存储到关系数据库中,人们研究了从DTD到关系模式的映射方法.提出了一种保持数据依赖的映射方法PDD.与已有的Shared—Inlining方法相比,PDD方法充分考虑了DTD蕴涵的数据依赖关系,保证了XML文档的完整性.通过对泛关系进行模式分解,得到的关系模式保持函数依赖,并且满足2NF.可以证明,这种方法是有效的.  相似文献   

18.
Towards Deeper Understanding of the Search Interfaces of the Deep Web   总被引:2,自引:0,他引:2  
Many databases have become Web-accessible through form-based search interfaces (i.e., HTML forms) that allow users to specify complex and precise queries to access the underlying databases. In general, such a Web search interface can be considered as containing an interface schema with multiple attributes and rich semantic/meta-information; however, the schema is not formally defined in HTML. Many Web applications, such as Web database integration and deep Web crawling, require the construction of the schemas. In this paper, we first propose a schema model for representing complex search interfaces, and then present a layout-expression based approach to automatically extract the logical attributes from search interfaces. We also rephrase the identification of different types of semantic information as a classification problem, and design several Bayesian classifiers to help derive semantic information from extracted attributes. A system, WISE-iExtractor, has been implemented to automatically construct the schema from any Web search interfaces. Our experimental results on real search interfaces indicate that this system is highly effective.  相似文献   

19.
XML作为一种数据交换的国际标准,已经广泛应用于各个领域,如何准确地实现XML与关系数据库的转换已经成为一个重要的研究课题。本文主要研究XML Schema到关系模式的映射方法,通过对XML Schema的结构和语法进行分析,提取元素的语义信息,找到真正的复杂类型的元素,将XML Schema转换为E_Schema,E_Schema表达方式简单且信息完整,结合基于查询代价的思想对E_Schema进行处理,得到最优模式,再将其转换成关系模式,而且能保持原有的层次关系,从而实现了一个更为简单、完善的映射方案。  相似文献   

20.
To support heterogeneity is a major requirement in current approaches to integration and transformation of data. This paper proposes a new approach to the translation of schema and data from one data model to another, and we illustrate its implementation in the tool MIDST-RT.We leverage on our previous work on MIDST, a platform conceived to perform translations in an off-line fashion. In such an approach, the source database (both schema and data) is imported into a repository, where it is stored in a universal model. Then, the translation is applied within the tool as a composition of elementary transformation steps, specified as Datalog programs. Finally, the result (again both schema and data) is exported into the operational system.Here we illustrate a new, lightweight approach where the database is not imported. MIDST-RT needs only to know the schema of the source database and the model of the target one, and generates views on the operational system that expose the underlying data according to the corresponding schema in the target model. Views are generated in an almost automatic way, on the basis of the Datalog rules for schema translation.The proposed solution can be applied to different scenarios, which include data and application migration, data interchange, and object-to-relational mapping between applications and databases.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号