首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
半结构化、层次数据的模式发现   总被引:10,自引:0,他引:10  
Web数据资源及数据集成引发了半结构化数据问题,半结构化数据指其结构隐含或不规整的自描述数据。由于缺乏独立于数据的模式,有效地查询划浏览该类数据比较困难,半结构化数据的模式发现成为解决该问题的基础步骤。本文提出的算法能够快速有效地发现半结构化层次数据中的规整结构。它采用自顶向下的生成,结合有效的剪枝策略,从OEM模型表达的半结构化层次数据中构建模式树。  相似文献   

2.
半结构化数据的模式发现   总被引:7,自引:0,他引:7  
半结构化数据指那些具有隐含结构或结构不严谨的数据,如何在这些数据上有效地找到有用信息,是知识发现领域的一个新课题。由于半结构化数据具有结构不规则的特性,从中抽取结构或发现模式就成为知识发现的的首要步骤。为了对该问题有一个较清晰的了解,本文综合了该领域的发展现状,将半结合化数据上的模式发现归为两类,数据模型和信息 取,并在每一类中展现了一些有代表性的应用。  相似文献   

3.
结构化和半结构化数据的统一集成和访问是目前Web数据访问中急需解决的问题。文章提出了一种半结构化数据表示模型———层次数据图(HDG),给出了结构化数据向HDG的转换方法,并就不同结构HDG的统一集成问题进行了探究。  相似文献   

4.
XML已经成为Web上表示结构化和半结构化数据的标准格式,为了描述XML数据的结构和内容,业界已经提出了多个XML模式语言。虽然XML模式对ValidatingXML文档非常有用,但它不适用于要求表示数据有关语义知识的任务,对这样的任务最好使用概念模式。针对XML模式的概念建模,介绍了一种扩展实体关系模型及将用XML模式语言定义的模式转换成扩展实体模式的过程。  相似文献   

5.
基于XML的Web信息存储解决方案   总被引:4,自引:0,他引:4  
基于Internet数据的大量涌现,而且Internet上的数据不是一种规则的、有结构的数据。这种数据被称为半结构化数据。半结构化数据可能有以下特征: ·数据是不规则的,不符合严格的模式。半结构化数据是传统的数据库难以管理的。在关系模式中,处理非规则数据的方式是用空值代替。在面向对象数据库系统中,虽然复合类型、继承机制提供更多的灵活性,但设计出合适的面向对象模式来容纳非规则数据仍然是困难的;  相似文献   

6.
由于半结构化数据缺乏模式信息,因而半结构化数据的存储与查询将是一个十分重要且具有挑战性的研究课题。利用关系数据库存储半结构化数据可以重用数据库的查询优化器和事务处理机制,能够保证半结构化数据的一致性和完整性。该文提出一种实现半结构化数据存储与查询的新方法,该方法使用关系数据库系统来实现半结构化数据的存储与查询。给出了把基于半结构化数据的查询重写为基于关系的查询的算法,同时介绍一个可视化查询程序。  相似文献   

7.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.  相似文献   

8.
模式发现在Web抽取中的应用及设计   总被引:3,自引:0,他引:3  
蔡霞  张森  周宇 《控制工程》2003,10(3):227-229,269
WWW的迅速发展,使其日益成为人们查找有用数据的重要来源。但因每个Web站点的主题各异、形式多样、结构不同,人们往往要花大量精力在人工定位和抽取有用数据上。提出了一个基于模式发现的数据抽取框架,分析了将PAT树用于模式发现的自动数据抽取技术。初步实验结果表明所得的抽取规则能从多数搜索引擎上获得较高的抽取率。该方法对于从搜索引擎的搜索结果等结构化、半结构化网页中自动抽取重复模式具有较好的效果。  相似文献   

9.
RE-OEM:一种半结构化生物数据的信息抽取模型*   总被引:2,自引:0,他引:2  
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型RE-OEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

10.
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型REOEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

11.
Recently XML has become a standard for data representation and the preferred method of encoding structured data for exchange over the Internet. Moreover it is frequently used as a logical format to store structured and semi-structured data in databases. We propose a model-driven and configurable approach for modeling hierarchical XML data using object role modeling (ORM) as a flat conceptual model. First a non-hierarchical conceptual schema of the problem domain is built using ORM and then different hierarchical views of the conceptual schema or parts of it are specified by the designer using transformation rules. A hierarchical modeling notation called H-ORM is proposed to show these hierarchical views and model more complex semi-structured data constructs and constraints. We also propose an algorithm to map hierarchical H-ORM views to XML schema language.  相似文献   

12.
关系模式下的XML数据存取技术研究   总被引:7,自引:0,他引:7  
XML数据具有自描述性和半结构化特征,所以它能够从自身得到能够描述自己的类似于数据库的数据模式,并且对XML数据进行数据库存取。本文对利用关系模式来映射XML模式从而在关系数据库中存取XML数据的技术,进行了研究和初步应用。  相似文献   

13.
业务系统架构图是运维人员维护数据中心的重要工具之一,自动化架构梳理能显著提高运维效率。业务系统架构图是一种具有层次网络的结构,因此对于这种层次组织结构发现问题,不仅需要发现集群分组还需要定位集群在系统架构图中的层次位置,因为集群分组发现的质量直接影响到集群层次定位,因此精准的集群分组发现至关重要。社区发现有助于揭示复杂网络结构中个体相互之间的关系,但业务系统中的服务器集群不符合传统社区基于密度的社区定义,因此本文提出一种根据服务器的功能进行集群发现并定位集群层级的功能集群定位方法(Functional Cluster Positioning, FCP),根据服务器连接、属性相似性,构建服务器相似度网络,该网络体现出的集群特性符合传统社区的定义,因此可以借助传统社区的方法进行集群分组发现,然后基于业务流势确定服务器集群在业务系统中的功能层次,从而实现业务系统层次组织结构发现。在真实数据集上的实验结果表明,本文提出的FCP方法在数据中心的业务系统中可以自动、准确发现系统的层次组织结构。  相似文献   

14.
分布式多媒体数据库系统的分层体系结构   总被引:12,自引:1,他引:11  
本文研究分布式多媒体数据库系统的分层体系结构,分析了多媒体数据的表现特征,强调分离出独立的多媒体数据表现模式层的必要性,给出了多媒体数据对象的概念描述,提出了在多媒体计算机概念体系结构基础之上的我媒体数据库系统的分层体系结构框架,并进行了分析,最后给出了灵活的目录制导的分布式多媒体数据库系统结构。  相似文献   

15.
16.
网络已经成为当今社会建设与发展的重要基础建设,然而蠕虫、病毒等恶意代码对网络的正常运行造成严重的冲击和危害,造成巨大的损失。因此实现在网络环境的实时监控,迅速检测和掌握恶意代码发作情况对于防范恶意代码的破坏,降低其造成的损失具有重要的意义。本文提出了一种新的基于层次化结构的网络异常监控模型,它采用分层,跨平台的分布式监测,集中监控数据分析的系统结构,拥有具有良好系统监控策略配置能力和系统扩展性。  相似文献   

17.
Granular computing serves as a general framework for complex problem solving in broad scopes and at various levels. The granularity was constructed via many ways, however, for complex systems there remain two challenges including determining a reasonable granularity and extracting the hierarchical information. In this paper, a new method is presented for constructing the optimal hierarchical structure based on fuzzy granular space. Firstly, the inter-class deviations and intra-class deviations were introduced, whose properties were investigated in depth and approved mathematically. Secondly, the fuzzy hierarchical evaluation index is developed, followed with a novel model for extracting the global optimal hierarchical structure established. An algorithm is then proposed, which reliably constructs the multi-level structure of complex system. Finally, to reduce the complexity, the granular signatures are extracted according to the nearest-to-center principle; with the use of the signatures, a classifier is designed for verifying our method. The validation of this method is approved by an application to the H1N1 influenza virus system. The theories and methodologies on granular computing presented here are helpful for capturing the structural information of complex system, especially for data mining and knowledge discovery.  相似文献   

18.
依照图像识别出的对象标签,通过层次结构来分类图像集是图像自动化分类的重要研究问题之一。现有的方法实现了对象标签已知情况下的层次结构构建,仅存在少量方法考虑部分对象标签未知的影响。本文对经典方法进行了扩展和优化,实现了存在部分对象标签未知情况下的层次结构构建和更新。利用卷积神经网络(Convolutional neural network, CNN)对图像编码,提出半监督学习方法,根据传统算法构建类标签已知图像集的层次结构,通过周期性相似性比较,对层次结构中标签未知图像进行聚类,实现对半监督分层模型(Semi-supervised layer-wise model,SLM)的构建。本文采用了真实公开的数据集,实验结果表明,该方法能够有效地实现层次结构的构建和更新,并且能够在较小规模的数据集上取得好的预测分类效果。  相似文献   

19.
因特网的迅速发展使得多数据源综合集成日益重要.但是,不同数据源之间数据结构和语义的异构性导致数据集成是相当困难的.本文提出了一种基于模式映射的查询计划生成算法.该算法在正确定义映射规则的前提下,根据不同的查询条件和不同的数据源模式,自动构造查询计划,并保证结果数据满足目标模式结构与引用完整性要求.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号