首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
基于约束的半结构化信息的抽取方法   总被引:1,自引:0,他引:1  
为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

2.
构造Web文档中半结构化信息的技术   总被引:3,自引:0,他引:3  
为了对Web上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(OEM)建立了Web上信息模型。为了将页面中各个部分表示为应用的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

3.
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型REOEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

4.
半结构化数据的模式抽取   总被引:1,自引:1,他引:1  
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。  相似文献   

5.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.  相似文献   

6.
RE-OEM:一种半结构化生物数据的信息抽取模型   总被引:2,自引:0,他引:2  
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型RE-OEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

7.
对软件项目管理系统的项目数据备份进行分析,提出了一种基于半结构化数据的项目备份方法SDB-Method.该方法通过对系统的数据模型进行分析,建立关系数据模型和半结构化数据模型OEM(对象交换模型)之间的映射,实现关系数据和半结构化数据的相互转换,从而解决项目的导入和导出问题.该方法应用于项目管理系统SoftPM中,支持软件项目的多分支开发,迭代开发以及移植,有效地解决了软件项目管理系统的项目备份问题.  相似文献   

8.
针对半结构化文本的信息抽取粒度较大,不能对抽取结果进行有效语义分析的问题,面向领域提出一种基于模式匹配的结构化信息二次抽取方法.该方法以Web文档形式呈现的半结构化文本为对象,对粗粒度抽取结果进行领域识别,根据识别结果加载相应领域词库.根据模式中各个角色的词性实现模式角色到分词序列词语的映射,从分词序列中抽取出结构化信息,为准确的语义分析提供支持.实验表明该方法能获得更准确的抽取结果.  相似文献   

9.
为了克服半结构化数据存储的不确定性,基于半结构化数据的结构信息可由其模式来描述的思想,提出一种动态树存储模型。在对对象交换模型OEM(Object Exchange Model)进行深度优先遍历,找出所有最大简单路径表达式基础上,采用累加计数原则将得到的最大路径表达式依次添加到一个动态树中,从而生成存储模型。最后将此模型映射到关系表中,实现了半结构化数据在关系数据库中的存储与查询。以村镇土地审批处理系统为实例来说明这种存储模型的有效性。  相似文献   

10.
基于WEB的比价交易代理模式的研究   总被引:1,自引:0,他引:1  
文中提出了一种为了检索万维网上的信息机制并构建了一个关系数据库。解决这个问题分三步:处理了基于HFML的WEB页面的困难;从WEB页面上抽取指定的信息并整合成结构化的文档;给出了把结构化的文档转换成相关的数据表的算法。满足了用户以最小代价、最短时间买到适合自己的商品。  相似文献   

11.
在Web信息集成系统中,为解决数据源之间数据模型的异构性,提供一个有效的公共数据模型是一个常用的解决方法.在分析两种半结构化数据模型OEM和OIM的基础上,针对OEM模型表达XML文档存在的缺陷,将OIM的有向图结构与XML语言的相关特性相结合.提出了一种面向XML的公共数据模型XCDM.并补充了OIM对象代数的六种代数操作,XCDM充分考虑了XML语法表达的灵活性,可以为用户提供多级视图,完全符合公共数据模型的几点准则。  相似文献   

12.
Extracting Schema from an OEM Database   总被引:1,自引:0,他引:1       下载免费PDF全文
While the schema-less feature of the OEM(Object Exchange Modl)gives flexibility in representing semi-structured data,it brings difficulty in formulating database queries. Extracting schema from an OEM database then becomes an important research topic.This paper presents a new approach to this topic with th following reatures.(1)In addition to representing th nested label structure of an OEM database,the proposed OEM schema keeps up-tp-date information about instance objects of the database,The object-level information is useful in speeding up query evaluation.(2)The OEM schema is explicitly represented as a label-set,which is easy to construct and update.(3)The OEM schema of a database is statically built and dynamically updated.The time complexity of building the OEM schems is linear in the size of the OEM database.(4)The approach is applicable to a wide range of areas where the underlying schema is much smaller than the database itself(e.g.data warehouses that are made from a set of heterogeneous databases).  相似文献   

13.
一种基于XML的半结构化数据存储方法   总被引:6,自引:0,他引:6  
提出了一种基于XML存储半结构化数据的方法,设计并实现了相应存储与解析算法。鉴于OEM模型是一种图状模型,而通常的XML据模型是树状模型,为此需解决图状模型数据映射为树状模型数据这一关键问题,利用XML元素和属性的语义信息可从语义级别解决该问题。,  相似文献   

14.
半结构化数据的表示及查询方法研究   总被引:1,自引:0,他引:1  
介绍了如何将WWW网页中有用信息提取出来,并以OEM为数据模型将其组织存储的方法,以及在这种存储模型上对半结构化数据的查询方法。  相似文献   

15.
一种新的WEB社群挖掘方法   总被引:3,自引:0,他引:3  
随着互联网信息的增长,WEB挖掘已经成为数据挖掘研究的热点之一。论文关注于WEB社群挖掘。WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合。传统的挖掘方法由于只利用超链信息,所得出的社群或者太小、或者太大而没有意义。论文结合WEB页的内容信息和超链信息给出了一种基于分类方法的WEB社群挖掘算法。在包含8282个网页的WEBKB数据集上进行了实验,实验结果表明,该文算法可以挖掘出较大而且有意义的社群。  相似文献   

16.
Current query languages for the Web (e.g., W3QL, WebLog and WebSQL) explore the structure of the Web. However, usually, the structure of the Web has little to do with the semantics of the data. Therefore, it is practically difficult to pose database queries over the Web. We introduce a new type of tags for denoting the semantics of data stored in HTML pages. These semantic tags (implemented as HTML comments) superimpose on HTML pages semistructured objects in the style of the OEM model. The paper discusses two implemented tools for fully utilizing the semantics. The first is a visualization tool for displaying both the HTML reading of Web pages and the OEM reading of Web pages. The second tool is a query language, similar to LOREL, that can query the HTML structure and/or the OEM reading. The above formalism and tools provide data-modeling capabilities for the Web that fit its heterogeneous nature. Real database queries, taking the OEM point of view, can be formulated, including queries about the schema as well as queries about the HTML structure of Web pages. Therefore, the query language is not restricted to portions of the Web in which semantic tags are used.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号