首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
从WEB文档中构造半结构化信息的抽取器   总被引:36,自引:0,他引:36  
为了对WEB上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(object exchange model,简称OEM)建立了WEB信息模型.为了将页面中各个部分表示为对应的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果.该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强.  相似文献   

2.
半结构化数据的模式抽取   总被引:1,自引:1,他引:1  
模式抽取在半结构化数据研究领域中具有重要意义。论文结合同类对象集和标签路径的概念,提出了一种从OEM模型中抽取模式的新方法。算法的基本思想是:在用OEM模型表示的半结构化数据中查找同类对象集,并通过构造模式表的方法来实现模式抽取。这种方法不但能从层次结构数据中抽取模式,而且还能从包含环路的OEM数据中进行模式抽取,克服了其它一些算法不能从带有环路的数据中进行模式抽取的缺点。  相似文献   

3.
半结构化数据的模式抽取对于半结构化数据查询、优化及异构数据的集成具有重要的意义.结合标签路径及标签路径的目标集概念,提出了基于OEM(Object Exchange Model)模型的半结构化数据最小化模式抽取新方法,并给出了与标签路径目标集、支持度计算相关的两个定理.算法的基本思路:依据文中的两个定理,采用宽度优先自顶向下的遍历策略依次求出各标签路径的最后一个标签的目标集及支持度,标签支持度大的目标集优先映射为对应的模式节点.对同一半结构数据实例,算法抽取的模式与其他算法得到的模式相比规模小、算法执行时间短.算法适用于层次型及包含环路的OEM半结构化数据模式抽取.  相似文献   

4.
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型REOEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

5.
构造Web文档中半结构化信息的技术   总被引:3,自引:0,他引:3  
为了对Web上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(OEM)建立了Web上信息模型。为了将页面中各个部分表示为应用的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

6.
RE-OEM:一种半结构化生物数据的信息抽取模型*   总被引:2,自引:0,他引:2  
在分析半结构化生物数据特点的基础上,提出了一种新的半结构化数据抽取模型RE-OEM。它将OEM数据模型和正则表达式有机地结合起来,不但能够灵活方便地表示各种数据结构,而且能够非常方便地进行模式匹配和数据的定位,为半结构化生物数据的抽取打下坚实基础。  相似文献   

7.
为了克服半结构化数据存储的不确定性,基于半结构化数据的结构信息可由其模式来描述的思想,提出一种动态树存储模型。在对对象交换模型OEM(Object Exchange Model)进行深度优先遍历,找出所有最大简单路径表达式基础上,采用累加计数原则将得到的最大路径表达式依次添加到一个动态树中,从而生成存储模型。最后将此模型映射到关系表中,实现了半结构化数据在关系数据库中的存储与查询。以村镇土地审批处理系统为实例来说明这种存储模型的有效性。  相似文献   

8.
王锟 《福建电脑》2008,(3):133-133,144
web信息抽取是对html文本中包含的信息进行结构化处理,抽取出有用的信息。本文提出了一种web信息抽取方法,通过清洗半结构化的HTML页面信息将其转化为结构化的XHTML格式信息,再利用DB29的SQL/XML语言,实现web信息的抽取。实验表明,该方法能够准确地提取数据块,正确抽取块内信息。  相似文献   

9.
传统的实体关系抽取方法主要针对语义信息较为完整的文本,基于抽取模式抽取文本中的实体关系,并采用启发式算法或者概率模型来选择抽取出的候选关系.而对于半结构化的页面,由于没有成句的实体信息展示,导致这些方法不能很好适用.论文提出的实体关系抽取系统能较好地处理半结构化的页面.该系统主要包括数据抽取规则学习、数据抽取、实体间关系计算等核心功能模块,并为用户提供了关系库查询接口.用户输入关键词和选定匹配类型,系统将根据关键词及匹配类型查询实体信息库,然后用满足条件的实体再去查询实体关系库,将包含这些实体的关系返回给用户.  相似文献   

10.
随着因特网技术的迅速发展,网上信息成几何级数增长,如何从这些海量联机非结构化文本中自动抽取出结构化信息成为目前重要的研究课题。研究了基于隐马尔可夫模型的Web信息抽取算法,着重探讨了隐马尔可夫模型在文本信息抽取中应该如何应用,数据应该如何标记,并对隐马尔可夫模型在文本信息抽取中的应用提出了几个改进的方法,建立了基于HMM的Web信息抽取模型,并对信息抽取后的数据进行了分析对比,验证了改进算法的有效性。  相似文献   

11.
一种新的WEB社群挖掘方法   总被引:3,自引:0,他引:3  
随着互联网信息的增长,WEB挖掘已经成为数据挖掘研究的热点之一。论文关注于WEB社群挖掘。WEB社群是由对于同一主题感兴趣的人或组织创作的WEB页的集合。传统的挖掘方法由于只利用超链信息,所得出的社群或者太小、或者太大而没有意义。论文结合WEB页的内容信息和超链信息给出了一种基于分类方法的WEB社群挖掘算法。在包含8282个网页的WEBKB数据集上进行了实验,实验结果表明,该文算法可以挖掘出较大而且有意义的社群。  相似文献   

12.
Extracting Schema from an OEM Database   总被引:1,自引:0,他引:1       下载免费PDF全文
While the schema-less feature of the OEM(Object Exchange Modl)gives flexibility in representing semi-structured data,it brings difficulty in formulating database queries. Extracting schema from an OEM database then becomes an important research topic.This paper presents a new approach to this topic with th following reatures.(1)In addition to representing th nested label structure of an OEM database,the proposed OEM schema keeps up-tp-date information about instance objects of the database,The object-level information is useful in speeding up query evaluation.(2)The OEM schema is explicitly represented as a label-set,which is easy to construct and update.(3)The OEM schema of a database is statically built and dynamically updated.The time complexity of building the OEM schems is linear in the size of the OEM database.(4)The approach is applicable to a wide range of areas where the underlying schema is much smaller than the database itself(e.g.data warehouses that are made from a set of heterogeneous databases).  相似文献   

13.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

14.
《Information Systems》2006,31(4-5):247-265
As more information becomes available on the Web, there has been a crescent interest in effective personalization techniques. Personal agents providing assistance based on the content of Web documents and the user interests emerged as a viable alternative to this problem. Provided that these agents rely on having knowledge about users contained into user profiles, i.e., models of user preferences and interests gathered by observation of user behavior, the capacity of acquiring and modeling user interest categories has become a critical component in personal agent design. User profiles have to summarize categories corresponding to diverse user information interests at different levels of abstraction in order to allow agents to decide on the relevance of new pieces of information. In accomplishing this goal, document clustering offers the advantage that an a priori knowledge of categories is not needed, therefore the categorization is completely unsupervised. In this paper we present a document clustering algorithm, named WebDCC (Web Document Conceptual Clustering), that carries out incremental, unsupervised concept learning over Web documents in order to acquire user profiles. Unlike most user profiling approaches, this algorithm offers comprehensible clustering solutions that can be easily interpreted and explored by both users and other agents. By extracting semantics from Web pages, this algorithm also produces intermediate results that can be finally integrated in a machine-understandable format such as an ontology. Empirical results of using this algorithm in the context of an intelligent Web search agent proved it can reach high levels of accuracy in suggesting Web pages.  相似文献   

15.
WEB上存在着大量数据,为了有效地利用这些数据,必须把它们从WEB页面中获取出来存放到数据库中.本文首先介绍了WEB环境下数据获取的相关概念与技术,基于此,提出了一种基于XML的WEB数据获取系统结构,讨论了它的主要组成.最后,给出了系统的实现方法.  相似文献   

16.
用遗传算法提取基元   总被引:1,自引:0,他引:1  
基元提取是基于模型的计算机视觉的一项重要任务.Hough变换是基元提取的最常用的方法,然而,在许多情况下,它的存贮开销太大而难以让人接受.近些年来,有些人用统计学方法来提取基元,但如何构造合适的代价函数仍是一个困难问题.基元提取等同于寻找具有多个局部极小值的代价函数的最优解.遗传算法(Genetic algorithms)能够有效地在搜索空间中找出全局最优解.为实现有效的基元提取,作者从几何数据点中随机地选择一组最小子集,然后用遗传算法对几何数据点进行动态划分,经过若干次进化将得到一个最优划分,与之对应的基元和基元所对应的数据点将被提取出来.这种算法可用于多种基元和多个基元的提取.  相似文献   

17.
为实现黄河水文人工测验数据的数字化,解决自动监测数据的摘录与格式转换等资料整编难题,基于 B/S 结构构建黄河水文测验数据在线处理系统,设计水文测验原始资料库表结构,可对人工测验数据进行在线录入与计算、自动监测数据进行在线摘录与整编格式转换后,直接存储于水文测验原始资料数据库中,对数据库中的水文测验原始数据还可按照制定的审查规则进行数据的自动审查,检查其合理性。系统在黄河水文河南测区 1 a 多的运行表明:系统符合基层水文站的测算需求和使用习惯,不但提高人工测验数据的准确率与记载格式的规范度,也提升自动监测数据的摘录与数据格式转换的工作效率,可实现水文测验数据的“日清月结”。  相似文献   

18.
归纳逻辑编程(ILP)可以用于学习各种形式的逻辑规则,但在尝试用于学习Web页面的信息提取规则时存在格式不匹配问题.给出了系统结构的数据流图,重点分析了格式不匹配问题,提出了一种解决方案,主要包括规则的语法定义和动态生长方法.生成的规则结构清晰,可以用于从Web页面提取信息.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号