首页 | 官方网站   微博 | 高级检索  
     

从WEB文档中构造半结构化信息的抽取器
引用本文:黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78.
作者姓名:黄豫清  戚广志  张福炎
作者单位:南京大学多媒体计算机研究所,南京,210093
摘    要:为了对WEB上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(object exchange model,简称OEM)建立了WEB信息模型.为了将页面中各个部分表示为对应的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果.该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强.

关 键 词:启发式规则  数据抽取格式  对象交换模型.
收稿时间:1998/11/17 0:00:00
修稿时间:1999/2/12 0:00:00

Extracting Semi-Structured Information from the WEB
HUANG Yu-qing,QI Guang-zhi and ZHANG Fu-yan.Extracting Semi-Structured Information from the WEB[J].Journal of Software,2000,11(1):73-78.
Authors:HUANG Yu-qing  QI Guang-zhi and ZHANG Fu-yan
Affiliation:Multimedia Computer Institute Nanjing University Nanjing 210093
Abstract:In order to integrate and query irregular and dynamic information on WEB in a database-like fashion, the authors use object exchange model (OEM) to construct information model of WEB in this paper. To express each component of pages as an OEM object, the authors design an algorithm which extracts semi-structured data from HTML pages, and the testing results are given. This method can extract structured and semi-structured data. It has better applicability than other existing methods.
Keywords:Heuristics rule  data extracting format  object exchange model  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《软件学报》浏览原始摘要信息
点击此处可从《软件学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号