首页 | 官方网站   微博 | 高级检索  
     

构造Web文档中半结构化信息的技术
引用本文:黄豫清,戚广智,张福炎.构造Web文档中半结构化信息的技术[J].计算机辅助设计与图形学学报,2000,12(3):230-234.
作者姓名:黄豫清  戚广智  张福炎
作者单位:南京大学多媒体计算机研究所!南京210093
摘    要:为了对Web上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(OEM)建立了Web上信息模型。为了将页面中各个部分表示为应用的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。

关 键 词:半结构化信息  Web  文档  信息查询  数据库

Extracting Semistructured Information from Web
HUANG Yu,Qing,QI Guang,Zhi,ZHANG Fu,Yan.Extracting Semistructured Information from Web[J].Journal of Computer-Aided Design & Computer Graphics,2000,12(3):230-234.
Authors:HUANG Yu  Qing  QI Guang  Zhi  ZHANG Fu  Yan
Abstract:In order to integrate and query irregular and dynamic information on Web in a database like fashion, we use Object Exchange Model (OEM) to construct information model of Web. In order to express each component of pages as an OEM object, this paper designs an arithmetic which extracts semistructured data from HTML pages, shows testing results. Our method can extract structured and semistructured data. It has more applicability than other existing methods.
Keywords:heuristics rule  data extracting format  OEM model
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号