首页 | 官方网站   微博 | 高级检索  
     

基于本体论的Web信息抽取
引用本文:周明建,高济,李飞.基于本体论的Web信息抽取[J].计算机辅助设计与图形学学报,2004,16(4):535-541.
作者姓名:周明建  高济  李飞
作者单位:浙江大学人工智能研究所,杭州,310027
基金项目:国家自然科学基金 ( 69773 0 19)资助
摘    要:以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.

关 键 词:本体论  Web  HTML  结构本体  信息项本体  信息提取  归纳学习算法  包装器软件

Ontology-Based Information Extraction from Web Sources
Zhou Mingjian,Gao Ji,Li Fei.Ontology-Based Information Extraction from Web Sources[J].Journal of Computer-Aided Design & Computer Graphics,2004,16(4):535-541.
Authors:Zhou Mingjian  Gao Ji  Li Fei
Abstract:Based on the ontology, this paper regards the hiberarchy of information to be extracted as the path of information extraction, defines an information item ontology of Web page and automatic creates a construction ontology by parsing the Web page. Using these two ontologies, a novel approach to semi-automatically generate information extraction rules is presented for efficiently collecting information from Web.
Keywords:ontology  Web  inductive learning  HTML
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号