首页 | 官方网站   微博 | 高级检索  
     

基于XML的自动学习Web信息抽取
引用本文:冀高峰,汤庸,道炜,吴桂宾,黄帆,王鹏.基于XML的自动学习Web信息抽取[J].计算机科学,2008,35(3):87-90.
作者姓名:冀高峰  汤庸  道炜  吴桂宾  黄帆  王鹏
作者单位:1. 中山大学计算机科学系,广州,510275
2. 中山大学计算机科学系,广州,510275;广东开讯电信科技有限公司,广州,510620
基金项目:国家自然科学基金 , 广东省自然科学基金 , 教育部跨世纪优秀人才培养计划
摘    要:因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取.

关 键 词:信息提取  半结构化  自动学习  规则库  XML

Auto-learning Web Information Extraction Based on XML
JI Gao-Feng,TANG Yong,DAO Wei,WU Gui-Bin,HUANG Fan,WANG Peng.Auto-learning Web Information Extraction Based on XML[J].Computer Science,2008,35(3):87-90.
Authors:JI Gao-Feng  TANG Yong  DAO Wei  WU Gui-Bin  HUANG Fan  WANG Peng
Affiliation:JI Gao-Feng1 TANG Yong1 DAO Wei1,2 WU Gui-Bin1 HUANG Fan1 WANG Peng1(Department of Computer Science,Sun Yat-Sen University,Guangzhou 510275)1 (Guangdong Tianxun Telecom Ltd,Guangzhou 510620)2
Abstract:Internet provides us explosive information and involves massive important and useful knowledge within the abundant Web resources. Info explosion and knowledge deficiency are big troubles confronting modern civilization due to the inconvenience of locating the vital data interested by user via search engine. However,the auto-realization of Web info extraction could significantly enhance the efficiency of info absorbing. It can also discover as well as analyze targeted info,discard redundant data and extract ...
Keywords:Info extraction  Semi structural  Auto learning  Regulation library  XML  
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机科学》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号