首页 | 官方网站   微博 | 高级检索  
     

基于包装器模型的文本信息抽取
引用本文:王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-0658.
作者姓名:王敬普  林亚平  周顺先  岳文
作者单位:湖南大学,计算机与通信学院,湖南,长沙,410082
摘    要:在分析基于标志和基于文本模式两类算法的基础上,提出了一种新的包装器归纳学习算法。新算法综合上述两类算法的优点,不但能利用页面的标志信息进行信息定位,而且能利用文本的模式信息来进行信息抽取和对抽取结果进行必要的过滤。实验结果表明,新算法具有较高的信息抽取精度与信息表达能力。

关 键 词:信息抽取  包装器  标志  文本模式  归纳学习
文章编号:1001-9081(2006)03-0655-04
收稿时间:2005-09-17
修稿时间:2005-09-172005-12-02

Text information extraction based on wrapper model
WANG Jing-pu,LIN Ya-ping,ZHOU Shun-xian,YUE Wen.Text information extraction based on wrapper model[J].journal of Computer Applications,2006,26(3):655-0658.
Authors:WANG Jing-pu  LIN Ya-ping  ZHOU Shun-xian  YUE Wen
Affiliation:College of Computer and Communication, Hunan University, Changsha Hunan 410082, China
Abstract:A new wrapper induction algorithm was proposed for text information extraction after analyzing two types of algorithms based on landmark and text pattern. The new algorithm can take the advantage of above-mentioned two algorithms. It can locate the information based on the landmark information of Web pages, and can use the text pattern to extract and filter large quantity of Web text. Experiment results show that the new method achieves higher accuracy and expressiveness of information extraction.
Keywords:information extraction  wrapper  landmark  text pattern  induction
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机应用》浏览原始摘要信息
点击此处可从《计算机应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号