基于多学习策略的网页信息抽取方法 A METHOD FOR WEB INFORMATION EXTRACTION BASED ON MULTI-LEARNING STRATEGIES期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于多学习策略的网页信息抽取方法

引用本文：	朱明,李香,郑烇.基于多学习策略的网页信息抽取方法[J].计算机应用与软件,2008,25(12).

作者姓名：	朱明李香郑烇

作者单位：	中国科学技术大学自动化系,安徽,合肥,230027

基金项目：	国家发改委项目"视频点播系统"

摘要：	由于网页信息具有异构和动态的特点，致使现有的大多数网页信息抽取方法都存在适用性差的问题。为此，将传统的文本分类器和隐式马尔可夫学习策略结合起来，提出了一种基于多学习策略的网页信息抽取方法。该方法在获得网页文本记录的局部最优分类抽取结果基础上，还利用了整个网页文本结构信息对抽取结果进行进一步优化。实验结果表明，该方法不需要对新的站点进行学习，就能获得较高的信息召回率和抽取精度，具有较强的适用性。
关键词：	信息抽取机器学习文本分类器
A METHOD FOR WEB INFORMATION EXTRACTION BASED ON MULTI-LEARNING STRATEGIES

Zhu Ming,Li Xiang,Zheng Quan.A METHOD FOR WEB INFORMATION EXTRACTION BASED ON MULTI-LEARNING STRATEGIES[J].Computer Applications and Software,2008,25(12).

Authors:	Zhu Ming Li Xiang Zheng Quan

Affiliation:	Zhu Ming Li Xiang Zheng Quan(Department of Automation,University of Science , Technology of China,Hefei 230027,Anhui,China)

Abstract:	The current information extraction methods exist in the problem of poor applicability,since the content on the Internet are heterogeneous and dynamic.A method based on multi-learning strategies was proposed for Web information extraction(IE) by combining two types of algorithms based on conventional text classifier and Hidden Markov Models(HMM).The method can refine the IE result by using the relevant structural information present in the document,based on locally optimal classification of each fragment.Exp...

Keywords:	HMM
本文献已被 CNKI 维普万方数据等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏