首页 | 官方网站   微博 | 高级检索  
     

一种基于SVM和AdaBoost的Web实体信息抽取方法
作者单位:;1.山东大学计算机科学与技术学院;2.中国人力资源和社会保障部信息中心
摘    要:提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。

关 键 词:Web信息抽取  页面分割  集成学习

A WEB ENTITY INFORMATION EXTRACTION METHOD BASED ON SVM AND ADABOOST
Abstract:
Keywords:
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号