一种基于SVM和AdaBoost的Web实体信息抽取方法 |
| |
作者单位: | ;1.山东大学计算机科学与技术学院;2.中国人力资源和社会保障部信息中心 |
| |
摘 要: | 提出一种基于SVM和AdaBoost的Web实体信息抽取方法。首先提出一种基于SVM的Web页面主数据区域识别方法,基于Web实体实例在页面中的展示特征,有效地将Web页面进行数据区域分割,识别出Web实体实例所在的主数据区域;然后基于Web实体属性标签的特征,提出一种基于AdaBoost的集成学习方法,从页面的主数据区域自动地抽取Web实体信息。在两个真实数据集上进行实验,并与相关研究工作进行比较,实验结果说明该方法能够取得良好的抽取效果。
|
关 键 词: | Web信息抽取 页面分割 集成学习 |
A WEB ENTITY INFORMATION EXTRACTION METHOD BASED ON SVM AND ADABOOST |
| |
Abstract: | |
| |
Keywords: | |
|
|