基于SVM与DOM重心半径模型的Web正文提取 |
| |
引用本文: | 易国洪,代瑜,冯智莉,黎慧源.基于SVM与DOM重心半径模型的Web正文提取[J].计算机工程,2019,45(6):206-210. |
| |
作者姓名: | 易国洪 代瑜 冯智莉 黎慧源 |
| |
作者单位: | 武汉工程大学计算机科学与工程学院,武汉430205;武汉工程大学智能机器人湖北省重点实验室,武汉430205;武汉工程大学计算机科学与工程学院,武汉,430205 |
| |
摘 要: | 为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。
|
关 键 词: | 支持向量机 特征向量 重心半径 网页 正文提取 |
Web Content Extraction Based on SVM and Gravity Radius Model of DOM |
| |
Abstract: | |
| |
Keywords: | |
本文献已被 万方数据 等数据库收录! |
|