首页 | 官方网站   微博 | 高级检索  
     

基于SVM与DOM重心半径模型的Web正文提取
引用本文:易国洪,代瑜,冯智莉,黎慧源.基于SVM与DOM重心半径模型的Web正文提取[J].计算机工程,2019,45(6):206-210.
作者姓名:易国洪  代瑜  冯智莉  黎慧源
作者单位:武汉工程大学计算机科学与工程学院,武汉430205;武汉工程大学智能机器人湖北省重点实验室,武汉430205;武汉工程大学计算机科学与工程学院,武汉,430205
摘    要:为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。

关 键 词:支持向量机  特征向量  重心半径  网页  正文提取

Web Content Extraction Based on SVM and Gravity Radius Model of DOM
Abstract:
Keywords:
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号