首页 | 官方网站   微博 | 高级检索  
     

基于主题型页面的正文信息抽取技术研究
引用本文:万文兵.基于主题型页面的正文信息抽取技术研究[J].计算机光盘软件与应用,2015(1):15-16.
作者姓名:万文兵
作者单位:仪征技师学院,江苏仪征,211400
摘    要:Web页面信息通常包含大量无关结构和HTML标记,而页面主题信息通常淹没其中,如何快速获取Web页面主题信息。本文提出了一种抽取策略,首先判定是否为主题型页面,然后提取网页正文信息,最后利用正则表达式滤除内容块中HTML标记和无关文字。实验结果表明:该方法能准确地完成主题型网页的正文抽取任务。

关 键 词:主题型页面  网页标题  正文抽取
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号