首页 | 官方网站   微博 | 高级检索  
     

网页正文提取中与正文无关的图像清除技术
引用本文:常红要,朱征宇.网页正文提取中与正文无关的图像清除技术[J].计算机技术与发展,2010,20(7):17-20,24.
作者姓名:常红要  朱征宇
作者单位:重庆大学计算机学院,重庆,400044
基金项目:国家科技支撑计划课题 
摘    要:因为图像相比文字具有更强的表现力,站点的设计者在设计广告时考虑的首要问题是如何吸引用户的"眼球",所以通常网页中的广告通常都是以图像的形式嵌入到网页中.这使得在HTML网页正文提取中主要处理的就是广告图像.文中综合分析了网页中图像的特点,提出了区域分块的HTML元素删除法来清除网页中的广告等无关图像并提取网页正文.实验结果表明,所提出的区域分块的HTML.元素删除法很好地解决了网页正文提取中图像处理问题.

关 键 词:吸引  嵌入  广告图像  区域分块  元素删除法

HTML Text Extraction Based on Independent Image Links Removal Technique
CHANG Hong-yao,ZHU Zheng-yu.HTML Text Extraction Based on Independent Image Links Removal Technique[J].Computer Technology and Development,2010,20(7):17-20,24.
Authors:CHANG Hong-yao  ZHU Zheng-yu
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号