首页 | 官方网站   微博 | 高级检索  
     

一种新的HTML页面清洗压缩算法
引用本文:任仲晟.一种新的HTML页面清洗压缩算法[J].福建电脑,2009,25(1):60-61.
作者姓名:任仲晟
作者单位:福建师范大学数学与计算机科学学院,福建,福州,350007
摘    要:本文提出了一种新的适用于Web信息抽取的HTML页面清洗压缩算法。该算法充分利用了HTML页面树中各标签的相对位置信息。实验表明,该算法能够有效地处理页面中的语法错误,并实现对页面冗余数据的压缩。具有良好的实用价值和应用前景。

关 键 词:HTML页面清洗  HTML页面压缩  预处理  信息抽取
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号