一种新的HTML页面清洗压缩算法 |
| |
引用本文: | 任仲晟.一种新的HTML页面清洗压缩算法[J].福建电脑,2009,25(1):60-61. |
| |
作者姓名: | 任仲晟 |
| |
作者单位: | 福建师范大学数学与计算机科学学院,福建,福州,350007 |
| |
摘 要: | 本文提出了一种新的适用于Web信息抽取的HTML页面清洗压缩算法。该算法充分利用了HTML页面树中各标签的相对位置信息。实验表明,该算法能够有效地处理页面中的语法错误,并实现对页面冗余数据的压缩。具有良好的实用价值和应用前景。
|
关 键 词: | HTML页面清洗 HTML页面压缩 预处理 信息抽取 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
|