数据抽取中数据预处理 |
| |
引用本文: | 郭东峰.数据抽取中数据预处理[J].电子游戏软件,2014(7):224-224. |
| |
作者姓名: | 郭东峰 |
| |
作者单位: | 新乡学院计算机与信息工程学院,河南省新乡市453000 |
| |
摘 要: | 在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。
|
关 键 词: | 噪音数据 HTML Jtidy |
本文献已被 CNKI 维普 等数据库收录! |
|