首页 | 官方网站   微博 | 高级检索  
     

数据抽取中数据预处理
引用本文:郭东峰.数据抽取中数据预处理[J].电子游戏软件,2014(7):224-224.
作者姓名:郭东峰
作者单位:新乡学院计算机与信息工程学院,河南省新乡市453000
摘    要:在数据抽取中,网页中噪音数据的处理是关键的第一步。针对噪音数据类型以及它们在网页中的位置,对HTML语言中常见不规范问题做出分析。同时分析了在Java开发环境中借助Jtidy开源工具,对待抽取的HTML文档进行语法检测与标记修正。

关 键 词:噪音数据  HTML  Jtidy
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号