首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 343 毫秒
1.
正则表达式在Web信息抽取中的应用   总被引:1,自引:0,他引:1  
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。  相似文献   

2.
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理.文中详细介绍了如何使用HtmlParser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用.  相似文献   

3.
面向结构的Web表格数据抽取系统   总被引:2,自引:0,他引:2  
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力.  相似文献   

4.
基于XML的Web数据抽取方法的研究   总被引:1,自引:1,他引:0  
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

5.
针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取...  相似文献   

6.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

7.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

8.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

9.
该文分析了一种Web应用中新型的拒绝服务攻击-正则表达式拒绝服务攻击.在深入分析形成的原因和机理的基础上,该文提出了一个防范此攻击的检测模型.该模型从静态分析人手,检测网页源代码中可能存在的有漏洞的正则表达式,从渗透测试的角度对提取到的正则表达式进行动态测试,给出相应的漏洞防范措施,从而确保Web应用系统的可用性.  相似文献   

10.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

11.
为实现计算机与PLC之间E-mail文件的传输,系统采用OMRON公司CS系列的CS1W-ETN21通信模块通过网络交换机与管理机进行通信.邮件传输系统利用邮件发送协议SMTP和邮件接收协议POP,进行数据的发送和接收.通过在计算机客户端建立邮箱,接收ETN21模块发送的现场设备运行状态和故障信息数据,管理机根据接收结果,向位于现场的ETN21发送远程控制命令进行远程操作并接收由PLC送回的电子邮件.通过发送和接收实验,验证了计算机与PLC通信模块之间可以通过电子邮件实现文件传输,从而实现通过以太网对PLC现场设备的实时远程监控和故障诊断.  相似文献   

12.
为实现计算机与PLC之间E-mail文件的传输,系统采用OMRON公司CS系列的CS1W-ETN21通信模块通过网络交换机与管理机进行通信.邮件传输系统利用邮件发送协议SMTP和邮件接收协议POP,进行数据的发送和接收.通过在计算机客户端建立邮箱,接收ETN21模块发送的现场设备运行状态和故障信息数据,管理机根据接收结果,向位于现场的ETN21发送远程控制命令进行远程操作并接收由PLC送回的电子邮件.通过发送和接收实验,验证了计算机与PLC通信模块之间可以通过电子邮件实现文件传输,从而实现通过以太网对PLC现场设备的实时远程监控和故障诊断.  相似文献   

13.
某混沌实时判定系统中特征提取的原因分析   总被引:1,自引:0,他引:1  
研究混沌判定方法,对进行混沌分析与控制具有重要意义。基于信息论、控制论、数据挖掘的一些基本原理和方法,描述了某混沌实时判定系统的结构与功能模块。为满足该判定系统原理及功能的要求,需要进行时间序列的特征提取。以Logistic系统为例进行了实验研究,应用小波包分析、小波包能量进行了特征提取,分析了进行特征提取的原因与必要性。实验结果表明,特征提取模块是整个判定系统的关键模块,小波包能量可以作为该系统中特征提取的方法。  相似文献   

14.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

15.
针对现有的协同显著性检测算法在多显著目标复杂场景下表现不佳的问题,提出了一种基于高效通道注意力和特征融合的协同显著性检测算法。首先,检测算法利用预训练的深度卷积神经网络对场景进行多尺度特征的提取,结合边缘显著信息设计了显著性语义特征提取模块,以避免全卷积神经网络导致边缘信息的缺失;其次,通过内积基本原理得到组内图片间的关联性信息并根据其关联程度进行自适应加权,结合高效通道注意力层设计了协同特征提取算法;最后,为了将各级高层语义特征经过协同显著性特征提取之后的结果与浅层次的特征进行融合,并实现对预测结果进行多分支同步监督,设计了基于高效通道注意力的特征融合模块。通过对3个经典的数据集进行测试,并与6种现有的协同显著检测算法进行对比,结果表明本文所提算法提高了复杂场景中图像的协同显著性检测的精度以及边缘信息的丰富程度,并具有更优的协同显著性信息检测性能;通过消融实验进一步验证了所提设计算法各个模块的有效性和必要性。  相似文献   

16.
设计了一种基于GPRS和Web/WAP服务的船载货物状态远程监控系统。利用ARM数据采集模块、GPRS无线通信模块、GPS定位模块、图像采集和图像压缩编码功能模块,实现原理图设计到电路板设计开发;同时将Web/WAP网络与这些模块所提供的数据流有机结合,利用各种现场采集的实时数据和历史数据,以网络的B/S模式呈现,可供监控中心人员参考,同时也可以利用网络平台控制远端摄像头的采集模式。实践证明,该系统可靠性高,性能稳定,具有良好的实用性。  相似文献   

17.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号