首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
提出一种基于CSS选择器的深网结果页数据抽取方法,用于抽取深网结果页中的数据记录.实验结果表明在大多数情况下,该方法都能准确抽取出页面中的数据记录.  相似文献   

2.
基于Oracle/Linux环境数据抽取技术的研究与实践   总被引:1,自引:0,他引:1  
数据仓库的核心技术之一是建立数据集市和跨平台数据抽取。以Oracle/Linux计算服务器为运行环境,研究和描述了3层计算架构中跨平台抽取Oracle/unix宿主系统数据库数据的关键技术,并提出数据抽取技术和数据仓库更新维护中的一些优化策略。  相似文献   

3.
讨论了一种基于XML在网络中抽取信息的方法.理想的数据抽取过程是仅仅分析由HTML页面组成的网站数据库.然而,全面的信息抽取过程需要面对许多障碍.正确的数据抽取还需要有可靠的数据验证和错误恢复服务,以应对无法避免的数据抽取故障.提出一个名为NIES的软件框架,它可以大大提高网络信息抽取的效率和准确度,保证了网络信息抽取的质量.NIES的关键部分是用XML技术来进行数据抽取,它包含了XHTML和XSLT并且支持连接"深度网络".  相似文献   

4.
大数据的分析和挖掘过程,数据抽取是关键环节。目前大多采用全量抽取、CDC等方式,具有一定的局限性。本文提出了一种基于日志分析的增量抽取,并设计了基于大数据的高校教学数据智能处理平台,实现"业务与数据"的分离。ETL数据抽取关键功能,采用数据库增量抽取方式,与传统方式相比,具有很好的实用价值。  相似文献   

5.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

6.
事务数据向数据仓库转移的方法   总被引:1,自引:1,他引:1  
数据转移是联结事务型数据环境和决策支持环境的纽带,对这一技术的研究有着重要意义。从讨论数据转移面临的问题开始,逐步就数据抽取、数据净化、数据转换和数据集成等数据转移的重要环节进行深入的探讨,给出了若干数据转移问题的解决方法和实现实例。  相似文献   

7.
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.  相似文献   

8.
提出了一种面向HTML或XML描述的Web数据抽取模型,首先用STOCK把Web文档从Web服务器读下来,识别Web文档的表示格式,若是HTML格式,则先把HTML数据转换成XHTML(XML的子集)格式,然后对Web页进行修复后合并形成系列XML文档并存储,采用绝对路径和锚点(Anchor),利用XML数据格式的工具来检索相关数据,获取所需数据并构造XML输出,从而实现Web数据抽取过程。实验表明,该模型实现Web数据抽取是可行的,根据该模型的缺陷,提出了一个基于语义Web技术的信息抽取改进模型。  相似文献   

9.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

10.
在对文本数据文件的数据结构深入分析的基础上,提出了利用上下文无关文法表示数据抽取的规则,指明可以利用XML语言的特点,实现文本数据文件结构的表示文法,解决了文本数据ETL技术中涉及的重要问题,即复杂数据表示问题。  相似文献   

11.
为了充分利用高校各业务系统积累的大量数据,设计了5层数据仓库的系统架构,运用数据抽取、转换和加载(ETL)工具,把分散在学校不同业务系统的数据资源进行分类和整合,可以提供个人数据中心的集中展示、数据下载等服务;利用联机分析等工具进行数据展现,可以为学校领导提供决策支持.  相似文献   

12.
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法. 在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注. 在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集. 通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务. 与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差. 针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%. 该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集.  相似文献   

13.
当网页结构发生动态变化时,所构建的网页数据抽取器Wrapper往往会失灵.为了解决这一问题,提出了Wrapper维护模型结构.实验证明,当网页数据结构发生变化时,该模型结构能更有效地支持网页数据的抽取.  相似文献   

14.
从社会关系抽取的角度出发,设计了一个基于主题的Web人名抽取系统。该系统可根据给定的主题获取相应的Web文档,并从中抽取出与该主题相关的中英文人名,从而为基于主题的Web社会关系抽取提供有效的数据支撑。  相似文献   

15.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

16.
在分析了目前企业MIS现状的基础上,着重讨论了一个基于管理信息系统之上的智能决策支持系统TN-IDSS。TN-IDSS由知识库、数据库、模型库、方法库、会话系统和问题处理系统组成,其数据来源基于现有的MIS数据库,经数据虚抽取而成。  相似文献   

17.
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)过程,通过讨论ETL在电信客户关怀项目中的实践应用,说明ETL在数据仓库的建设中占据了相当重要的位置。ETL技术的引用,大大缩短了生成汇总数据的时间,使应用查询更快,更高效,明显降低了应用系统的负担。  相似文献   

18.
随着无线传感网络结构日趋复杂及逐渐朝大规模方向转变。科学、高效地解决传感网内的海量数据冗余及巨大能量消耗问题变得十分困难,本文通过对节点数据图像化建模,提出了一种基于节点数据图像的均值滤波算法来达到降低大规模无线传感网中的冗余数据量及能量消耗。首先从传感网的部署结构出发,通过节点之间的位置关系进行节点分簇并标记簇头节点,然后依据各簇内节点获取的数据信息进行图像化建模,建模完成后以各簇簇头节点获取的数据为参照标准对图像化后的簇内节点进行均值滤波,从而将簇内节点划分为活跃节点与休眠节点,活跃节点为传感网提供有效数据而休眠节点提供冗余数据,需要进入休眠状态。从仿真结果可知:在实际数据集与模拟数据集结合验证下,一个大规模、结构复杂的无线传感网被分为若干个簇并有效的完成了各簇内的节点数据图像化建模。在整体数据有效且不失真的前提下,各簇内实现了将可能存在的部分节点转化为休眠节点且成功将休眠节点转为休眠转态,不再产生、传递数据,从而降低传感网内的整体数据量及数据传递消耗的能量。因此本文提出的算法能够有效地处理规模大、结构复杂的无线传感网中存在的数据冗余及巨大能量消耗问题,通过该算法不仅降低了无线传感网中的冗余数据量,而且降低了无线传感网的能量消耗,提高了无线传感网的生命周期。  相似文献   

19.
叙述了接入网在信息技术中的地位 ,分析了黄河通信网的现状 ,论述了接入网在黄河通信网中发挥的作用。  相似文献   

20.
数字下变频中抽取技术研究   总被引:1,自引:0,他引:1  
讨论了软件无线电接收机中数字下变频处理技术中的CIC抽取滤波器结构原理,分析了CIC滤波器级联ISOP滤波器进行抽取滤波的设计技术。验证了ISOP滤波器对CIC滤波器带内衰减补偿的有效性;采用了CIC抽取滤波器的系统,有效地缩减了窄带FIR滤波器阶数。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号