首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
XPath语义特性及其对XML数据操作的应用研究   总被引:1,自引:0,他引:1  
给出了XPath语义的简洁定义,使用XPath标准的语法格式说明查询步骤,并通过一个具体实例说明定位路径的方法,实现了XPath与XSLT结合的XML查询,同时对XPath在.NET中的应用进行了研究。  相似文献   

2.
基于网页结构特征的信息抽取是现阶段最为常用的抽取手段。为了将待抽取的信息从DOM树中准确地抽取出来,需要对欲抽取的信息进行准确地定位。本文提出了一种新的定位方法,在HTML DOM树的基础上,借助于CSS选择器,抽取所需要的信息。  相似文献   

3.
随着科学技术的迅速发展,大数据时代的到来,基于Python的网络爬虫是一种语言简洁、使用频率高、开发迅速且更高效的语言.XPath是一种用来确定XML文档中某部分位置的语言.本文提出了一种基于XPath爬取天气数据的系统.  相似文献   

4.
网页结构化信息抽取技术方法研究   总被引:2,自引:0,他引:2  
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。  相似文献   

5.
讨论了信息抽取的必要性及其现状,并提出一个基于多Agent技术的分布式信息抽取系统模型.系统主要有信息抽取Agent、数据清洗Agent、数据保存Agent等以及相应的知识库组成.并采用分而治之的思想,把信息抽取中遇到的问题分解,分配到各个Agent去完成.提出一种新的规则表示方法,抽取规则可以根据网页结构进行调整,该系统具有一定的自适应性.  相似文献   

6.
随着互联网技术的快速发展,人们能够及时地获取大量的新闻文本信息,如何从新闻中自动获取关键信息,把新闻中具有价值的信息转化为结构化数据,从而快速有效地获取有用的知识已是迫切需求.实体关系抽取是获取关键信息的方法之一,但目前关于中文的实体关系抽取工作较少.针对基于长短时记忆网络的中文实体识别模型难于提取长距离的依存关系特征和句法特征问题,提出利用双向树形长短时记忆神经网络提取依存句法树的结构特征.在提取的特征的基础上,使用条件随机场判断实体的类别和边界,并在实体识别模型中加入注意力机制提高模型的性能.在《人民日报》数据集和ACE 2005语料库上训练模型,验证了模型的有效性.  相似文献   

7.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

8.
本文研究应用WEB信息抽取技术在互联网上主动搜索合作伙伴的理论与方法,提出了面向合作伙伴选择的中文Web信息获取系统的总体架构,并分析了实现该系统的关键技术一基于元搜索的网页搜集、基于样本公共特征的企业主页过滤、基于模式的企业信息抽取,并对这三个关键技术进行了详细的介绍。最后,按照作者提出的思想,编程实现了一个面向合作伙伴选择的中文Web信息获取原型系统,利用该系统验证了作者所提方法的可行性及证明了该方法的准确性。  相似文献   

9.
事件抽取是信息抽取研究领域中的一个关键问题。针对采用传统的自我训练方法进行泰语新闻事件抽取,具有错误从上向下传播导致事件抽取系统性能不高的问题,针对这一问题,文中提出一种新的引导框架来进行泰语新闻事件抽取,即跨语言信息投影。该方法将从中文事件抽取系统中获取的信息映射为泰语,并采用结合单语与跨语言半协同训练的方法进行泰语新闻事件抽取。最后通过实验验证了本文所提方法是可行的,并且显著地提高了泰语新闻事件抽取的性能。  相似文献   

10.
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

11.
网页信息抽取方法的研究   总被引:2,自引:0,他引:2  
信息抽取技术属于人工智能的一个分支.使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来.文中提出的信息抽取技术是基于DOM和网页模板的一种归纳网页模板的新方法,它能很好地对各种布局元素的网页进行模板归纳,同时给出核心算法的C++实现.  相似文献   

12.
孙师尧  妙全兴 《电子科技》2014,27(10):111-114
在分析半结构化文本特点与隐马尔可夫模型的基础上,提出了一种新的基于隐马尔可夫模型的信息抽取算法,并与传统的基于单一隐马尔可夫模型的信息抽取算法进行了比较分析。实验结果表明,所提算法在精确度上有明显优化,特别在状态特征不明显的情况下仍能保持良好的精确度。将该算法应用于半结构化文本的信息抽取中,具有较好的可行性和有效性。  相似文献   

13.
随着数据存储和数据处理技术的不断进步,个人信息广泛存在于各类文档之中,个人信息保护已成为目前科研界和工业界亟待解决的重要问题,而个人信息抽取是个人信息保护的前提和核心概念之一。针对内容复杂,格式多样,不确定性高的各类复杂文档进行个人信息抽取,本文提出了一种基于神经网络的个人信息自动化抽取的统一方法。该方法整合了流式文档和版式文档的信息抽取能力,同时结合了正则匹配和深度学习神经网络模型来输出个人信息抽取结果。此外,方法中的个人信息抽取模型通过改造输入数据的方式来融合文档的布局信息进行训练,并在训练过程中采取了迭代标注和扩展训练数据的方法,以此提高模型训练的效率和效果。  相似文献   

14.
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。  相似文献   

15.
社交网站作为网络舆情的有效载体,在传播舆情方面有着重要作用。近年迅猛发展起来的微博就是一种典型的社交网站。本文针对微博类网站设计了支持Ajax(Asynchronous Java Scriptand XML)技术的网络爬虫,采用协议驱动和事件驱动结合的采集策略,将爬取分为用户爬取和内容爬取两部分,使用基于模板的抽取方法,实现了对微博数据的成功抽取和存储。抽样结果证明,支持Ajax技术的网络爬虫,较BFS爬虫相比,提高了信息采集的效率和覆盖率。随着DOM Tree复杂度的提高,还有待于设计更高灵活性的网络爬虫。  相似文献   

16.
事件抽取是信息抽取领域一个重要研究方向,对信息检索、自动问答、舆情分析等领域均有很高的应用价值.传统事件抽取方法大多采用人工构建的方式进行特征表示,并通过分类模型进行事件触发词分类和论元角色识别.近年来,神经网络方法在图像分类、语音识别和自然语言处理等领域展现了突出的效果.神经网络方法的优势在于能够自动学习构建特征,从而避免了繁琐的特征工程.本文将对神经网络事件抽取技术进行系统论述,并展望未来的研究方向.  相似文献   

17.
利用语义角色分析的方法对动态新闻进行事件抽取研究。通过对句子进行论元结构标注,抽取出句子中以谓语动词为中心的论元结构,将其转化为具体的语义角色,并与事件要素进行匹配,完成事件抽取工作。论文提出并重点研究了如何利用VerbNet和SemLink资源对动词的论元结构与事件要素进行匹配。抽取系统基于该方法对1 000篇新闻语料进行了事件抽取实验,结果表明该方法的F值达到70.6%,具有一定的应用价值。  相似文献   

18.
石炎生 《电子技术》2013,(3):50-51,29
数据抽取技术是近年来伴随着人工智能和数据库技术的发展而出现的一门新兴技术。文章结合作者在开发基于居民个人健康档案的区域卫生信息平台的实践,提出运用数据抽取技术从现有各类医疗应用系统中抽取居民个人健康档案所需的健康信息,实现居民健康信息共享、临床辅助诊断、双向转诊、个人保健等医疗应用目的。  相似文献   

19.
陈丹 《电子设计工程》2012,20(14):129-131,134
为了给用户提供有效信息,能够根据用户的需要对Internet上的网页信息进行获取和过滤,设计了一个基于XML的Web信息筛选器。系统利用了XML作为中间数据的数据交换技术将Microsoft.NET技术、数据库技术与XML技术相结合设计并实现Web服务程序。采用在Web服务和客户端应用程序之间使用基于XML的存储和访问技术进行数据交换与处理的实现方法,构建了一个基于XML的Web服务,进行解析并过滤多余的信息,将解析后有用的信息结果返回给请求数据的客户端,实现为用户提供特定信息的服务。  相似文献   

20.
XML标准作为新一代的数据交换标准.具有很多优点采用XML标准的系统相互间可以便捷的交换数据.本文先简单介绍了XML技术和电子商务.然后着重讨论了基于XML技术的信息系统集成的特点和优势,提出了基于XML技术的电子商务平台的整体构架.最后通过开发实例介绍了基于XML的信息系统集成在电子商务中的应用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号