共查询到20条相似文献,搜索用时 305 毫秒
1.
药物关系(Drug-Drug Interaction, DDI)抽取是生物医学关系抽取领域的重要分支,现有方法主要强调实体、位置等信息对关系抽取的影响。相关研究表明,依存信息对于关系抽取具有重要作用,如何合理利用依存信息是关系抽取研究中需要解决的问题。该文提出一种融合依存信息 Attention机制的药物关系抽取模型,衡量最短依存路径与句子的相关性,捕捉对实体间关系有用的信息。首先使用双向GRU(BiGRU)网络分别学习原句子和最短依存路径(Shortest Dependency Path,SDP)的语义信息和上下文信息,然后通过Attention机制将SDP信息与原句子信息融合,最后利用融合依存信息之后的句子表示进行分类预测。在DDIExtraction2013语料上进行了实验评估,模型F值为73.72%。 相似文献
2.
3.
基于序列的G蛋白偶联受体-药物相互作用预测研究 总被引:1,自引:0,他引:1
准确预测G蛋白质偶联受体(GPCR)是否与药物(Drug)相互作用是新药开发的关键步骤之一。从时间和费用方面来说,通过生物实验的方法来确定GPCR-Drug是否相互作用的代价是昂贵的。因此,直接从蛋白质序列出发预测GPCR-Drug的相互作用具有重要的意义。提出了一种基于序列的GPCR-Drug相互作用预测方法:从蛋白质序列抽取进化信息特征;对药物抽取指纹特征;基于上述两种特征,使用基于证据理论的K近邻算法进行分类预测。在标准数据集上的实验结果表明了所述方法的有效性。 相似文献
4.
该文给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。 相似文献
5.
于春燕 《数字社区&智能家居》2007,(11):599-600
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。 相似文献
6.
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。 相似文献
7.
一种自动抽取Web信息方法的设计与实现 总被引:1,自引:1,他引:0
针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果. 相似文献
8.
将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。 相似文献
9.
命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。 相似文献
10.
11.
于春燕 《数字社区&智能家居》2007,(21)
根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据. 相似文献
12.
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。 相似文献
13.
从系统构思、表头信息抽取、表格信息抽取几个方面详细介绍一个Word信息抽取系统的原理和实现方法;在表格信息处理部分,分为必修改课和选修课两种情况,并就内存可能溢出的情况给出相应的处理方法.实验结果显示,该系统能够从附录所示格式的文档中正确地抽取出相应的数据. 相似文献
14.
15.
16.
17.
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。 相似文献
18.
事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。 相似文献
19.
事理图谱是研究事物动态发展的有效手段。针对金融因果事理图谱构建过程中数据集匮乏及构建方案缺少实践对比的现状,该文面向金融领域中发生频率较高的热点事件,研究构建事理图谱的方法。该文提出了一种新的金融领域事件论元的定义,制定了基于ATT+SBV结构的句法分析方案,针对信息抽取任务提出了面向金融因果事件的序列标注定义。该文同时提出了一种基于BERT+Bi-LSTM+CRF模型的信息抽取方案,并与不同神经网络模型进行对比研究。实验结果表明,该模型在信息抽取任务中,F1值达到95.78%,准确性有较大提升。该文通过Neo4j图数据库存储并构建金融因果事理图谱,以事件关系可视化的方式揭示现实金融事件的演变逻辑规律,分析金融网络的风险传导扩散机制。 相似文献
20.
基于XML的Web数据抽取研究 总被引:1,自引:0,他引:1
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。 相似文献