期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李丽双钱爽周安桥刘阳郭元凯《中文信息学报》2019,33(2):89-96

药物关系(Drug-Drug Interaction, DDI)抽取是生物医学关系抽取领域的重要分支,现有方法主要强调实体、位置等信息对关系抽取的影响。相关研究表明,依存信息对于关系抽取具有重要作用,如何合理利用依存信息是关系抽取研究中需要解决的问题。该文提出一种融合依存信息 Attention机制的药物关系抽取模型,衡量最短依存路径与句子的相关性,捕捉对实体间关系有用的信息。首先使用双向GRU(BiGRU)网络分别学习原句子和最短依存路径(Shortest Dependency Path,SDP)的语义信息和上下文信息,然后通过Attention机制将SDP信息与原句子信息融合,最后利用融合依存信息之后的句子表示进行分类预测。在DDIExtraction2013语料上进行了实验评估,模型F值为73.72%。相似文献

2.

面向知识图谱的信息抽取技术综述

姜磊刘琦赵肄江袁鹏李媛邹子维《计算机系统应用》2022,31(7):46-54

互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向. 相似文献

3.

基于序列的G蛋白偶联受体-药物相互作用预测研究 总被引：1，自引：0，他引：1

丁林松郑宇杰《计算机科学》2015,42(8):75-77, 111

准确预测G蛋白质偶联受体(GPCR)是否与药物(Drug)相互作用是新药开发的关键步骤之一。从时间和费用方面来说,通过生物实验的方法来确定GPCR-Drug是否相互作用的代价是昂贵的。因此,直接从蛋白质序列出发预测GPCR-Drug的相互作用具有重要的意义。提出了一种基于序列的GPCR-Drug相互作用预测方法:从蛋白质序列抽取进化信息特征;对药物抽取指纹特征;基于上述两种特征,使用基于证据理论的K近邻算法进行分类预测。在标准数据集上的实验结果表明了所述方法的有效性。相似文献

4.

Web数据抽取技术研究初探

李春艳徐保民《数字社区&智能家居》2009,(35)

该文给出了数据抽取过程中需要的基本定义,描述了数据抽取所基于的页面生成模型。同时给出了EXALG+这种数据抽取方法的基本流程,并给出了这种方法的抽取流程图。相似文献

5.

Web行情数据的抽取研究

于春燕《数字社区&智能家居》2007,(11):599-600

根据“行情数据常表现为最大的表格区域”等规律，提出了先识别最大表格再自动抽取行情数据的抽取算法，该算法无需用户定义目标区域即可自动抽取并存储数据。相似文献

6.

基于统计的中文网页正文抽取的研究

ZHAO Wen TANG Jian-Xiong GAO Qing-Feng 《数字社区&智能家居》2008,(1)

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。相似文献

7.

一种自动抽取Web信息方法的设计与实现 总被引：1，自引：1，他引：0

胡国晴李建华《计算机与现代化》2009,(1)

针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略.此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度.并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库.基于此模型的方法能自主学习,实现自动抽取.这在很大程度上减少了人工参与,并能获得比较好的抽取结果. 相似文献

8.

事件抽取综述

马春明李秀红李哲王惠茹杨丹《计算机应用》2022,42(10):2975-2989

将用户感兴趣的事件从非结构化信息中提取出来,然后以结构化的方式展示给用户,这就是事件抽取。事件抽取在信息收集、信息检索、文档合成、信息问答等方面有着广泛应用。从全局出发,事件抽取算法可以分为基于模式匹配的算法、触发词法、基于本体的算法以及前沿联合模型方法这四类。在研究过程中根据相关需求可使用不同评价方法和数据集,而不同的事件表示方法也与事件抽取研究有一定联系;以任务类型区分,元事件抽取和主题事件抽取是事件抽取的两大基本任务。其中,元事件抽取有基于模式匹配、基于机器学习和基于神经网络这三种方式,而主题事件抽取有基于事件框架和基于本体两种方式。事件抽取研究在中英等单语言上均已取得了优秀成果,而跨语言事件抽取依然面临着许多问题。最后,总结了事件抽取的相关工作并提出未来研究方向,以期为后续研究提供参考。相似文献

9.

语义关系抽取发展现状及抽取方法的研究

黄晨《福建电脑》2009,25(6):45-46

命名实体语义关系抽取是信息抽取中的主要任务之一,本文对现有的语义关系抽取系统构建方法进行了分类和介绍,并对这些方法进行了讨论和比较,回顾语义关系抽取研究的历史,总结语义关系抽取技术的现状,将有助语义关系抽取技术研究工作的向前发展。相似文献

10.

面向文本的事件信息抽取方法的研究

刘敬培李江季文平潘鹏辉《计算机与现代化》2012,(7):198-201

研究面向文本的事件信息抽取工作,建立一个事件信息抽取系统。该系统首先过滤包含关键字的原始语料;然后采用层次聚类(Hierarchical,HCL)和最长公共子序列算法相结合的方法抽取事件信息,得到最初的模式;最后通过是否包含关键字进行模式获取,进而提取信息,最终得到事件要素。相似文献

11.

Web行情数据的抽取研究

于春燕《数字社区&智能家居》2007,(21)

根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据. 相似文献

12.

基于Web的新闻信息抽取

朱永盛武港山《计算机工程》2006,32(10):74-76

随着互联网的普及，信息技术的发展，形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源，是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上，结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点，提出了基于Web新闻网页的半自动化抽取技术，自动下载了有用的Web页面，抽取了所需的新闻信息。最后，该文描述了一个面向奥运新闻的信息抽取系统，并给出了该系统的实验结果。相似文献

13.

用C#进行Word信息抽取

蔺聪《现代计算机》2010,(4):132-135,142

从系统构思、表头信息抽取、表格信息抽取几个方面详细介绍一个Word信息抽取系统的原理和实现方法;在表格信息处理部分,分为必修改课和选修课两种情况,并就内存可能溢出的情况给出相应的处理方法.实验结果显示,该系统能够从附录所示格式的文档中正确地抽取出相应的数据. 相似文献

14.

科技文献元数据自动抽取研究述评

龚立群马宝英常晓荣《计算机系统应用》2013,22(3):11-15

首先从元数据的属性和元数据的粒度两个角度对科技文献元数据进行了分析,在此基础上,从科技文献元数据自动抽取的理论研究和应用实践研究两个方面对国内外科技文献元数据自动抽取研究成果进行分析和综合,最后指出了现有研究的特点和存在的不足. 相似文献

15.

信息抽取研究综述 总被引：3，自引：2，他引：1

郭喜跃何婷婷《计算机科学》2015,42(2):14-17,38

信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。随着互联网应用的发展,其价值也正日益显现,学术界和工业界对此都寄予厚望。首先回顾了信息抽取的发展历程;接着从命名实体识别、指代消解、关系抽取和事件抽取4个方面总结了信息抽取关键技术的研究进展;然后分析了信息抽取目前面临的若干主要问题;最后对信息抽取的研究趋势作了预测。相似文献

16.

基于远程监督的关系抽取研究综述

白龙靳小龙席鹏弼程学旗《中文信息学报》2019,33(10):10-17

关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。相似文献

17.

基于框架语义标注的自由文本信息抽取研究 总被引：1，自引：0，他引：1

下载免费PDF全文

牛之贤白鹏洲段富《计算机工程与应用》2008,44(25):143-145

信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE（图书内容简介信息抽取）系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。相似文献

18.

利用框架语义知识优化事件抽取

陈亚东洪宇王潇斌杨雪蓉姚建民朱巧明《中文信息学报》2017,31(2):117-125

事件抽取旨在把含有事件信息的非结构化文本以结构化的形式予以呈现。现有的基于监督学习的事件抽取方法往往受限于数据稀疏和分布不平衡问题,具有较低的召回率。针对这一问题,该文提出一种利用框架语义优化事件抽取的方法,引入框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回性能。实验结果显示,针对触发词(事件类型)识别任务,相较于仅使用事件类型识别模型,该文提出的框架语义辅助的事件类型识别模型能够提高抽取召回率6.44%(5.74%),提高F值1.45%(0.83%)。相似文献

19.

金融领域事件因果关系发现及事理图谱构建与应用

杨纪星杨波朱剑林康怡琳《中文信息学报》2023,(7):131-142

事理图谱是研究事物动态发展的有效手段。针对金融因果事理图谱构建过程中数据集匮乏及构建方案缺少实践对比的现状,该文面向金融领域中发生频率较高的热点事件,研究构建事理图谱的方法。该文提出了一种新的金融领域事件论元的定义,制定了基于ATT+SBV结构的句法分析方案,针对信息抽取任务提出了面向金融因果事件的序列标注定义。该文同时提出了一种基于BERT+Bi-LSTM+CRF模型的信息抽取方案,并与不同神经网络模型进行对比研究。实验结果表明,该模型在信息抽取任务中,F₁值达到95.78%,准确性有较大提升。该文通过Neo4j图数据库存储并构建金融因果事理图谱,以事件关系可视化的方式揭示现实金融事件的演变逻辑规律,分析金融网络的风险传导扩散机制。相似文献

20.

基于XML的Web数据抽取研究 总被引：1，自引：0，他引：1

吕锋余丽《计算机技术与发展》2007,17(6):53-55

文中介绍了三种常用的Web数据抽取的方法：直接解析HTML文档的方法,基于XML的方法（也称作为分析HTML层次结构的方法）以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。相似文献