首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
程晨 《福建电脑》2010,26(8):30-31
中文命名实体识别的研究有着重大的现实意义。本文先对信息抽取技术和其中的命名实体识别进行概述,然后简介了GATE这样一种信息抽取工具,以及使用GATE进行中文命名实体识别的规则(以货币识别为例),最后对全文进行了总结。  相似文献   

2.
为了准确快速地抽取出用户感兴趣的信息,本文提出基于GATE的领域信息抽取。本文以"教育"领域为例,修改GATE的中文抽取插件Lang_chinese,精准快速地抽取出该领域的学校名、专业名、人名,为进一步提高中文信息抽取的准确率和召回率提供了研究基础。  相似文献   

3.
介绍了信息抽取技术的基本概念、GATE信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了介绍,指出了构建中文信息抽取系统所需要解决的关键问题及解决办法。  相似文献   

4.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

5.
信息抽取研究综述   总被引:3,自引:2,他引:1  
郭喜跃  何婷婷 《计算机科学》2015,42(2):14-17,38
信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。随着互联网应用的发展,其价值也正日益显现,学术界和工业界对此都寄予厚望。首先回顾了信息抽取的发展历程;接着从命名实体识别、指代消解、关系抽取和事件抽取4个方面总结了信息抽取关键技术的研究进展;然后分析了信息抽取目前面临的若干主要问题;最后对信息抽取的研究趋势作了预测。  相似文献   

6.
崔博文  金涛  王建民 《计算机应用》2021,41(4):1055-1063
电子病历信息抽取技术能够从自由文本电子病历中获取到有用的关键信息,从而为医院的信息管理和后续的信息分析处理工作提供帮助.简要介绍了现阶段自由文本电子病历信息抽取的主要流程,分析了近十几年来关于自由文本电子病历中命名实体、实体修饰与实体间关系三类关键信息的单独抽取以及联合抽取方法的研究成果,对这些成果所采用的主要方法、使...  相似文献   

7.
现有的信息抽取工作多是针对无层次结构的数据信息,而在实际任务中,文本中的数据常常具有复杂的嵌套层次结构,如文档中包含多个不同类型的信息块序列,每个块中又包含了一个独立的信息序列.针对具有层级结构的信息抽取问题,提出一种基于联合序列标注的层级信息抽取方法.一方面使用BiLSTM-CNN-CRF模型分别对不同层级的数据进行...  相似文献   

8.
命名实体识别是文本信息处理的重要基础,已逐步成为自然语言处理的一项关键技术。文章分析了Web招聘信息抽取中的命名实体识别方法,研究了基于自然语言理解方式识别组织机构名、职位名,并实现了一个Web招聘信息抽取原型系统。经测试,本系统在命名实体识别方面取得了较满意的实验结果。正确率和召回率都在77%以上。  相似文献   

9.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现.  相似文献   

10.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

11.
冗余信息去重是信息抽取中的重要任务,对于多元素表示的信息,该文针对以往对各个元素统一处理所存在的问题,将信息元素进行分类,由各类元素的冗余判断难易出发,归纳相似度计算方法,并将各相似度作为特征,通过分类器判断信息间的冗余性。同时对最难判断的命名实体信息元素,该文从其他易判断相似性的信息元素出发,通过同义命名实体的自动扩展,提高信息去重的效果。  相似文献   

12.
在生物医学文本挖掘领域,生物医学的命名实体和关系抽取具有重要意义.然而目前中文生物医学实体关系标注语料十分稀缺,这给中文生物医学领域的信息抽取任务带来许多挑战.该文基于深度学习技术搭建了中文生物医学实体关系抽取系统.首先利用公开的英文生物医学标注语料,结合翻译技术和人工标注方法构建了中文生物医学实体关系语料.然后在结合...  相似文献   

13.
实体属性抽取是信息抽取、知识库构建等任务的重要基础。该文提出了一种利用在线百科获取实体属性的方法,该方法首先通过在线百科的结构特征和领域独立的抽取模式捕获可能的属性短语,然后根据同义扩展获取尽可能多的属性表述形式,并同时得到对应实体类别的同义属性集合。实验表明,该方法在保证属性抽取准确率不变的情况下,获得了比仅使用频率的方法覆盖范围更广的实体属性集合。  相似文献   

14.
面向商务信息抽取的产品命名实体识别研究   总被引:12,自引:5,他引:12  
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。  相似文献   

15.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

16.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

17.
介绍Markov逻辑网的理论模型,阐述Markov逻辑网的结构和参数学习算法及2种基本类型的推理,从命名实体识别、实体关系抽取和实体解析3个方面总结Markov逻辑网在信息抽取中的应用现状。分析结果表明,Markov逻辑网模型能较好地将一阶谓词逻辑和概率图模型相结合,灵活地在Markov网中融入模块化知识,描述复杂的特征。  相似文献   

18.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号