共查询到18条相似文献,搜索用时 62 毫秒
1.
中文命名实体识别的研究有着重大的现实意义。本文先对信息抽取技术和其中的命名实体识别进行概述,然后简介了GATE这样一种信息抽取工具,以及使用GATE进行中文命名实体识别的规则(以货币识别为例),最后对全文进行了总结。 相似文献
2.
陈晓红 《计算机光盘软件与应用》2014,(19):30+32
为了准确快速地抽取出用户感兴趣的信息,本文提出基于GATE的领域信息抽取。本文以"教育"领域为例,修改GATE的中文抽取插件Lang_chinese,精准快速地抽取出该领域的学校名、专业名、人名,为进一步提高中文信息抽取的准确率和召回率提供了研究基础。 相似文献
3.
介绍了信息抽取技术的基本概念、GATE信息抽取系统的抽取过程。对现有的信息抽取系统构建方法进行了介绍,指出了构建中文信息抽取系统所需要解决的关键问题及解决办法。 相似文献
4.
5.
6.
7.
现有的信息抽取工作多是针对无层次结构的数据信息,而在实际任务中,文本中的数据常常具有复杂的嵌套层次结构,如文档中包含多个不同类型的信息块序列,每个块中又包含了一个独立的信息序列.针对具有层级结构的信息抽取问题,提出一种基于联合序列标注的层级信息抽取方法.一方面使用BiLSTM-CNN-CRF模型分别对不同层级的数据进行... 相似文献
8.
命名实体识别是文本信息处理的重要基础,已逐步成为自然语言处理的一项关键技术。文章分析了Web招聘信息抽取中的命名实体识别方法,研究了基于自然语言理解方式识别组织机构名、职位名,并实现了一个Web招聘信息抽取原型系统。经测试,本系统在命名实体识别方面取得了较满意的实验结果。正确率和召回率都在77%以上。 相似文献
9.
命名实体识别和关系抽取是自然语言处理领域的两个重要基本问题.联合抽取方法被提出用于解决传统解决管道抽取方法中存在的一些问题.为了充分融合头实体和句子的语义信息,同时解决可能存在的重叠三元组问题,论文提出了一种新的实体关系联合抽取方法,主要通过序列标注的方式抽取实体关系.该方法主要使用条件层归一化(Condi-tional Layer Normalization)进行信息融合.同时,该方法还赋予了待抽取的头实体和尾实体不同的语义编码.实验结果表明,该方法在使用预训练的BERT预处理编码器的情况下,在NYT和WebNLG数据集上有很好的表现. 相似文献
10.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。 相似文献
11.
12.
13.
14.
面向商务信息抽取的产品命名实体识别研究 总被引:12,自引:5,他引:12
市场信息化使得商务信息抽取、市场内容管理日益成为信息科学领域的一个研究热点。产品命名实体识别作为其中非常重要的关键技术之一也逐渐受到人们的关注。本文面向商务信息抽取对产品命名实体进行了定义并系统分析了其识别任务的特点和难点,提出了一种基于层级隐马尔可夫模型(hierarchical hidden Markov model)的产品命名实体识别方法,实现了汉语自由文本中产品命名实体识别和标注的原型系统。实验表明,该系统在电子数码和手机领域均取得了令人满意的实验结果,对产品名实体、产品型号实体、产品品牌实体整体识别性能的F值分别为79.7% ,86.9% ,75.8%。通过和最大熵模型相比较,验证了HHMM对于处理多尺度嵌套序列有更强的表征能力。 相似文献
15.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。 相似文献
16.
17.
18.
蛋白质关系抽取研究对于生命科学各领域的研究具有广泛的应用价值。但是,基于机器学习的蛋白质关系抽取方法普遍停留在二元关系抽取,失去了丰富的关系类型信息,而基于规则的开放式信息抽取方法可以抽取完整的蛋白质关系(“蛋白质1,关系词,蛋白质2”),但是召回率较低。针对以上问题,该文提出了一种混合机器学习和规则方法的蛋白质关系抽取框架。该框架先利用机器学习方法完成命名实体识别和二元关系抽取,然后利用基于句法模板和词典匹配的方法抽取表示当前两个蛋白质间关系类型的关系词。该方法在AImed语料上取得了40.18%的F值,远高于基于规则的Stanford Open IE方法。 相似文献