首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
实体嵌套是自然语言中一种常见现象,提高嵌套命名实体识别的准确性对自然语言处理各项任务具有重要作用。针对现有嵌套命名实体识别方法在识别实体边界时不够准确、未能有效利用实体边界信息等问题,提出一种嵌套命名实体识别的边界强化分类模型。采用卷积神经网络提取邻接词的特征,通过加入多头注意力的序列标注模型获取实体中的边界特征,提高实体边界检测的准确性。在此基础上,计算实体中各词语对实体类型的贡献度,将实体关键字与实体边界词相结合来表示实体,使实体表示中包含实体关键信息和边界信息,最后进行实体类型检测。实验结果表明,通过加入多头注意力机制能够有效提升对嵌套命名实体的检测和识别性能,该模型在GENIA和GermEval 2014数据集上准确率有较好表现,并且召回率和F1值较对比模型达到最优。  相似文献   

2.
闫璟辉  宗成庆  徐金安 《软件学报》2024,35(6):2923-2935
实体识别是信息抽取的关键技术. 相较于普通文本, 中文医疗文本的实体识别任务往往面对大量的嵌套实体. 以往识别实体的方法往往忽视了医疗文本本身所特有的实体嵌套规则而直接采用序列标注方法, 为此, 提出一种融合实体嵌套规则的中文实体识别方法. 所提方法在训练过程中将实体的识别任务转化为实体的边界识别与边界首尾关系识别的联合训练任务, 在解码过程中结合从实际医疗文本中所总结出来的实体嵌套规则对解码结果进行过滤, 从而使得识别结果能够符合实际文本中内外层实体嵌套组合的组成规律. 在公开的医疗文本实体识别的实验上取得良好的效果. 数据集上的实验表明, 所提方法在嵌套类型实体识别性能上显著优于已有的方法, 在整体准确率方面比最先进的方法提高0.5%.  相似文献   

3.
目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边界检测的中文嵌套命名实体识别模型。该模型使用多词融合方法达到文本特征增强的目的,在设计的注入模块中将目标语句中字符相关的多个词汇信息进行合并,之后融入到BERT中,以此获得更全面的上下文信息,提供更好的跨度表示;其次添加跨度边界检测模块,通过感知分类器预测跨度的首尾字符来划分跨度边界。在公共数据集上的实验表明,该模型可有效提升识别准确率。  相似文献   

4.
由于中文文本缺少天然分隔符,中文嵌套命名实体识别(Chinese Nested Named Entity Recognition, CNNER)任务极具挑战性,而嵌套结构的复杂性和多变性更增添了任务的难度。文中针对CNNER任务提出了一种新型边界感知层叠神经网络模型(Boundary-aware Layered Nerual Model, BLNM)。首先通过构建了一个分割注意力网络来捕获潜在的分词信息和相邻字符之间的语义关系,以增强字符表示;然后通过动态堆叠扁平命名实体识别层的网络,由小粒度到大粒度逐层识别嵌套实体;最后为了利用被预测实体的边界信息和位置信息,构建了一个边界生成式模块,用于连接相邻的扁平命名实体识别层以及缓解错误传递问题。基于ACE 2005中文嵌套命名实体数据集的实验结果表明,该模型具有较好的性能。  相似文献   

5.
实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction, ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务: 嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。  相似文献   

6.
实体自动识别技术是人们获取信息的有力手段,也是自然语言处理研究的关键技术之一。目前命名实体识别的研究较多,且已趋于成熟,而对汉语文本中的其他实体(名词性、代词性)研究较少。因此提出了一体化识别命名实体识别和名词性实体的方法,该方法将实体的汉字、分词、词性标注等信息引入条件随机场;再利用多层算法模型优化已经识别出的实体,以及召回未识别出的实体。在标准ACE语料库上进行实验,正确率达到75.56%,召回率达到72.52%。结果表明该方法对于实体识别问题是有效的。  相似文献   

7.
基于ALBERT-BGRU-CRF的中文命名实体识别方法   总被引:1,自引:0,他引:1  
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。  相似文献   

8.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

9.
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003 数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。  相似文献   

10.
命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.  相似文献   

11.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

12.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。  相似文献   

13.
在生物医学临床病历文本的命名实体识别任务中,传统的解决方案由于对实体的边界划分不够精确,影响了部分复合实体的识别。通过研究复合实体的特性,提出一种集成的卷积神经网络(E-CNN)模型与双向长短期记忆网络(BLSTM)和条件随机场(CRF)结合的模型,通过对CNN中的卷积层设定不同卷积窗口的大小,来捕获多个词语之间更丰富的边界特征信息。然后将集成的特征信息传递给BLSTM模型进行训练,最后由CRF模型得到最终的序列标注。实验结果表明,该方法针对临床病历文本中的复合实体识别具有良好的效果。  相似文献   

14.
电子病历命名实体识别(named entity recognition,NER)旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。  相似文献   

15.
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展。该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性。鉴于此,该文提出一种基于Transformer-BiLSTM-CRF的桥梁检测领域命名实体识别方法。首先,利用Transformer编码器对检测文本字符序列的上下文长距离位置依赖特征进行建模,并采用BiLSTM网络进一步捕获方向敏感性特征,最终在CRF模型中实现标注序列预测。实验结果表明,相较于当前主流的命名实体识别模型,该文提出的方法具有更好的综合识别效果。  相似文献   

16.
中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称.中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色.全面回顾了现有的基于神经网络的单...  相似文献   

17.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要.近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能.对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望.  相似文献   

18.
目前主流的命名实体识别算法都是从词汇增强的角度出发,引入外部词汇信息提升NER模型获取词边界信息的能力,并未考虑到中文字结构信息在此任务中的重要作用。因此,该文提出多粒度融合的命名实体识别算法,同时引入中文字结构与外部词汇信息,通过编码汉字中每个字部件,并使用注意力机制使得文本序列中的字启发式地融合细粒度信息,赋予模型获取中文字形特征的能力。在多个命名实体识别数据集上的实验结果显示,该算法在模型精度以及推理速度方面具有较大优势。  相似文献   

19.
命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。  相似文献   

20.
命名实体识别任务是朝鲜语自然语言处理研究过程中最重要的基础任务之一。针对朝鲜语命名实体识别的边界划定不明确和准确率低等问题,该文提出基于Transformer的音节-形态素融合的朝鲜语命名实体识别模型。首先通过BERT预训练模型分别对音节和形态素进行词嵌入;其次使用两种不同的向量融合方法将音节向量和形态素向量相融合,即简单的向量拼接方法和考虑到向量联系与差异的启发式融合方法;最后将融合后的向量作为模型的输入完成命名实体识别任务。实验结果在KLUE公布的朝鲜语命名实体识别数据集中F1值达到了88.78%,相比单一粒度实验提高约3至4个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号