首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.  相似文献   

2.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

3.
地理知识图谱作为一种科学领域的知识图谱,从概念探讨和初步实验阶段快速发展为地理信息科学领域的跨学科研究热点。地理命名实体识别是地理知识图谱构建的基础,直接影响着地理知识图谱的构建效率与质量。设计了一个地理知识图谱应用管理系统,针对其中地理实体库构建过程依赖人工制定规则以及信息提取不充分等问题,面向地理知识图谱构建过程进行地理命名实体识别研究。首先,通过人工标注方法构建了一个地理知识语料库;其次,通过BERT预训练模型得到结合语境信息的动态字向量,利用双向门控循环单元提取全局语义特征,并基于注意力机制获得增强语义特征;最后,通过CRF解码输出概率最大的全局最优标签序列,实现地理命名实体的自动识别。实验结果表明,相比传统的BiLSTM-CRF、BERT-BiLSTM-CRF等模型,所提出的基于BERT-BiGRU-CRF与多头注意力机制的模型在地理命名实体识别任务中表现更优,能够为地理知识图谱构建提供有效支撑。  相似文献   

4.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务.近年来,基于深度学习的命名实体识别技术成为一大研究热点.为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介...  相似文献   

5.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

6.
命名实体识别的目的是识别文本中的实体指称的边界和类别.在进行命名实体识别模型训练的过程中,通常需要大量的标注样本.本文通过实现有效的选择算法,从大量样本中选择适合模型更新的样本,减少对样本的标注工作.通过5组对比实验,验证使用有效的选择算法能够获得更好的样本集,实现具有针对性的标注样本.通过设计在微博网络数据集上的实验...  相似文献   

7.
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难.针对这些问题,提出多头注意力机制(multi-heads attention m...  相似文献   

8.
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。  相似文献   

9.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

10.
为深入研究藏文命名实体的基本结构、分类方法以及自动识别技术,同时为进一步完善藏语词法分析、句法和语义分析,以及机器翻译等信息处理领域的基础性研究工作,该文重点研究了实体类型较为丰富的格萨尔史诗文本,制定了六种格萨尔命名实体类型,提出了藏文音节和深度学习相结合的格萨尔史诗命名实体识别方法。在人工标注的10万多句命名实体训练集和测试集上,经实验命名实体识别的准确率、召回率和F值分别达到92.01%、91.96%和91.99%,满足了研究格萨尔史诗命名实体识别的应用需求。  相似文献   

11.
运用命名实体识别算法从海量医疗文本中抽取信息,对于构建知识图谱、对话系统等具有重要意义.然而医疗实体间存在嵌套、歧义和专业术语缩写多样性的问题,传统的基于统计的方法对于实体边界的定位存在较大偏差.考虑到医疗文本的复杂性,提出了多层Transformer模型,基于其multi-head和self-attention机制提...  相似文献   

12.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

13.
基于感知器的生物医学命名实体边界识别算法   总被引:1,自引:0,他引:1  
胡俊锋  陈浩  陈蓉  谭斌  于中华 《计算机应用》2007,27(12):3026-3029
在生物信息学领域内生物医学命名实体识别(Bio-NER)是生物医学文献挖掘、利用的基础工作,由于实体边界识别的困难导致目前Bio-NER效率较低,因此提出了基于感知器的实体边界识别算法,该算法采用随机梯度下降算法训练权重,利用token过滤器、n-gram模型及实体过滤器实现生物医学命名实体边界识别。在GENIA corpus 3.02语料库上进行的实验表明,该算法可以达到71.5%的准确率和79.2%的召回率,与相关工作相比均有一定提高。另外算法相对简单,识别算法速度较快,易在生产中应用。  相似文献   

14.
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术。领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案。在深度学习技术的推动下,中文DNER取得了突破性进展。概括了中文DNER的研究框架,从领域数据源的确定、领域实体类型及规范制定、领域数据集的标注规范、中文DNER评估指标四个角度对国内外已有研究成果进行了综合评述;总结了目前常见的中文DNER的技术框架,介绍了基于词典和规则的模式匹配方法、统计机器学习方法、基于深度学习的方法、多方融合的深度学习方法,并重点分析了基于词向量表征和深度学习的中文DNER方法;讨论了中文DNER的典型应用场景,对未来发展方向进行了展望。  相似文献   

15.
《微型机与应用》2017,(21):51-53
生物医学文献中的疾病命名实体识别问题是疾病相关的生物信息学分析基础,疾病命名实体中的医学术语识别和边界确定是该问题的难点和关键。文中提出了一种CRF(Conditional Random Field)与词典相结合的疾病命名实体识别方法。该方法利用网络资源来构建含有语义信息的医学术语词典,并使用该词典对医学术语进行识别,获得医学术语的语义信息,然后CRF结合这些信息对疾病命名实体进行识别。实验结果表明该方法有效。  相似文献   

16.
命名实体识别是自然语言处理中的一项基础任务。通过基于词典的方法增强词内语义和词边界信息是中文命名实体识别的主流做法。然而,汉字由象形字演变而来,汉字字形中包含着丰富的实体信息,这些信息在该任务中却很少被使用。该文提出了一个基于词典和字形特征的中文命名实体识别模型,将词信息和结构信息统一地结合起来,提高了实体匹配的准确性。该文首先通过SoftLexicon方法丰富语义信息,并使用改进的部首级嵌入优化字符表示;然后通过门卷积网络加强了对潜在词和上下文信息的提取;最后在四个基准数据集上实验,结果表明与传统模型和最新模型相比,基于词典和字形特征的模型取得了显著的性能提升。  相似文献   

17.
18.
由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。  相似文献   

19.
根据司法案件文书中实体名长度较长以及实体间的关联性较强这一特点,该文提出了一种利用最大正向匹配策略和社区注意力机制(FMM-CAM)的法律文书命名实体识别方法.该方法利用最大正向匹配策略,优先获得法律文书中每个字对应的较长的匹配词,将匹配词按字在词中的位置划分到B、M、E、S四个匹配词社区,并利用社区自注意力机制获取不...  相似文献   

20.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号