首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

2.
采用规则与统计相结合的命名实体识别方法,该方法在构造内部规则和外部规则的同时通过概率统计对测试语料库进行识别。实验结果表明,该方法具有较高的准确率和有效性,准确率达到82.71%,召回率达到91.03%。  相似文献   

3.
提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法.该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别.识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息.实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能...  相似文献   

4.
5.
高质量的命名实体识别算法往往依赖海量的高质量标注数据来帮助实体识别模型的训练,然而大规模标注数据的获取存在诸多困难,如何通过文本信息自身的相关性来提高实体识别的准确性受到越来越多科研工作者的关注。该文有效地利用文本信息的语义相关性引入“实体联合器”概念,通过其与实体的高相关性,提高实体的数字化表征能力,进而实现对实体的有效识别。基于此,首先提出了一种实体联合器识别模型,通过文本关联结构信息来实现非标签文本的实体联合器识别;之后,采用经典的BiLSTM网络模型,提取句子的语义表征,并利用特征融合机制实现实体联合器与句子特征融合;由于实体联合器与实体有较强的关联性,又提出了针对实体表征及句子整体表征的约束机制,确保实体联合器在特征学习过程中的指导作用,精准高效地识别文本数据中的实体。通过在公开的数据集CoNLL03、NCBI Disease上对该文算法进行测试,相关实验结果证明了该文所提出算法的优越性和合理性。  相似文献   

6.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要。近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能。对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望。  相似文献   

7.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

8.
嵌套命名实体之间蕴含着丰富的语义关系与结构信息,对于关系抽取、事件抽取等下游任务的执行至关重要.近年来,深度学习技术由于能够获取文本中更为丰富的表征信息,在文本信息抽取模型的精确度上已经逐渐超过了传统基于规则的方法,因此许多学者开展了基于深度学习的嵌套命名实体识别技术研究,并获得了目前最先进的性能.对现有的嵌套命名实体识别技术进行了全面的综述,介绍了嵌套命名实体识别最具代表性的方法及最新应用技术,并对未来面临的挑战和发展方向进行了探讨和展望.  相似文献   

9.
小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER及其领域词典WpdDict,并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA,该模型基于轻量级BERT+双向长短期记忆网络+条件随机场(ALBERT+BiLSTM+CRF)进行实体识别,并在识别后定义具体规则校准实体边界。融合规则后的ALBERT+BiLSTM+CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71个百分点、0.34个百分点、1.03个百分点。实验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路。  相似文献   

10.
命名实体识别技术是信息抽取、机器翻译、问答系统等多种自然语言处理技术中一项重要的基本任务.近年来,基于深度学习的命名实体识别技术成为一大研究热点.为了方便研究者们了解基于深度学习的命名实体识别研究进展及未来发展趋势,对当前基于卷积神经网络、循环神经网络、transformer模型以及其他一些命名实体识别方法展开综述性介...  相似文献   

11.
命名实体识别是文本信息处理的重要基础,也是自然语言处理的一项关键技术.近几年来微博迅速发展成为人们进行信息交流的平台,微博文本俨然已经成为进行命名实体抽取的新载体.论文利用微博内容和结构的特点,提出了一种基于统计与规则相结合的命名实体识别的方法.微博文本较短并且文本中含有标签、话题等内容,论文在考虑这些特点基础上,利用微博评论和转发进行词频统计,通过规则筛选,完成命名实体识别.在新浪微博数据上的实验结果表明该方法可以有效地提高微博中命名实体识别效果.  相似文献   

12.
目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。  相似文献   

13.
命名实体识别和歧义消解是自然语言理解的重要研究内容。针对提供实体知识库情况下的命名实体识别和歧义消解任务,该文提出了一种基于多步聚类的方法。首先通过两轮聚类将命名实体与知识库实体定义链接,然后通过层次聚合式聚类对知识库中未出现的实体进行聚类,最后进行普通词的识别和基于K-Means聚类的结果调整。在CLP-2012的汉语命名实体识别和歧义消解评测数据上的实验表明,该文的方法表现出良好的性能,在测试集上的F值高出评测参赛队伍最好水平6.46%,达到86.68%。  相似文献   

14.
近年来, 数字人文受到广泛关注, 数字人文环境下的词命名实体识别研究日渐兴起, 但鲜有研究从字特征的特征表示能力、分词的准确性、领域知识的有效性等方面进行探究. 鉴于此, 针对汉字的象形文字特点和词文本的特殊性, 在字特征的基础上, 引入部首特征、格律特征和声韵特征, 提出特征增强单元和特征抽取单元, 并将词牌知识三元组通过ANALOGY得到的知识向量表示为词牌知识向量, 通过双向长短时记忆网络、注意力机制等模型将部首向量、字向量、格律向量、声韵向量、词牌知识向量进行深度融合, 最终构建出融入多特征的词命名实体识别方法. 在《花间集全译》自制语料上的对比实验和消融实验的结果表明, 本文所提方法能够有效利用多特征提升词命名实体识别性能. 其F1值达到了85.63%, 完成了词命名实体识别任务.  相似文献   

15.
中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称.中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色.全面回顾了现有的基于神经网络的单...  相似文献   

16.
作为我国桥梁工程领域最重要的数据源之一,桥梁检测文本蕴含了丰富的结构构件参数及检测病害描述等关键业务信息,但面向该领域的文本信息抽取研究尚未有效开展.该文在阐明其领域命名实体识别目标任务的基础上,分析了待识别实体在蕴含大量专业术语的同时,存在地名或路线名嵌套、字符多义、上下文位置相关和方向敏感等领域特性.鉴于此,该文提...  相似文献   

17.
命名实体识别、排歧和跨语言关联   总被引:5,自引:0,他引:5  
命名实体是文本中承载信息的重要语言单位,命名实体的识别和分析在网络信息抽取、网络内容管理和知识工程等领域都占有非常重要的地位。有关命名实体的研究任务包括实体识别、实体排歧、实体跨语言关联、实体属性抽取、实体关系检测等,该文重点介绍命名实体识别、排歧和跨语言关联等任务的研究现状,包括难点、评测、现有方法和技术水平,并对下一步需要重点解决的问题进行分析和讨论。该文认为,命名实体识别、排歧和跨语言关联目前的技术水平还远远不能满足大规模真实应用的需求,需要更加深入的研究。在研究方法上,要突破自然语言文本的限制,直接面向海量、冗余、异构、不规范、含有大量噪声的网页信息处理。  相似文献   

18.
命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。  相似文献   

19.
现有的命名实体识别算法多半采用统计与规则相结合的办法,但是这些方法有的没有考虑全局信息,有的没有解决好统计模型的时间复杂性问题.提出一个简约语法规则和最大熵模型相结合的混合命名实体识别方法,该方法采用简约语法规则与最大熵模型级联,首先使用简约语法规则模型进行识别,降低了使用复杂语法规则的时间复杂度,并把它的输出进行部分匹配,很好的弥补了由于简约语法规则带来的召回率偏低的问题,然后将得到的中间结果作为输入传递给最大熵模型,再由最大熵模型进行识别,得到最终的识别结果.实验结果表明,在MUC-7的命名实体识别评测中,系统的准确率、召回率和F值分别达到了94%,91%和92.48%,与已有的系统相比在性能上有很大的提升.  相似文献   

20.
命名实体识别作为自然语言处理领域的基础问题一直备受关注.中文命名实体特别是组合命名实体,由于其内部结构复杂,故长度可以很长,已有的研究还存在以下两个问题:一是字和词之间的关联信息未能充分挖掘,无法将组合实体和简单实体做统一处理;二是组合实体加大了实体序列长短的差异,文本自身信息的捕获不充分.针对问题一,该文借助融合了双...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号