首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
命名实体识别(Named Entity Recognition,NER)作为自然语言处理领域经典的研究主题,是智能问答、知识图谱等任务的基础技术.领域命名实体识别(Domain Named Entity Recognition,DNER)是面向特定领域的NER方案.在深度学习技术的推动下,中文DNER取得了突破性进展....  相似文献   

2.
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等...  相似文献   

3.
中文命名实体识别主要包括中文平面命名实体识别和中文嵌套命名实体识别两个任务,其中中文嵌套命名实体识别任务难度更大。提出了一个基于词汇增强和表格填充的统一模型TLEXNER,该模型能够同时处理上述任务。该模型首先针对中文语料分词困难的问题,使用词典适配器将词汇信息融合到BERT预训练模型,并且将字符与词汇组的相对位置信息集成到BERT的嵌入层中;然后通过条件层归一化和双仿射模型构造并预测字符对表格,使用表格建模字符与字符之间的关系,得到平面实体与嵌套实体的统一表示;最后根据字符对表格上三角区域的数值判断实体类别。提出的模型在平面实体的公开数据集Resume和自行标注的军事领域嵌套实体数据集上F1分别是97.35%和91.96%,证明了TLEXNER模型的有效性。  相似文献   

4.
目前主流的命名实体识别算法都是从词汇增强的角度出发,引入外部词汇信息提升NER模型获取词边界信息的能力,并未考虑到中文字结构信息在此任务中的重要作用。因此,该文提出多粒度融合的命名实体识别算法,同时引入中文字结构与外部词汇信息,通过编码汉字中每个字部件,并使用注意力机制使得文本序列中的字启发式地融合细粒度信息,赋予模型获取中文字形特征的能力。在多个命名实体识别数据集上的实验结果显示,该算法在模型精度以及推理速度方面具有较大优势。  相似文献   

5.
根据词性在任务中可能出现的特征表达,在字粒度一级,基于条件随机场模型,对词性特征在中文命名实体识别任务中的应用进行研究,提出一种将词性和词边界合成为一个特征项的方法。在相同实验环境下针对多种词性特征的应用情况,采用序列标注的方式在公共语料上进行多次中文命名实体识别实验。通过对多次实验结果的比较分析得出,二级词性与词边界合成的特征在系统执行性能和识别效果等方面均为最优。  相似文献   

6.
程晨 《福建电脑》2010,26(8):30-31
中文命名实体识别的研究有着重大的现实意义。本文先对信息抽取技术和其中的命名实体识别进行概述,然后简介了GATE这样一种信息抽取工具,以及使用GATE进行中文命名实体识别的规则(以货币识别为例),最后对全文进行了总结。  相似文献   

7.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

8.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

9.
针对基于字符表示的中文医学命名实体识别模型嵌入信息单一、缺失词边界和结构信息的问题,文中提出了一种融合多特征嵌入的医学命名实体识别模型。首先,将字符映射为固定长度的嵌入表示;其次,引入外部资源构建词汇特征,该特征能够补充字符的潜在词组信息;然后,根据中文的象形文字特点和文本序列特点,分别引入字符结构特征和序列结构特征,使用卷积神经网络对两种结构特征进行编码,得到radical-level词嵌入和sentence-level词嵌入;最后,将得到的多种特征嵌入进行拼接,输入长短期记忆网络编码,并使用条件随机场输出实体预测结果。将自建中文医疗数据和CHIP_2020任务提供的医疗数据作为数据集进行实验,实验结果表明,与基准模型相比,所提模型同时融合了词汇特征和文本结构特征,能够有效识别医学命名实体。  相似文献   

10.
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。  相似文献   

11.
《微型机与应用》2017,(21):51-53
生物医学文献中的疾病命名实体识别问题是疾病相关的生物信息学分析基础,疾病命名实体中的医学术语识别和边界确定是该问题的难点和关键。文中提出了一种CRF(Conditional Random Field)与词典相结合的疾病命名实体识别方法。该方法利用网络资源来构建含有语义信息的医学术语词典,并使用该词典对医学术语进行识别,获得医学术语的语义信息,然后CRF结合这些信息对疾病命名实体进行识别。实验结果表明该方法有效。  相似文献   

12.
胡婕  胡燕  刘梦赤  张龑 《计算机应用》2022,42(9):2680-2685
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020 和 MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。  相似文献   

13.
笔者在基于神经网络的命名实体识别基础上,提出了改进的中文命名实体识别方法,通过调整网络中间的部分架构,引入Transformer编码模型,在没有添加文本外部信息的情况下,研究学习文本语句自身含义的方法,通过多注意力的学习增强文本的特征表示,捕捉更多字符间的关系,同时解决了长短期记忆网络不能并行计算的问题,并在企业舆情数据集上进行了实验和测试。与传统方法进行对比,验证了该方法可有效提高中文命名实体识别的准确率。  相似文献   

14.
为了提高中文命名实体识别的效果,提出了基于 XLNET-Transformer_P-CRF 模型的方法,该方法使用了 Transformer_P 编码器,改进了传统 Transformer 编码器不能获取相对位置信息的缺点。实验结果表明,XLNET-Transformer_P-CRF模型在MSRA、OntoNotes4.0、Resume、微博数据集4类数据集上分别达到95.11%、80.54%、96.70%、71.46%的F1值,均高于中文命名实体识别的主流模型。  相似文献   

15.
随着自然语言处理领域相关技术的快速发展,作为自然语言处理的上游任务,提高命名实体识别的准确率对于后续的文本处理任务而言具有重要的意义。然而,中文和英文语系之间存在差异,导致英文的命名实体识别研究成果难以有效地迁移到中文研究中。因此从以下四方面分析了当前中文命名实体识别研究中的关键问题:首先以命名实体识别的发展历程作为主要线索,从各阶段存在的优缺点、常用方法和研究成果等角度进行了综合论述;其次从序列标注、评价指标、中文分词方法及数据集的角度出发,对中文文本预处理方法进行了总结;接着针对中文字词特征融合方法,从字融合和词融合的角度对当前的研究进行了总结,并对当前中文命名实体识别模型的优化方向进行了论述;最后分析了当前中文命名实体识别在各领域的实际应用。对当前中文命名实体识别的研究进行论述,旨在帮助科研工作者更为全面地了解该任务的研究方向和研究意义,从而为新方法和新改进的提出提供一定的参考。  相似文献   

16.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。  相似文献   

17.
中文命名实体识别(NER)任务是信息抽取领域内的一个子任务,其任务目标是给定一段非结构文本后,从句子中寻找、识别和分类相关实体,例如人名、地名和机构名称.中文命名实体识别是一个自然语言处理(NLP)领域的基本任务,在许多下游NLP任务中,包括信息检索、关系抽取和问答系统中扮演着重要角色.全面回顾了现有的基于神经网络的单...  相似文献   

18.
基于单字提示特征的中文命名实体识别快速算法   总被引:2,自引:1,他引:2  
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。  相似文献   

19.
基于字词联合的中文命名实体识别模型能够兼顾字符级别与词语级别的信息,但受未登录词影响较大且在小规模数据集上存在训练不充分等问题。在现有LR-CNN模型的基础上,提出一种结合知识增强的中文命名实体识别模型,采用相对位置编码的多头注意力机制提高模型上下文信息捕捉能力,通过实体词典融入先验知识降低未登录词的影响并增强模型学习能力。实验结果表明,该模型在保持较快解码速度和较低计算资源占用量的情况下,在MSRA、People Daily、Resume、Weibo数据集上相比SoftLexicon、FLAT等模型F1值均有明显提升,同时具有较强的鲁棒性和泛化能力。  相似文献   

20.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号