首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 656 毫秒
1.
基于BERT和对抗训练的食品领域命名实体识别   总被引:1,自引:0,他引:1  
为了在食品领域从非结构化语料中抽取出有效的实体信息,提出了一种基于BERT(Bidirectional Encoder Representations from Transformers)和对抗训练的命名实体识别(Named Entity Recognition,NER)的方法。命名实体识别是一种典型的序列标注问题。目前,深度学习方法已经被广泛应用于该任务并取得了显著的成果,但食品领域等特定领域中的命名实体识别存在难以构建大量样本集、专用名词边界识别不准确等问题。针对这些问题,文中利用BERT得到字向量,以丰富语义的表示;并引入对抗训练,在有效防止中文分词任务私有信息的噪声的基础上,利用中文分词(Chinese Word Segmentation,CWS)和命名实体识别的共享信息来提高识别实体边界的精确率。在两类领域的语料上进行实验,这两类领域分别是中文食品安全案例和人民日报新闻。其中,中文食品安全案例用于训练命名实体识别任务,人民日报新闻用于训练中文分词任务。使用对抗训练来提高命名实体识别任务中实体(包括人名、地名、机构名、食品名称、添加剂名称)识别的精确度,实验结果表明,所提方法的精确率、召回率和F1值分别为95.46%,89.50%,92.38%,因此在食品领域边界不显著的中文命名实体识别任务上,该方法的了F1值得到提升。  相似文献   

2.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效。命名实体识别(Named Entity Recognition, NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤。本文提出一种基于预训练模型RoBERTa-WWM(A Robustly Optimized BERT Pre-training Approach-Whole Word Masking)的命名实体识别方法。该方法引入预训练模型RoBERTa-WWM,利用其生成含有先验知识的语义表示。与BERT(Bidirectional Encoder Representations from Transformers)相比,RoBERTa-WWM生成的语义表示更适用于中文的命名实体识别任务,因为其在预训练阶段会进行全词掩码。RoBERTa-WWM生成的语义表示被依次输入双向长短时记忆(Bidirectional Long Short-Term Memory, BiLSTM)和条件随机场(Conditional Random Field, CRF)模型。实验结果表明,该方法在“2019全国知识图谱与语义计算大会(CCKS 2019)”数据集上可以有效提升F1值,提高中文电子病历中命名实体的识别效果。  相似文献   

3.
由于中文文本缺少天然分隔符,中文嵌套命名实体识别(Chinese Nested Named Entity Recognition, CNNER)任务极具挑战性,而嵌套结构的复杂性和多变性更增添了任务的难度。文中针对CNNER任务提出了一种新型边界感知层叠神经网络模型(Boundary-aware Layered Nerual Model, BLNM)。首先通过构建了一个分割注意力网络来捕获潜在的分词信息和相邻字符之间的语义关系,以增强字符表示;然后通过动态堆叠扁平命名实体识别层的网络,由小粒度到大粒度逐层识别嵌套实体;最后为了利用被预测实体的边界信息和位置信息,构建了一个边界生成式模块,用于连接相邻的扁平命名实体识别层以及缓解错误传递问题。基于ACE 2005中文嵌套命名实体数据集的实验结果表明,该模型具有较好的性能。  相似文献   

4.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。  相似文献   

5.
针对如何从开源网络安全报告中高效挖掘威胁情报的问题,提出了一种基于威胁情报命名实体识别(Threat Intelligence Named Entity Recognition, TI-NER)算法的威胁情报挖掘(TI-NER-based Intelligence Mining, TI-NER-IM)方法。首先,收集了近10年的物联网安全报告并进行标注,构建威胁情报实体识别数据集;其次,针对传统实体识别模型在威胁情报IoC攻击指示器挖掘领域的不足,提出了基于自注意力机制和字符嵌入的威胁情报实体识别(Threat Intelligence Entity Identification based on Self-attention Mechanism and Character Embedding, TIEI-SMCE)模型,该模型融合字符嵌入信息,再通过自注意力机制捕获单词间潜在的依赖权重、语境等特征,从而准确地识别威胁情报IoC实体;然后,基于TIEI-SMCE模型,提出了一种威胁情报命名实体识别算法;最后,集成上述模型和算法,进一步提出了一种新的威胁情报挖掘方法。TI-NER-IM方...  相似文献   

6.
中文自然语言文本中实体边界区分难、语法复杂度大,中文命名实体识别(NER)难度往往比英文命名实体识别大。针对中文NER中分词误差传播的问题,提出一种基于相互学习和SoftLexicon的中文命名实体识别模型MM-SLLattice。首先,向字级别表示的句子中加入词信息的模型;然后,在词信息的引入过程中通过结合开放词典与领域词典信息来提高模型的精度;最后,在训练过程中,引入了深度相互学习减小泛化误差提高模型的性能。实验结果表明,该模型在不同类型的中文数据集的实体识别能力有提升,MM-SLLattice在MSRA数据集上F1值为94.09%,比独立网络提高了0.41个百分点,对比实验中F1值也优于其他主流模型协同图形网络(CGN)、卷积注意力网络(CAN)、LR-CNN。所提模型可以更精确地提取中文实体。  相似文献   

7.
韩玉民  郝晓燕 《计算机应用》2022,42(6):1862-1868
准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域,然而面向材料领域的NER研究相对较少。针对材料领域NER中可用于监督学习的数据集规模小、实体词复杂度高等问题,使用大规模非结构化的材料领域文献数据来训练基于一元语言模型(ULM)的子词嵌入分词模型,并充分利用单词结构蕴含的信息来增强模型鲁棒性;提出以BiLSTM-CRF模型(双向长短时记忆网络与条件随机场结合的模型)为基础并结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型,以提高对关键词的敏感程度。得到的BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固体氧化物燃料电池(SOFC)NER数据集上的宏平均F1值(Macro F1值)提高了2~4个百分点,在SOFC细粒度实体识别数据集上的Macro F1值提高了3~8个百分点。实验结果表明,基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准确率。  相似文献   

8.
命名实体识别(NER)被视为自然语言处理中的一项基础性研究任务。受计算机视觉中单阶段(one-stage)目标检测算法启发,借鉴其算法思想并引入回归运算,提出有效识别嵌套命名实体的端到端方法。基于多目标学习框架,利用深度神经网络将句子转换为文本特征图以回归预测嵌套实体边界,设计中心度方法抑制低质量边界。与多种方法在ACE2005中文数据集上进行对比实验。实验结果表明,该方法有效识别文本中的嵌套命名实体,且计算机视觉算法思想和边界回归机制在自然语言处理任务中取得理想的效果。  相似文献   

9.
命名实体识别(NER)是自然语言处理领域的一个重要任务,用于在文本中识别实体并将其分类为预定义的类型。乌兹别克语(简称乌语)命名实体识别在国内外相关研究中处于初级阶段,目前为止尚没有公开、通用的乌语命名实体识别数据集,导致了乌语命名实体识别的进展受到了限制。该文旨在构建一个基于乌兹别克语新闻文本的NER数据集,收集了500篇乌兹别克语新闻文章,并人工标注了其中的人名、地名和组织机构名。随后,利用实体命名识别的主流深度学习模型在该数据集上进行了实验与比较分析。实验结果表明,主流深度学习模型的F1值均在90%以上,证明了该文构建的数据集的有效性和可用性。该文旨在推动乌语命名实体识别领域的研究发展,为该领域提供数据集和基线模型,以扩展相关研究。  相似文献   

10.
中文命名实体识别(CNER)任务是问答系统、机器翻译、信息抽取等自然语言应用的基础底层任务。传统的CNER系统借助人工设计的领域词典和语法规则,取得了不错的实验效果,但存在泛化能力弱、鲁棒性差、维护难等缺点。近年来兴起的深度学习技术通过端到端的方式自动提取文本特征,弥补了上述不足。该文对基于深度学习的中文命名实体识别任务最新研究进展进行了综述,先介绍中文命名实体识别任务的概念、应用现状和难点,接着简要介绍中文命名实体识别任务的常用数据集和评估方法,并按照主要网络架构对中文命名实体识别任务上的深度学习模型进行分类和梳理,最后对这一任务的未来研究方向进行了展望。  相似文献   

11.
随着深度学习技术的应用,自然语言处理领域得到快速发展,为提高中文命名实体识别效果,提出一种新的方法,利用英文模型抽取信息辅助中文命名实体识别。该方法使用翻译模型将中文翻译为英文,然后利用英文命名实体识别模型抽取特征,再利用翻译模型的注意力权重进行信息迁移,将预训练的英文命名实体识别模型提取的特征用于中文命名实体识别。该方法可以将训练模型中得到的任务相关特征进行迁移,从而丰富原始数据的语义表示。在两个中文命名实体识别数据集上的实验表明,该方法优于其他现有方法。  相似文献   

12.
提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法.该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别.识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息.实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能...  相似文献   

13.
命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。  相似文献   

14.
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。  相似文献   

15.
新能源汽车命名实体存在实体边界模糊,多为未登录词,现存标注样本较少等问题,识别精确率和召回率较低。据此,提出了一种基于多通道神经网络(Multiple Channel Neural Network,MCNN)的新能源汽车实体识别模型,该模型融合了字词特征和片段特征,不再将实体识别当作传统的序列标注任务,利用半马尔科夫条件随机场(Semi-Markov CRF,SCRF)针对片段特征建模,对输入的句子切分片段并对片段整体分配标记,同时完成实体边界的识别和实体分类,弥补了传统字词序列标注模型采用局部标记区分实体边界的不足。为解决现存标注样本较少的问题,在训练模型的过程中,引入了一种基于不确定性和相似度相结合的主动学习(Active Learning,AL)。通过多组对比实验表明,该模型在大幅度减少人工标注量的同时,能够提高识别精确率和召回率。  相似文献   

16.
命名实体识别研究   总被引:9,自引:4,他引:5  
命名实体识别是文本信息处理的重要基础,已经逐步成为自然语言处理的一项关键技术。其基于规则、统计、机器学习的研究方法及成果,都推动了自然语言处理研究的发展,促进了自然语言研究与应用的紧密结合。本文回顾了命名实体识别技术的发展过程,分析了主要的方法和技术,并展望了未来的发展趋势。  相似文献   

17.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

18.
部队机构名的识别是军事信息处理领域的一项重要课题,也是命名实体识别研究的重要内容之一。部队机构名识别的难点主要在于其结构的复杂性,这些复杂的结构是有规律可循的,并可以将其总结成若干的固定模式。该研究正是通过总结部队机构名的构成模式,从而制定出基于构成模式的识别方法。设计并实现一个基于构成模式的部队机构名自动识别程序,通过真实语料对系统进行评测,取得较好的效果。  相似文献   

19.
张栋  陈文亮 《计算机科学》2021,48(3):233-238
命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类。由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据。为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能。同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统。把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示。文中在6个中文NER数据集上进行了实验。实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%。对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号