首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。  相似文献   

2.
李廷元  杨勇 《现代计算机》2022,(15):81-84+120
随着深度学习的发展,基于深度学习的命名实体识别抽取过程中,作为基础步骤的预训练模型也愈发受到重视。中文预训练语言模型能够更好地结合语义语境,更加充分地考虑到一词多义的情况,因此该语言模型目前也普遍应用于命名实体识别任务。文中首先介绍了BERT、ERNIE、NEZHA三种预训练模型,之后构建预训练模型、BiGRU及CRF的算法模型,在阿里中文地址要素解析比赛数据集上进行中文地址命名实体识别任务。实验结果表明,NEZHA取得当前预训练语言模型最优的识别结果。  相似文献   

3.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

4.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

5.
为了改善中文电子病历命名实体识别模型的性能,本文提出了基于BERT、双向门控循环单元(Bidirectional Gate Recurrent Unit, BiGRU)与条件随机场CRF相结合的中文电子病历命名实体识别模型,并在此基础上引入了注意力机制.利用BERT(Bidirectional Encoder Representation from Transformers)预训练模型得到结合语境信息的动态字向量,通过双向门控循环单元(Bidirectional Gate Recurrent Unit, BiGRU)提取全局语义特征,利用注意力机制获得增强语义特征,最后通过CRF(Conditional Random Field)解码输出概率最大的全局最优标签序列.利用含有解剖部位、手术、疾病和诊断、药物、实验室检验、影像检查6类实体的CCKS19中文电子病历数据集训练模型.对比实验表明了本文提出的命名实体识别模型的有效性,本文模型在CCKS19数据集上获得了84.11%的F1值.  相似文献   

6.
针对中文电子病历中医疗嵌套实体难以处理的问题, 本文基于RoBERTa-wwm-ext-large预训练模型提出一种知识增强的中文电子病历命名实体识别模型ERBEGP. RoBERTa-wwm-ext-large采用的全词掩码策略能够获得词级别的语义表示, 更适用于中文文本. 首先结合知识图谱, 使模型学习到了大量的医疗实体名词, 进一步提高模型对电子病历实体识别的准确性. 然后通过BiLSTM对电子病历输入序列编码, 能够更好捕获病历的中上下语义信息. 最后利用全局指针网络模型EGP (efficient GlobalPointer)同时考虑实体的头部和尾部的特征信息来预测嵌套实体, 更加有效地解决中文电子病历命名实体识别任务中嵌套实体难以处理的问题. 在CBLUE中的4个数据集上本文方法均取得了更好的识别效果, 证明了ERBEGP模型的有效性.  相似文献   

7.
8.
电子病历命名实体识别(named entity recognition,NER)旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。  相似文献   

9.
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等...  相似文献   

10.
为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM-CRF的命名实体识别方法.将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过C RF层找到句子最适合的输出标签序列,从而确定命名实体.采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点.  相似文献   

11.
为弥补现有方法不能很好捕获电子病历实体之间的长距离依赖关系的缺陷,提出一种结合自注意力的BiLSTM-CRF的命名实体识别方法.将输入文本转成神经网络可识别的数值形式;经过BiLSTM网络并结合自注意力计算得到每个字的输出特征向量;通过C RF层找到句子最适合的输出标签序列,从而确定命名实体.采用CCKS2018数据集进行实验,结果表明,改进的命名实体识别方法对电子病历具有一定的适应性,且与现有的方法相比,测试集的准确率提高了6.50~9.25个百分点.  相似文献   

12.
电子病历实体识别是智慧医疗服务中一项重要的基础任务,当前医院诊疗过程中采用人工分析病历文本的方法,容易产生关键信息遗漏且效率低下。为此,提出一种结合BERT与条件随机场的实体识别模型,使用基于双向训练Transformer的BERT中文预训练模型,在手工标注的符合BIOES标准的语料库上微调模型参数,通过BERT模型学习字符序列的状态特征,并将得到的序列状态分数输入到条件随机场层,条件随机场层对序列状态转移做出约束优化。BERT模型具有巨大的参数量、强大的特征提取能力和实体的多维语义表征等优势,可有效提升实体抽取的效果。实验结果表明,论文提出的模型能实现88%以上的实体识别F1分数,显著优于传统的循环神经网络和卷积神经网络模型。  相似文献   

13.
14.
琚生根  李天宁  孙界平 《软件学报》2021,32(8):2545-2556
细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息融入预测句子的字符表示中....  相似文献   

15.
针对传统方法在中文电子病历实体抽取任务中存在对词典和分词工具过于依赖,无法充分利用上下文特征等问题,本文提出一种基于字嵌入卷积(CNN)、双向门控循环单元(BGRU)和条件随机场(CRF)结合的中文电子病历实体抽取模型。首先利用字嵌入方法提取出潜在词特征,然后在使用字词特征联合方式的同时使用注意力机制突出特定的信息,最后通过合理性约束得到最终结果。该模型充分使用了字词特征避免了实体抽取受错误分词的影响,并且减少了人工构造特征的过程,提高了实体抽取效率。实验结果表明,该模型在诊断名称、症状名称、治疗方式类别的实体抽取中,F值表现优于传统的Bi-LSTM-CRF模型。  相似文献   

16.
电子病历(EMR)是医疗信息快速发展的产物,目前以非结构化文本形式存储。通过使用自然语言处理(NLP)技术,在非结构化文本中提取出大量医学实体,将有助于提升医务人员查阅病历效率,同时识别的成果也将辅助于接下来的关系提取和知识图谱构建等研究。介绍常用的若干个数据集、语料标注标准和评价指标。从早期传统方法、深度学习方法、预训练模型、小样本问题处理四个方面详细阐述电子病历命名实体识别方法,对比分析各模型自身的优势及局限性。探讨了目前研究的不足,并对未来发展方向提出展望。  相似文献   

17.
随着电子病历在医疗领域的推广应用,越来越多的研究者关注如何高效地从电子病历中抽取高价值科研信息.CHIP2018将中文电子病历临床医疗命名实体识别作为评测任务,即从中文电子病历中抽取三种恶性肿瘤相关的实体.结合三种实体的特点和实体间的依赖关系,提出基于多神经网络协作的复杂医疗命名实体识别方法,并实现了句子级别的模型迁移...  相似文献   

18.
命名实体识别是自然语言处理的基本任务之一。针对中文电子病历命名实体识别传统模型识别效果不佳的问题,提出一种完全基于注意力机制的神经网络模型。实验采用自建真实中文电子病历数据集并对数据集进行人工标注、分词等预处理;对Transformer模型进行训练优化,以提取文本特征;利用条件随机场对提取到的文本特征进行分类识别。为验证所提方法的有效性,将构建的Transformer-CRF神经网络模型与其他7种传统模型进行比较研究,实验采用精确率、召回率和[F1]值三个指标评估模型的识别性能。实验结果显示,在同一语料集下,Transformer-CRF模型对身体部位类的命名实体识别效果较好,[F1]值高达95.02%;且与其他7种传统模型相比,Transformer-CRF模型的精确率、召回率和[F1]值均较高,在一定程度上验证了所构建模型具有较好的识别性能。  相似文献   

19.
命名实体识别(named entity recognition,NER)是自然语言处理中最基本的任务之一,其主要内容是识别自然语言文本中具有特定意义的实体类型和边界。然而,中文命名实体识别(Chinese named entity recognition,CNER)的数据样本存在词边界模糊、语义多样化、形态特征模糊以及中文语料库内容较少等问题,导致中文命名实体识别性能难以大幅提升。介绍了CNER的数据集、标注方案和评价指标。按照CNER的研究进程,将CNER方法分为基于规则的方法、基于统计的方法和基于深度学习的方法三类,并对近五年来基于深度学习的CNER主要模型进行总结。探讨CNER的研究趋势,为新方法的提出和未来研究方向提供一定参考。  相似文献   

20.
随着各国政府对健康医疗信息系统的投入,电子病历信息挖掘得到越来越多学者的关注。与传统的文本相比,电子病历有其自身的特点.。在2010年i2b2举办的评测中,概念抽取任务最好系统的F值为0.8523,与传统的命名实体识别效果有一定差距。使用了CRF、最大熵两种模型建立了baseline系统并且使用堆积策略综合两者的结果,使得系统的F值达到了91.1%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号