首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

2.
信息抽取研究综述   总被引:3,自引:2,他引:1  
郭喜跃  何婷婷 《计算机科学》2015,42(2):14-17,38
信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。随着互联网应用的发展,其价值也正日益显现,学术界和工业界对此都寄予厚望。首先回顾了信息抽取的发展历程;接着从命名实体识别、指代消解、关系抽取和事件抽取4个方面总结了信息抽取关键技术的研究进展;然后分析了信息抽取目前面临的若干主要问题;最后对信息抽取的研究趋势作了预测。  相似文献   

3.
电子病历(EMRs)中包含着丰富的信息,如临床症状、诊断结果和药物疗效.命名实体识别(Named Entity Recognition,NER)旨在从非结构化文本中抽取命名实体,这也是从电子病历中抽取有价值信息的初始步骤.本文提出一种基于预训练模型RoBERTa-WWM (A Robustly Optimized BE...  相似文献   

4.
信息抽取在电子病历上的应用取得丰富的研究成果,使得非结构化的生物医学数据得以利用。关系抽取是信息抽取的重要子任务,是从数据转化为知识的桥梁。根据关系抽取存在的不同问题以及不同解决方案,对关系抽取进行详细分类。整理了电子病历关系抽取领域的相关评测任务和具有代表性的数据集。分阶段对关系抽取在电子病历文本上的应用进展进行综述,重点介绍了深度学习方法在关系抽取上的广泛应用,以及现阶段预训练模型在电子病历关系抽取任务上的进展。对该领域进行展望,提出了未解决的问题以及未来的研究方向。  相似文献   

5.
信息抽取研究综述   总被引:89,自引:8,他引:89  
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。  相似文献   

6.
电子病历命名实体识别(named entity recognition,NER)旨在识别电子病历文本中的医疗实体,并将其归为预定义的医疗实体类别,为进一步的医疗关系抽取、医疗信息检索、医疗智能问答等自然语言处理任务提供支持。系统梳理了电子病历命名实体识别的定义、标注方法、评价指标及难点;从电子病历命名实体识别难点及技术发展历程两个角度,综述了每类电子病历命名实体识别方法的优势与不足;详细梳理了国内医疗领域命名实体识别的评测任务及数据集;详细讨论和总结电子病历命名实体识别每一类难点的解决方案;总结全文并展望了医疗领域命名实体识别的发展方向。  相似文献   

7.
电子病历中包含着医疗领域的丰富知识,对于医疗健康信息服务有着重要的意义。其中的概念实体之间的关系是医疗知识的重要组成部分,对于获取医疗领域中疾病、治疗、检查之间关系有着重要的意义。针对于电子病历中文本结构稀疏的特点,原有的基于词的特征表示效果有限,所以从特征选择的角度出发,提出了一种基于深度学习的特征学习,将有限的上下文特征进行进一步抽象表示的方法。实验中使用深度稀疏自动编码来对实体上下文的向量表示进行再表示,来得到更抽象和更有识别意义的特征。实验表明,本文使用的深度学习进行特征的再表示方法对于识别的召回率对比于基线实验有比较明显的提高。  相似文献   

8.
电子病历(EMR)是医疗信息快速发展的产物,目前以非结构化文本形式存储。通过使用自然语言处理(NLP)技术,在非结构化文本中提取出大量医学实体,将有助于提升医务人员查阅病历效率,同时识别的成果也将辅助于接下来的关系提取和知识图谱构建等研究。介绍常用的若干个数据集、语料标注标准和评价指标。从早期传统方法、深度学习方法、预训练模型、小样本问题处理四个方面详细阐述电子病历命名实体识别方法,对比分析各模型自身的优势及局限性。探讨了目前研究的不足,并对未来发展方向提出展望。  相似文献   

9.
自然语言处理技术已用于非结构化中文电子病历信息抽取,并且新的算法或模型不断出现,但其应用效果的证据较少。共收集北京某大型三甲综合医院呼吸专科住院电子病历38 218份,通过对数据预处理,抽象文本特征与定义语法规则,产生训练数据集和测试集,构建层叠条件随机场模型,并评估该模型的识别效果。结果表明,针对入院记录、出院记录、辅助检查报告3大类共39种非结构化文本,该模型可准确、快速地处理病历文本信息,应用效果较为理想。  相似文献   

10.
针对目前国内油田信息抽取系统中文信息抽取不准确的现状,提出了更为准确的基于油田的中文信息抽取的解决方案。在GA T E框架下,开发中文信息抽取插件,解决了基于油田的中文分词、中文语料词表和中文命名实体识别,并在企业实际中进行了应用,取得了较好的应用效果,并为后续的油田信息抽取技术研究提供了研究基础。  相似文献   

11.
针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法.该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则.实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性.  相似文献   

12.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

13.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

14.
中文电子病历中的时间关系包括句内时间关系和句间时间关系,其中,句内时间关系包括句内事件-事件的时间关系和句内事件-时间的时间关系,句间时间关系即是句间事件-事件的时间关系。把中文电子病历文本中的时间关系识别转化成实体对分类问题,针对句内时间关系的识别,制定了高准确率的启发式规则,并设计了基本特征、短语句法特征、依存特征和其他特征,训练分类器缓解句内时间关系的识别错误;针对句间时间关系的识别,在高准确率的启发式规则之外,设计了基本特征、短语句法特征和其他特征,训练分类器减少句间时间关系的识别错误。实验结果表明,当分别使用支持向量机(SVM)、SVM和随机森林(RF)算法时,所提方法在句内事件-事件、句内事件-时间和句间事件-事件的时间关系识别上的效果最好,其F1值分别达到了84.0%、85.6%和63.5%。  相似文献   

15.
电子病历结构化可以理解为在自由文本中找到合适的关键字,目前在自由文本中提取关键字的方法有实体识别和中文分词,但由于电子病历结构化是要在多种语义关联下找合适的关键字,而实体识别和中文分词不能达到其目标。因此根据已有的结构元素数据库建立倒排索引找到一组最合适的简单元素组合,利用多目标动态规划进行最优化组合,利用求交集方法找到复杂元素从而找出最优的一组序列即为该电子病历的结构化。通过系统实现得到利用该方法不仅可以找到结构元素,而且找到的结构元素之间有一定的语义关联。  相似文献   

16.
中文电子病历命名实体和实体关系语料库构建   总被引:1,自引:0,他引:1  
电子病历是由医务人员撰写的面向患者个体描述医疗活动的记录,蕴含了大量的医疗知识和患者的健康信息.电子病历命名实体识别和实体关系抽取等信息抽取研究对于临床决策支持、循证医学实践和个性化医疗服务等具有重要意义,而电子病历命名实体和实体关系标注语料库的构建是首当其冲的.在调研了国内外电子病历命名实体和实体关系标注语料库构建的基础上,结合中文电子病历的特点,提出适合中文电子病历的命名实体和实体关系的标注体系,在医生的指导和参与下,制定了命名实体和实体关系的详细标注规范,构建了标注体系完整、规模较大且一致性较高的标注语料库.语料库包含病历文本992份,命名实体标注一致性达到0.922,实体关系一致性达到0.895.为中文电子病历信息抽取后续研究打下了坚实的基础.  相似文献   

17.
准确的命名实体识别是结构化电子病历的基础,对于电子病历规范化编写有着重要的作用,而现今的分词工具对于专业的医疗术语无法做到完全正确的区分,使得结构化电子病历难以实现.针对医疗实体识别中出现的问题,本文提出了一种在命名实体识别领域中改进的BiLSTM-CRF深度学习模型.模型将文字和标签结合作为输入,在多头注意力机制中使模型关注更多的有用信息, BiLSTM对输入进行特征提取,得到每个文字在所有标签上的概率, CRF在训练过程中学习到数据集中的约束,进行解码时可以提高结果的准确率.实验使用人工标注的1 000份电子病历作为数据集,使用BIO标注方式.从测试集的结果来看,相对于传统的BiLSTM-CRF模型,该模型在实体类别上的F1值提升了3%–11%,验证了该模型在医疗命名实体识别中的有效性.  相似文献   

18.
针对煤矿领域知识抽取中存在的术语嵌套、一词多义,抽取任务间存在误差传播等问题,提出了一种深层注意力模型框架。首先,使用标注策略联合学习两项知识抽取子任务,以解决误差传播的问题;其次,提出结合多种词向量信息的投影方法,以缓解煤矿领域术语抽取中的一词多义的问题;然后,设计深度特征提取网络,并提出深层注意力模型及两种模型增强方案来充分提取语义信息;最后,对模型的分类层进行研究,以在保证抽取效果的前提下最大限度地简化模型。实验结果表明,在煤矿领域语料上,相较于编码-解码结构的最好模型,所提模型的F1值有了1.5个百分点的提升,同时模型训练速度几乎提高至原来的3倍。该模型可有效地完成煤矿领域术语抽取以及术语关系抽取这两项知识抽取子任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号