首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于医疗类别的电子病历命名实体识别研究   总被引:2,自引:2,他引:0  
基于电子病历命名实体识别对智慧医疗和医疗知识图谱的构建具有重要意义,提出一种基于医疗类别的命名实体识别方法。首先,针对电子病历语料中实体特点进行深度挖掘,将电子病历分为4类医疗类别;然后,对各医疗类别分别构建特征集,并使用条件随机场模型对身体部位、症状和体征、检查与检验、疾病与诊断、治疗等5类命名实体进行命名实体识别;最后,将基于医疗类别特征集识别效果和通用特征集的识别结果进行对比。实验结果表明,基于医疗类别的电子病历命名实体识别效果显著提升,可以满足应用需求。  相似文献   

2.
随着电子病历数据量的快速增长,如何深层次、高效率地利用电子病历资源成为越来越迫切需要解决的问题. 从真实病历出发,研究电子病历的医学实体识别问题,为计算机更好地辅助医疗奠定基础. 通过人工标注的108份心血管科的真实病历数据与3类特征模板,运用条件随机场和双向长短时记忆网络联合条件随机场对心血管科电子病历疾病命名实体抽取的实验,并进行比较分析. 结果表明,结合合适的特征模版,条件随机场模型有更好的抽取性能,是一种较为适用的病历命名实体抽取方法.  相似文献   

3.
命名实体识别作为信息抽取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在法院判决书信息抽取系统中也得到了广泛应用。然而,已有的技术模型在文本中存在大量专有名词或术语时,实体识别的提取效果会变得很差。双向循环神经网络—条件随机场判别模型可对现有的法院判决书条件随机场模型进行优化,实现自动化特征的选取过程,准确率比已有的条件随机场模型更高。  相似文献   

4.
医疗病历命名实体识别的主要任务是将临床电子病历中的非结构化文本转化为结构化数据,进而为面向医疗领域任务开展的数据挖掘提供基础支撑. 提出一种基于ALBERT模型融合学习的中文医疗病历命名实体识别模型. 首先,采用人工标注方式扩展样本数据集,结合ALBERT模型对数据集进行微调; 其次,采用双向长短记忆网络(BiLSTM)提取文本的全局特征; 最后,基于条件随机场模型(CRF)命名实体的序列标记. 在标准数据集上的实验结果表明,该方法进一步提高了医疗文本命名识别精度,减少了时间开销.  相似文献   

5.
为提高中文语音合成的自然度,对文本的韵律结构体系进行研究,并提出一种基于条件随机场(CRF)的韵律结构预测方法. 从一个大规模人工标注的语料库中,选取由机器生成的分词标注特征和分级的韵律边界信息,利用CRF算法进行机器学习产生韵律词和韵律短语的CRF模型,并用于韵律结构的预测中. 实验结果表明,韵律词和韵律短语的F-score分别达到90.67%和80.05%,相比于基于最大熵(ME)模型的韵律结构预测方法分别提高了3.62%和5.65%,同时准确率和召回率也有较大提高.  相似文献   

6.
命名实体识别是自然语言处理中一项重要的基础任务,本文提出一种简单、新颖的深层循环神经网络的命名实体识别(Named Entity Recognition,NER)方法。使用一种稠密连接的方式(Dense connection,DC)在多层的双向长短期记忆神经网络(bi-directional long short-term memory, Bi-LSTM)之间传递信息,称这种网络结构为DC-BiLSTM。利用DC-BiLSTM来学习句子特征,并采用自注意力机制(self-attention)来捕捉任意两个标记之间的关系,最后使用条件随机场(CRF)对整个句子进行解码预测。实验表明结果,该方法在MSRA语料上平均F1值能达到91.81%,最高F1值能达到92.05%。  相似文献   

7.
微博文本语法不规范且多由短语组成,严重影响了现有针对规范、长句文本设计的命名实体识别算法的性能.针对上述问题,本文提出了一种融合词性信息的微博文本命名实体识别模型.该模型通过分词工具提取词性信息,将词性信息作为特征与单词嵌入向量结合后输入双向长短期记忆神经网络,最后使用条件随机场对神经网络输出进行解码,从而实现词性特征辅助命名实体识别.实验结果表明,融合词性信息的命名实体识别模型,显著提高了微博文本命名实体识别的准确率.相比于其它模型,该模型F1值提高了1. 88%.  相似文献   

8.
针对人体行为的时变性,提取人体运动的侧影序列作为描述行为的特征。利用条件随机场方法建立人体行为模型,并通过序列数据的标记解决行为识别问题。该方法特征提取简单,针对运动状态序列而非单帧图像进行建模,提高了识别准确率;同时对数据没有条件独立性假设,具有更加广泛的适用性。在视频行为数据库KTH上的测试结果表明:条件随机场优于隐马尔可夫模型和支持向量机,相对于已有方法更加简单易用,且识别准确率高于其他方法。  相似文献   

9.
针对中医领域,提出了一种基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取.选择<名医类案>作为中医领域文本进行术语抽取实验,取得了较好的效果,准确率为83.11%,召回率为81.04...  相似文献   

10.
段艳会    李晓林    黄爽   《武汉工程大学学报》2015,37(11):47-51
为了在非规范中文地址中有效的提取行政区划信息,提出了一种基于条件随机场的方法. 该方法根据中文地址中行政区划的表达特点和特征,采用判别式概率模型,在观测序列已知的基础上对目标序列建模,通过构建语料训练集和建立相应的特征模板,得到行政区划的表达模型,然后使用该模型对测试集进行测试,并与标注好的测试数据进行比对,验证模型的性能. 实验表明,与最大熵模型相比,条件随机场模型总的性能指标在其之上,地址信息解析的准确率能达到89.93%.  相似文献   

11.
级联中文组块识别   总被引:1,自引:0,他引:1  
基于统计方法的中文组块研究大多借鉴CoNLL2000英文组块的思想,建立了组块表示的BIO模型,并将组块识别任务作为一种为词序列标注的多分类问题.为降低分类复杂度,采取了一种分解识别法,即先识别组块的边界,再进行组块类别判定.基于条件随机场(CRF)构建了级联组块识别器,实验数据集采用宾州大学中文树库(CTB5.1).在特征选择上,借鉴了中文分词特征选择的方法.5倍交叉验证的实验结果为:组块边界识别的F1值为95.05%;类型识别的准确率为99.43%;整体F1值为93.58%.该方法提高了系统性能,缩短了学习器的训练时间.  相似文献   

12.
针对互联网文本形式多样化造成的有效信息提取难度增加(尤其是命名实体识别方面)的问题,提出了一种统计和规则相结合的互联网文本命名实体识别方法。首先进行文本规范化,然后使用CRF模型,以词及词性作为特征进行训练,结合互联网文本的日常性、随意性和娱乐性等特点,以及若干匹配规则对文本进行命名实体识别。实验结果表明,该方法的准确率、召回率和F值分别达到了94.76%、85.34%、89.80%,能够有效地进行命名实体识别。  相似文献   

13.
对于视觉场景的理解是机器人在未知环境中进行有目的的行动的一项重要能力,图像语义分割能够有效地帮助机器人理解周围场景的语义特性.条件随机场(Conditional Random Field,CRF)是解决语义分割问题的一个重要框架.针对传统条件随机场相邻节点数过于稀疏的局限性,研究了具有稀疏高阶势CRF的图像语义分割算法,提出一种高阶CRF的二次规划(quadratic programming,QP)松弛推理算法.首先,使用来自TextonBoost的一元势、高斯二元势以及由Pn-Potts模型推导得到的高阶势建立能量函数,然后利用高效的QP松弛推理算法来解决高阶CRF的能量最小化问题,最后采用Pascal VOC2012公开数据集进行实验,验证算法的可行性与有效性.实验证明,该算法有效地克服了传统条件随机场局限性,获得了更好的语义分割结果.  相似文献   

14.
针对中文医疗电子病历命名实体识别中,传统的字或词向量无法很好地表示上下文语义以及传统RNN并行计算能力不足等问题,提出了一个基于BERT的医疗电子病历命名实体识别模型。该模型中的BERT预训练语言模型可以更好地表示电子病历句子中的上下文语义,迭代膨胀卷积神经网络(IDCNN)对局部实体的卷积编码有更好的识别效果,多头注意力(MHA)多次计算每个字和所有字的注意力概率以获取电子病历句子的长距离依赖。实验结果表明,BERT-IDCNN-MHA-CRF模型能够较好地识别电子病历中的医疗实体,模型的精确率、召回率和F_1值相比于基线模型分别提高了1.80%,0.41%,1.11%。  相似文献   

15.
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大。为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法。首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别。实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%。  相似文献   

16.
为了解决在中文电子病历命名实体识别任务中,基于字符粒度 NER 方法对序列信息遗漏的 问题,以及引入外部词典资源方法所带来的运算效率问题,提出一种基于 SoftLexicon 的医疗实体识别模 型。首先,将输入序列中的每个字符映射到一个稠密向量中;接下来,引入外部词典资源,为每个字符构造 SoftLexicon特征,并将其添加到对应的字向量表示中;然后,将这些增强的字符表示放入Bi-LSTM和CRF层, 以获得最终的识别结果。该模型既能有效捕捉句子序列中字符的特征,提取上下文之间的依赖关系,又能实 现标签预测的顺序性。以 CCKS-2020 医疗命名实体识别评测任务提供的电子病历数据作为实验数据集,实 验结果表明,与基于字符粒度的传统 NER 方法相比,所提方法在实体识别性能和效率上都显著提高。  相似文献   

17.
针对汽车领域命名实体识别中汽车属性名识别的准确率和召回率较低的问题,提出了一种基于本体特征的汽车领域命名实体识别方法。通过扩展现有叙词表,基于叙词表构建汽车领域本体,提取语料中的本体特征,利用CRFs模型对汽车领域命名实体进行识别。实验结果表明,本体特征能够有效地识别出汽车属性实体,准确率、召回率和F值分别为75.60%,66.12%和70.54%。  相似文献   

18.
基于CRFs的多策略生物医学命名实体识别   总被引:1,自引:0,他引:1  
生物医学命名实体识别是生物医学文本挖掘的基本任务。机器学习方法是生物医学命名实体研究的主流方法,选取有效的机器学习算法和采取有效的识别策略是提高生物医学命名实体识别性能的关键,鉴于条件随机域算法在自然语言处理领域的优势,本文采用该算法并结合多种识别策略对生物医学命名实体识别进行研究。实验取得了良好的效果,F测度达到了70.52%,与其它相关系统比较,识别性能有了明显提高。  相似文献   

19.
论述了近年来国内外在常规命名实体识别方面研究工作的进展状况,针对其中最为关键的产品命名实体识别技术,考虑到领域本体对产品命名实体识别的支持,提出了将本体特征融入到统计模型中,结合词性特征、上下文特征,以及本体特征的多特征模型进行产品命名实体识别实验,实验结果证明,该方法能有效地提高产品命名实体识别的性能。  相似文献   

20.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号