首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
侯旭东  滕飞  张艺 《计算机应用》2022,42(9):2686-2692
针对在医疗命名实体识别(MNER)问题中随着网络加深,基于深度学习的识别模型出现的识别精度与算力要求不平衡的问题,提出一种基于深度自编码的医疗命名实体识别模型CasSAttMNER。首先,使用编码与解码间深度差平衡策略,以经过蒸馏的Transformer语言模型RBT6作为编码器以减小编码深度以及降低对训练和应用上的算力要求;然后,使用双向长短期记忆(BiLSTM)网络和条件随机场(CRF)提出了级联式多任务双解码器,从而完成实体提及序列标注与实体类别判断;最后,基于自注意力机制在实体类别中增加实体提及过程抽取的隐解码信息,以此来优化模型设计。实验结果表明,CasSAttMNER在两个中文医疗实体数据集上的F值度量可分别达到0.943 9和0.945 7,较基线模型分别提高了3个百分点和8个百分点,验证了该模型更进一步地提升了解码器性能。  相似文献   

2.
传统的命名实体识别方法是将大量手工制定的特征输入到统计学习模型中以实现对词语的标记,能够取得较好的效果,但其手工特征制定的方式增加了模型建立的难度。为了减轻传统方法中手工特征制定的工作量,首先对神经网络语言模型进行无监督训练以得到词语特征的分布式表示,然后将分布式的特征输入到深度信念网络中以发现词语的深层特征,最后进行命名实体识别。该方法在前人研究的基础上利用深度信念网络对神经网络语言模型进行了扩展,提出了一种可用于命名实体识别的深层架构。实验表明,在仅使用词特征和词性特征的条件下,该方法用于命名实体识别的性能略优于基于条件随机场模型的方法,具有一定的使用价值。  相似文献   

3.
为了改善传统基于阅读理解的命名实体识别方法存在的缺陷,提出一种基于注意力的阅读理解实体识别方法。该方法首先通过来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型对实体类型的问题语句和待处理的文本进行编码,其次使用注意力网络关联二者,最后通过Span网络进行序列解码,提取出相应的实体类型。实验结果表明,该方法的F1值大于对照组的F1值,能够更准确地判断实体类型。  相似文献   

4.
命名实体识别指识别文本中具有特定意义的实体,是自然语言处理诸多下游任务的重要基石。在命名实体识别任务中,协同图网络(CGN)模型通过引入多个图注意力网络获得较强的知识整合能力及较高的处理速度,但CGN模型在嵌入层中没有充分利用词边界信息,且采用的传统静态图注意力网络影响了图注意力的表达能力。在对CGN模型的图注意力网络进行改进的基础上,提出一种中文命名实体识别新模型,在嵌入层融入词语的分词信息,以生成包含词边界信息的字向量,从而充分利用词边界信息。通过在编码层使用BiLSTM模型获取文本的上下文信息,采用改进后的图注意力网络提取文本特征,并通过优化传统图注意力网络中相关系数的计算方式,增强模型的特征提取能力。最后,利用条件随机场对文本进行解码,从而实现对实体的标注。实验结果表明,该模型相比CGN模型在MSRA、OntoNotes4.0、Weibo数据集上的F1值分别提升了0.67%、3.16%、0.16%,验证了其在中文命名实体识别任务上的有效性。  相似文献   

5.
实体识别是信息提取的子任务,传统实体识别模型针对人员、组织、位置名称等类型的实体进行识别,而在现实世界中必须考虑更多类别的实体,需要细粒度的实体识别.同时,BiGRU等传统实体识别模型无法充分利用更大范围内的全局特征.文中提出了一种基于命名记忆网络和BERT的实体识别模型,记忆网络模块能够记忆更大范围的特征,BERT语言预训练模型能进行更好的语义表示.对水泥熟料生产语料数据进行实体识别,实验结果表明,所提方法能够识别实体且较其他传统模型更具优势.为了进一步验证所提模型的性能,在CLUENER2020数据集上进行实验,结果表明,在BiGRU-CRF模型的基础上使用BERT和记忆网络模块进行优化是能够提高实体识别效果的.  相似文献   

6.
命名实体识别是自然语言处理领域中信息抽取、信息检索、知识图谱等任务的基础。在命名实体识别任务中,Transformer编码器更加关注全局语义,对位置和方向信息不敏感,而双向长短期记忆(BiLSTM)网络可以提取文本中的方向信息,但缺少全局语义信息。为同时获得全局语义信息和方向信息,提出使用注意力机制动态融合Transformer编码器和BiLSTM的模型。使用相对位置编码和修改注意力计算公式对Transformer编码器进行改进,利用改进的Transformer编码器提取全局语义信息,并采用BiLSTM捕获方向信息。结合注意力机制动态调整权重,深度融合全局语义信息和方向信息以获得更丰富的上下文特征。使用条件随机场进行解码,实现实体标注序列预测。此外,针对Word2Vec等传统词向量方法无法表示词的多义性问题,使用RoBERTa-wwm预训练模型作为模型的嵌入层提供字符级嵌入,获得更多的上下文语义信息和词汇信息,增强实体识别效果。实验结果表明,该方法在中文命名实体识别数据集Resume和Weibo上F1值分别达到96.68%和71.29%,相比ID-CNN、BiLSTM、CAN-NER等...  相似文献   

7.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

8.
命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.  相似文献   

9.
命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。  相似文献   

10.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

11.
针对军事文本中的命名实体,提出一种基于条件随机场模型的半监督命名实体识别方法,旨在将人员军职军衔名、军事装备名、军用物资名、军事设施名、军事机构名(含部队番号)以及军用地名等军事命名实体的识别融合到一个统一的技术框架中。该方法针对军事文本的语法特点建立高效的特征集合,建立条件随机场模型对军事命名实体进行识别,并依次使用基于词典的方法和基于规则的方法对识别结果进行校正。实验表明,该方法在军事文本中能够出色地完成命名实体识别任务,在测试语料上的F-值最高达到90.9%,接近通用领域中命名实体识别的水平。  相似文献   

12.
个人计算机中存在大量无结构文档,从无结构文档中提取有效信息是实现语义桌面管理的一个重点和难点。而实体的识别和提取又是信息提取技术中的一个重要前提和关键步骤。本文首先提出一种利用文本线索和本体元数据来识别无结构文档中实体的方法,然后手工建立一个文档集合,在该集合上验证新方法在特定领域内的实体识别效果。  相似文献   

13.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

14.
15.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

16.
目前针对中医古籍实体识别研究较少,且大多使用有监督学习方法。但古籍数字化程度低、标注语料稀少,且其语言多为文言文,专业术语也不断发展,现有方法无法有效解决以上问题。故而,该文在构建了中医古籍语料库的基础上,通过对中医古籍中实体名的分析研究,提出了一种基于半监督学习和规则相结合的中医古籍实体识别方法。以条件随机场模型为基本框架,在引入词、词性、词典等有监督特征的同时也引入了通过词向量获得的无监督语义特征,对比不同特征组合的识别性能,确定最优的半监督学习模型,并与其他模型进行了对比。之后,结合古籍语言学特点构建规则库对其进行基于规则的后处理。实验结果中最终F值达到83.18%,证明了该方法的有效性。  相似文献   

17.
传统的命名实体识别方法可以凭借充足的监督数据实现较好的识别效果. 而在针对电力文本的命名实体识别中, 由于对专业知识的依赖, 往往很难获取足够的监督数据, 即存在少样本场景. 同时, 由于电力行业的精确性要求, 相比于一般的开放领域任务, 电力领域的实体类型更多, 因此难度更大. 针对这些挑战, 本文提出了一个基于主题提示的命名实体识别方法. 该方法将每个实体类型视为一个主题, 并使用主题模型从训练语料中获取与类型相关的主题词. 通过枚举实体跨度、实体类型、主题词以填充模板并构建提示句. 使用生成式预训练语言模型对提示句排序, 最终识别出实体与对应类型标签. 实验结果表明, 在中文电力命名实体识别数据集上, 相比于几种传统命名实体方法, 基于主题提示的方法取得了更好的效果.  相似文献   

18.
文本分类是将自由文本自动划分到若干预先定义类别的方法,在信息检索等领域有很重要的作用。其中,如何选择有效的文本特征是影响文本分类器分类性能的一个重要步骤 。很多应用中需要处理的文本信息包含了很多的命名实体,如某个行业的名人,往往能够在很大程度上影响着文本所属的类别。然而,现阶段的文本特征方法都只利用关键词
词的统计意义,而没有考虑关键词作为命名实体所含有的分类特征。针对这一问题,本文提出了一种将命名实体识别方法NER集成到文本分类特征选择中的方法,在保留关键 词统计特征之外,还保留了单词作为命名实体的分类特征。实验结果表明,相对于其他特征选择方法而言,本文提出的方法在一定程度上提高了文本分类的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号