首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 187 毫秒
1.
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.  相似文献   

2.
针对中文电子病历命名实体识别过程中实体特征利用率低,语义表示不充分等问题,提出一种基于BERT语言模型的命名实体识别方法。运用Char-CNN学习字符的多种特征,将特征加入BERT预训练生成的词向量中,获得融合领域信息和汉字特征的词向量表示,将词向量输入迭代扩张卷积神经网络中进行特征抽取,引入注意力机制加强实体特征的关注度,通过CRF解码标注命名实体。实验结果表明,该方法在CCKS17中取得91.64%的F1值,识别性能优于现有方法。  相似文献   

3.
随着深度学习技术的应用,自然语言处理领域得到快速发展,为提高中文命名实体识别效果,提出一种新的方法,利用英文模型抽取信息辅助中文命名实体识别。该方法使用翻译模型将中文翻译为英文,然后利用英文命名实体识别模型抽取特征,再利用翻译模型的注意力权重进行信息迁移,将预训练的英文命名实体识别模型提取的特征用于中文命名实体识别。该方法可以将训练模型中得到的任务相关特征进行迁移,从而丰富原始数据的语义表示。在两个中文命名实体识别数据集上的实验表明,该方法优于其他现有方法。  相似文献   

4.
针对电机领域实体识别精度较低的问题,提出一种融合BERT预训练语言模型的中文命名实体识别方法。利用BERT预训练语言模型增强字的语义表示并按照上下文特征动态生成字向量,将字向量序列输入双向长短期记忆神经网络进行双向编码,同时通过条件随机场算法标注出实体识别结果。根据电机文本特点对自建数据集进行标注,并将电机领域实体划分为实物、特性描述、问题/故障、方法/技术等4个类别。实验结果表明,与基于BiLSTM-CRF、BiLSTM-CNN和BiGRU的实体识别方法相比,该方法具有更高的准确率、召回率和F1值,并且有效解决了电机领域命名实体识别任务中标注数据不足及实体边界模糊的问题。  相似文献   

5.
命名实体识别是自然语言处理中的一项基础任务,传统的识别方法往往需要外部知识和人工筛选特征,需要较高的人力成本和时间成本;针对传统方法的局限性,提出一种基于GRU (Gated Recurrent Unit)的命名实体识别模型,该模型以字向量作为输入单位,通过双向GRU层提取特征,并通过输出层得到标签序列.在传统命名实体和会议名称这种特定领域命名实体上对该模型进行了测试.实验结果表明,本文设计的循环神经网络模型能有效的识别命名实体,省去了人工设计特征的繁琐工作,提供了一种端到端的识别方法.  相似文献   

6.
为了减少传统的命名实体识别需要人工制定特征的大量工作,通过无监督训练获得军事领域语料的分布式向量表示,采用双向LSTM递归神经网络模型解决军事领域命名实体的识别问题,并且通过添加字词结合的输入向量和注意力机制对双向LSTM递归神经网络模型进行扩展和改进,进而提高军事领域命名实体识别。实验结果表明,提出的方法能够完成军事领域命名实体的识别,并且在测试集语料上的F-值达到了87.38%。  相似文献   

7.
命名实体识别是构建时钟领域知识图谱的关键步骤,然而目前时钟领域存在标注样本数量少等问题,导致面向时钟领域的命名实体识别精度不高。为此,利用预训练语言模型BERT进行时钟领域文本的特征提取,利用线性链条件随机场(Linear-CRF)方法进行序列标注,提出了一种BERT-LCRF的命名实体识别模型。对比实验结果表明,该模型能够充分学习时钟领域的特征信息,提升序列标注精度,进而提升时钟领域的命名实体识别效果  相似文献   

8.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

9.
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛至92.37%和92.78%,但是在自定义的动物、动物疾病以及病虫害三个类别上未训练词的识别方面,Large版的F1值比Base版平均高6.25%,该模型在西藏畜牧业领域命名实体任务中表现出色并且BERT的Large版对长语句中的未训练词识别效果更好.  相似文献   

10.
命名实体识别是自然语言处理任务的重要环节。近年来,基于深度学习的通用命名实体识别模型取得显著效果。而在旅游领域,中文旅游景点实体识别主要依赖于特征工程的方法。提出一种基于CNN-BiLSTM-CRF的网络模型,该模型不使用任何人工特征,通过神经网络充分对文本的局部信息特征进行抽象化抽取和表示,并学习和利用文本的上下文信息,实现对景点实体的识别。实验结果显示,该方法能够有效识别中文旅游景点实体,并在实验中取得[F1]值93.9%的效果。  相似文献   

11.
针对目前知识图谱推理方法中,传统神经网络方法不能有效考虑实体之间的相关性问题,提出了一种将图卷积神经网络(GCN)与注意力机制(Attention)相结合的知识图谱推理方法。该方法利用注意力机制对知识图谱中的实体与其邻域实体进行相关性计算,得到实体特征向量。通过图卷积神经网络的参数共享技术学习实体的所有邻域实体特征。将实体特征和关系特征进行特征融合,得到每个实体的隐性特征向量。通过实体分类实验和链接预测实验进行分析,结果表明,该方法的准确率较传统神经网络方法有进一步提高,为搜索、问答、推荐以及数据集成等领域提供了方法支持。  相似文献   

12.
针对目前旅游领域实体对齐任务中的长尾实体过多和现有知识以及标注数据稀缺的问题,提出一种基于多视图知识表示和神经网络相结合的实体对齐方法。采用预训练模型完成多视图的知识表示学习,获得了实体的结构嵌入、关系嵌入和描述信息嵌入,然后利用卷积神经网络对结合了三种视图嵌入的实体综合嵌入进行相似度计算。实验精准率达到91.4%、召回率达到87.9%、综合指标F1值达到89.6%。结果表明,该方法有效地完成了旅游领域的实体对齐任务。  相似文献   

13.
关系提取旨在从大量的非结构化数据中提取实体对间的关系。目前,大多数神经网络仅考虑单分支信息流,难以获取足够的语义特征来进行关系提取。针对此问题,该文提出一种基于全局和局部特征感知网络的关系提取方法。该方法首先利用自注意力机制和循环神经网络获取单词的相关性时序特征。其次,构建多分支特征感知卷积神经网络,分别获取全局和局部相关性时序特征,避免全局和局部感知的相互影响。进一步地,对这两种特征进行拼接和筛选,以全面表示句子的重要语义特征。最后,结合Softmax分类器实现关系提取。实验结果表明,该文所提方法优于主流的基于卷积神经网络和循环神经网络的关系提取方法,在标准的SemEval-2010 Task 8和KBP37数据集上F1值分别达到86.1%和64.9%。  相似文献   

14.
基于BLSTM的命名实体识别方法   总被引:1,自引:0,他引:1  
传统的命名实体识别方法直接依靠大量的人工特征和专门的领域知识,解决了监督学习语料不足的问题,但设计人工特征和获取领域知识的代价昂贵。针对该问题,提出一种基于BLSTM(Bidirectional Long Short-Term Memory)的神经网络结构的命名实体识别方法。该方法不再直接依赖于人工特征和领域知识,而是利用基于上下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构成命名实体的前缀、后缀和领域信息;同时,利用标注序列中标签之间的相关性对BLSTM的代价函数进行约束,并将领域知识嵌入模型的代价函数中,进一步增强模型的识别能力。实验表明,所提方法的识别效果优于传统方法。  相似文献   

15.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

16.
神经机器翻译在资源丰富领域上训练的翻译模型往往在其他资源稀缺领域中表现较差,领域适应是利用资源丰富的领域帮助资源稀少的领域提升翻译质量的一种方法。该文提出基于领域特征的领域适应方法以提升资源稀缺领域的神经机器翻译质量。具体而言,该文尝试构建领域敏感网络以获得领域特有特征,构建领域不敏感网络以获得领域间的共有特征。一个领域判别器被用于区分领域。该文通过训练领域敏感网络使得该领域判别器更易做出准确判断,同时引入对抗机制,使得领域不敏感网络欺骗该领域判别器。最后,提出一种系统集成机制,融合基准神经翻译网络、领域敏感网络、领域不敏感网络以完成神经机器翻译的领域适应。实验结果显示,该方法在中英广播对话领域上和英德口语领域上的翻译效果均有显著提升。  相似文献   

17.
事件检测任务旨在从非结构化的文本中自动识别并分类事件触发词。挖掘和表示实体的属性特征(即实体画像)有助于事件检测,其基本原理在于“实体本身的属性往往暗示了其参与的事件类型”(例如,“警察”往往参与“Arrest-Jail”类的事件)。现有研究已利用编码信息实现实体表示,并借此优化事件检测模型。然而,其表示学习过程仅仅纳入局部的句子级语境信息,使得实体画像的信息覆盖率偏低。为此,该文提出基于全局信息和实体交互信息的画像增强方法,其借助图注意力神经网络,不仅在文档级的语境范围内捕捉实体的高注意力背景信息,也同时纳入了局部相关实体的交互信息。特别地,该文开发了基于共现图的注意力遮蔽模型,用于降低噪声信息对实体表示学习过程的干扰。在此基础上,该文联合上述实体画像增强网络、BERT语义编码网络和GAT聚合网络,形成了总体的事件检测模型。该文在通用数据集ACE 2005上进行实验,结果表明实体画像增强方法能够进一步优化事件检测的性能,在触发词分类任务上的F1值达到76.2%,较基线模型提升了2.2%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号