首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
随着深度学习的发展,越来越多的深度学习模型被运用到了关系提取的任务中,但是传统的深度学习模型无法解决长距离依赖问题;同时,远程监督将会不可避免地产生错误标签。针对以上两个问题,提出一种基于GRU(gated recurrent unit)和注意力机制的远程监督关系抽取方法,首先通过使用GRU神经网络来提取文本特征,解决长距离依赖问题;接着在实体对上构建句子级的注意力机制,减小噪声句子的权重;最后在真实的数据集上,通过计算准确率、召回率并绘出PR曲线证明该方法与现有的一些方法相比,取得了比较显著的进步。  相似文献   

4.
采用多尺度注意力机制的远程监督关系抽取   总被引:1,自引:0,他引:1  
针对目前大多数关系抽取模型中局部特征及全局特征利用不充分的缺点,该文提出一种采用多尺度注意力机制的远程监督关系抽取模型。在词语层面,通过在池化层构建权重矩阵来衡量词语与关系的相关程度,从而捕捉句子中重要的语义特征;在句子层面,采用注意力机制将预测关系与句子进行相关性比较,获得句子级别的重要信息。模型在NYT数据集上平均准确率达到78%,表明该模型能够有效地利用多尺度特征,并且提高远程关系抽取任务的准确率。  相似文献   

5.
6.
相比于传统有监督的中文关系抽取方法,基于远程监督的方法可极大地避免训练语料匮乏的问题,因此得到了广泛关注。然而,远程监督方法的性能却严重受困于构建语料过程中引入的错误标签,因此为缓解噪声数据所带来的影响,提出一种基于双重注意力机制的关系抽取模型。该模型可通过双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制关注实例中重要的语义特征,同时在多个实例间引入实例级注意力机制计算实例与对应关系的相关性,以降低噪声数据的权重。在基于互动百科构建的中文人物关系抽取语料上的实验结果表明,该模型相比于单注意力机制模型可有效利用实例中所包含的语义信息并降低错误标签实例的影响,获取更高的准确率。  相似文献   

7.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

8.
9.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深...  相似文献   

10.
At present, the neural network model plays an important role in entity relationship extraction tasks. Features can be automatically extracted by a convolutional neural network, but it is limited because a fixed window size convolution kernel in a convolutional neural network is used to extract contextual semantic information of words in a sentence. Therefore, this paper proposes a new relational extraction method fusing self attention and convolutional neural network. The original word vector is calculated by the self attention mechanism to obtain the relationship between the words in the sequence. The input word vector expresses richer semantic information, which can make up for the deficiency of the automatic extraction features of the convolutional neural network. The experimental results on the SemEval 2010 Task 8 dataset show that, after adding the self attention mechanism, our model is beneficial to improve the entity relationship extraction effect.  相似文献   

11.
在实体关系抽取任务中,通常采用远程监督(distant supervision,DS)数据集,远程监督方法能通过大规模语料库自动标注数据来扩张数据集,但这无疑会使数据集充满大量的噪声。为此,该文将深度残差网络(deep residual network,ResNet)应用到关系提取的远程监督数据集上,通过加深网络层数来提高模型降噪能力。同时,提出了Gate模块,有效提高了深度残差网络的性能。该模块可以学习到每个特征通道的重要性,通过权重增强或抑制各个特征通道的比重,从而防止过拟合。另外,为了进一步解决数据集降噪问题,还提出了一种双池化层的池化层新方案。实验结果表明所提方法相比于目前效果较好的PCNN+ATT模型,在准确率和召回率上都有3%左右的提升。  相似文献   

12.
远程监督关系抽取方法旨在高效的构建大规模的监督语料并应用在关系抽取的任务上.但是由于远程监督构建语料的方式,带来了噪声标签和长尾分布两大问题.本文提出了一种新颖的远程监督关系抽取模型架构,与以往的基于管道的训练形式不同,除了句子编码器模块,新添加了外部知识增强模块.通过对知识库中已存在的实体类型与关系进行预处理和编码,为模型提供句包文本所没有的外部知识.有利于缓解数据集中存在部分长尾关系示例不足所导致的信息不足的问题,以及提升了模型对噪声示例的判别能力.通过在基准数据集NYT和GDS上的大量实验,相较于主流最优模型在AUC值上分别提升了0.9%和5.7%,证明了外部知识增强模块的有效性.  相似文献   

13.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

14.
关系抽取任务是对句子中的实体对进行关系分类。基于远程监督的关系抽取是用预先构建的知识库来对齐朴素文本,自动标注数据,在一定程度上减少了人工标注的成本,缓解了藏文材料语料不足的问题。但是基于远程监督的实体关系抽取还存在错误标记、提取特征时出现噪声等问题。该文用远程监督方法进行藏文实体关系抽取,基于已经构建的藏文知识库,利用分段卷积神经网络结构,加入语言模型和注意力机制来改善语义歧义问题以及学习句子的信息;在训练过程中加入联合得分函数来动态修正错误标签问题。实验结果表明改进的模型有效提高了藏文实体关系抽取的准确率,且优于基线模型效果。  相似文献   

15.
密集连接卷积神经网络(DenseNet)是一种新型深度卷积神经网络架构,通过建立不同层间的连接关系,来确保网络层与层间最大程度的信息传输。在文本远程监督关系抽取任务中,针对现有神经网络方法使用浅层网络提取特征的局限,设计了一种基于密集连接方式的深度卷积神经网络模型。该模型采用五层卷积神经网络构成的密集连接模块和最大池化层作为句子编码器,通过合并不同层次的词法、句法和语义特征,来帮助网络学习特征,从而获取输入语句更丰富的语义信息,同时减轻深度神经网络的梯度消失现象,使得网络对自然语言的表征能力更强。模型在NYT-Freebase数据集上的平均准确率达到了82.5%,PR曲线面积达到了0.43。实验结果表明,该模型能够有效利用特征,并提高远程监督关系抽取的准确率。  相似文献   

16.
远程监督关系抽取旨在从无结构化的文本当中发现关系事实,它对许多下游任务有着非常重要的意义.虽然远程监督可以自动地生成大量带标签的训练样本,但是自动标注的过程不可避免地会遇到噪声数据的问题.当前的许多研究工作主要把关注点放在降噪的过程当中,尝试通过选择出正确的句子来生成更有效的包级别特征表示.但是在文本语料之外,还存在着大量与实体相关的外部知识没有被充分利用,而这些知识能够帮助模型更好地理解实体之间的关系.基于这一观察,提出了一种新颖的远程监督关系抽取方法,该方法通过利用外部知识图谱当中的结构化知识和文本语料中的语义知识,设计了一种实体知识感知的词嵌入表示方法,来丰富句子级别的特征表达能力.实验结果表明,在2个版本的大规模“纽约时报”基准数据集上,该方法都明显优于其他方法.此外,还通过对比实验进一步探索了2个版本的数据集所存在的差异,其中无实体交集的数据集能够更有效地反映模型性能.  相似文献   

17.
实体关系抽取是实现海量文本数据知识化、自动构建大规模知识图谱的关键技术。考虑到头尾实体信息对关系抽取有重要影响,该文采用注意力机制将实体对信息融合到关系抽取过程中,提出了基于实体对注意力机制的实体关系联合抽取模型(EPSA)。首先,使用双向长短时记忆网络(Bi-LSTM)结合条件随机场(CRF)完成实体的识别;其次,将抽取的实体配对,信息融合成统一的嵌入式表示形式,用于计算句子中各词的注意力值;然后,使用基于实体对注意力机制的句子编码模块得到句子表示,再利用显式融合实体对的信息得到增强型句子表示;最后,通过分类方式完成实体关系的抽取。在公开数据集NYT和WebNLG上对提出的EPSA模型进行评估,实现结果表明,与目前主流联合抽取模型相比,EPSA模型在F1值上均得到提升,分别达到84.5%和88.5%,并解决了单一实体重叠问题。  相似文献   

18.
远程监督关系抽取是自然语言处理领域的重要任务之一.由于识别实体关系的任务是在句子级别进行的,注意力机制分配权重可能存在误差,且现有深度学习模型常采用卷积神经网络进行最终关系分类,并不能充分利用标记实体的位置信息.本文提出了一种结合注意力及胶囊网络的多通道关系抽取模型(BG-AMC),该模型首先通过双向GRU神经网络对句...  相似文献   

19.
招投标网站资源中蕴含着丰富的情报信息。“远程监督”方法借助知识库自动标注数据,弥补了传统信息抽取方法在语料准备阶段对人工强依赖的缺陷,可有效提高信息抽取效率。该方法会引入噪声数据,导致信息抽取效果不够理想。因此,提出一种基于因子图模型的远程监督实体关系抽取方法,并结合领域特征,采用知识融合技术提高实体抽取质量,进而针对远程监督的缺陷提出基于负例数据学习的降噪方法。实验结果表明,该方法能够有效减少“噪声”干扰,提高关系抽取性能。  相似文献   

20.
随着医学信息化的推进,医学领域已经积累了海量的非结构化文本数据,如何从这些医学文本中挖掘出有价值的信息,是医学行业和自然语言处理领域的研究热点.随着深度学习的发展,深度神经网络被逐步应用到关系抽取任务中,其中recurrent+CNN网络框架成为了医学实体关系抽取任务中的主流模型.但由于医学文本存在实体分布密度较高...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号