首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
实体关系抽取任务旨在从非结构化文本中识别出实体和实体间的关系,是目前大规模知识图谱构建和更新的技术来源。在现有的实体关系联合抽取方法中,并行解码三元组的方法通过集合预测的方式高效生成三元组,然而这种方法忽略了实体与关系间、实体主客体间的交互,导致生成无效三元组。针对此问题,提出基于双集合预测网络的实体关系联合抽取模型。为了增强关系和实体之间的交互,采用双集合预测网络并行解码三元组,顺序生成三元组中实体信息和关系类型:第一个集合预测网络对三元组集合建模并解码出三元组内的主客体信息,第二个集合预测网络对融合了主客体信息的三元组嵌入集合建模并解码出主客体间的关系类型;针对实体主客体设计了一个实体过滤器,预测句子中实体间的主客体相关性并依照该结果过滤掉主客体相关性较低的三元组。在公开数据集纽约时报(NYT)和WebNLG上的实验结果表明,在编码器为BERT的情况下所提模型相较基线模型在准确率和F1指标上的效果更好,验证了该模型的有效性。  相似文献   

2.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

3.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

4.
实体关系联合抽取是信息抽取的一项重要任务。由于传统的实体关系联合抽取方法把实体之间的关系建模为离散类型,因此不能很好地解决重叠三元组的问题。为了解决难以抽取重叠三元组的问题,本文提出一种融合FGM和指针标注的实体关系联合抽取BERT-FGM模型。该模型将实体之间的关系建模为函数,通过在BERT训练词向量的过程中融入FGM提高模型的鲁棒性。模型首先通过指针标注策略抽取头实体,然后将头实体与句子向量进行融合作为一个新向量,最终将其在预定义的关系条件下抽取头实体对应的尾实体。实验使用的是公开数据集WebNLG,实验结果表明该模型F1值达到90.7%,有效地解决了三元组重叠问题。  相似文献   

5.
拓雨欣  薛涛 《计算机应用》2023,(7):2116-2124
针对自然语言文本中实体重叠情况复杂、多个关系三元组提取困难的问题,提出一种融合指针网络与关系嵌入的三元组联合抽取模型。首先利用BERT(Bidirectional Encoder Representations from Transformers)预训练模型对输入句子进行编码表示;然后利用首尾指针标注抽取句子中的所有主体,并采用主体和关系引导的注意力机制来区分不同关系标签对每个单词的重要程度,从而将关系标签信息加入句子嵌入中;最后针对主体及每一种关系利用指针标注和级联结构抽取出相应的客体,并生成关系三元组。在纽约时报(NYT)和网络自然文本生成(WebNLG)两个数据集上进行了大量实验,结果表明,所提模型相较于目前最优的级联二元标记框架(CasRel)模型,整体性能分别提升了1.9和0.7个百分点;与基于跨度的提取标记方法(ETL-Span)模型相比,在含有1~5个三元组的对比实验中分别取得了大于6.0%和大于3.7%的性能提升,特别是在含有5个以上三元组的复杂句子中,所提模型的F1值分别提升了8.5和1.3个百分点,且在捕获更多实体对的同时能够保持稳定的提取能力,进一步验证了该模型在...  相似文献   

6.
基于CWHC-AM的实体及关系联合抽取方法   总被引:1,自引:0,他引:1  
实体及关系抽取是从非结构化自然语言文本中抽取三元组。传统流水线的方法先抽取实体再抽取关系,容易造成误差传播,也忽略了两个子任务的内在联系和依赖关系,抽取多元关系及重叠关系效果较差。针对上述问题,该文首先将多元关系问题转换成多个二元关系问题进行抽取,充分考虑两个子任务之间的联系,提出一种基于CWHC-AM(character word hybrid coding and attention mechanism)的实体及关系联合抽取模型,采用多层指针网络标注方案,将实体及关系联合抽取任务转化为序列标注问题,实现重叠关系抽取。最后,引入对抗训练提高模型的鲁棒性。在百度DuIE 2.0中文数据集上进行实验,结果表明该文方法可有效地同时抽取多元关系及二元关系,取得比基线模型都要好的效果。  相似文献   

7.
针对旅游信息呈现出散乱、无序和关联性不强的问题,提出一种融合BERT-WWM(BERT with whole word masking)和指针网络的实体关系联合抽取模型构建旅游知识图谱。借助BERT-WWM预训练语言模型从爬取的旅游评论中获得含有先验语义知识的句子编码。针对传统的实体关系抽取方法存在错误传播、实体冗余、交互缺失等问题,以及旅游评论中的实体关系存在一词多义、关系重叠等特征,提出直接对三元组建模,利用句子编码抽取头实体,根据关系类别抽取尾实体,并建立级联结构和指针网络解码输出三元组。基于Neo4j图数据库存储三元组构建旅游知识图谱。实验在建立的旅游数据集上进行,融合BERT-WWM与指针网络的实体关系联合抽取模型的准确率、召回率和F1值分别为93.42%、86.59%和89.88%,与现有模型相比三项指标均显示出优越性,验证了该方法进行实体关系联合抽取的有效性。构建的旅游知识图谱实现了旅游景区信息的整合与存储,对进一步促进旅游业发展具有一定的实际参考意义。  相似文献   

8.
现有实体关系联合抽取方法中,主体抽取与客体和关系抽取任务的交互不足或方法单一,对关系三元组内部潜在的位置及上下文语义关系利用不足.为此,提出了一种融合实体位置及上下文注意力的信息聚合器(Position and Attention based Booster, PATB)用于级联式实体关系联合抽取.首先抽取主体,再融合主体位置更新主体的表示,融合主体与上下文的注意力更新文本的表示,将更新的主体及文本表示进一步用于客体及关系抽取.模型在公共数据集NYT和WebNLG上的F1值分别为90.9%、92.5%,较基线模型分别提升1.3%和0.7%;在3种不同关系模式的测试数据Normal、EPO及SEO中,NYT上的F1值分别为88.9%、93.2%和92.6%,均优于基线模型;在含1~5个三元组的对比实验中的F1值也均优于基线模型,表明融合位置及上下文语义的PATB不仅可提升三元组抽取性能,且能在有复杂重叠关系、多个三元组情况下保持稳定的提取性能.  相似文献   

9.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

10.
实体关系联合抽取旨在从文本中抽取出实体关系三元组, 是构建知识图谱十分重要的步骤之一. 针对实体关系抽取中存在的信息表达能力不强、泛化能力较差、实体重叠和关系冗余等问题, 提出了一种实体关系联合抽取模型RGPNRE. 使用RoBERTa预训练模型作为编码器, 提高了模型的表达信息能力. 在训练过程中引入了对抗训练, 提升了模型的泛化能力. 使用全局指针, 解决了实体重叠的问题. 使用关系预测, 排除不可能的关系, 减少了冗余的关系. 在基于schema的中文医学信息抽取数据集CMeIE上进行的实体关系抽取实验表明, 模型的F1值比基准模型提升了约2个百分点, 在实体对重叠的情况下, 模型的F1值提升了近10个百分点, 在单一实体重叠情况下, 模型的F1值提升了大约1个百分点, 说明该模型能够更准确地提取实体关系三元组, 从而有效提升知识图谱构建的准确度. 在含有1–5个三元组的对比实验中, 在拥有4个三元组的句子中, 模型的F1值提升了约2个百分点, 而在拥有5个及以上三元组的复杂句子中, F1值提升了约1个百分点, 说明该模型能够较好地处理复杂句子场景.  相似文献   

11.
构建地质领域的知识图谱有助于便捷高效地共享和应用多源地质知识,而地质关系三元组抽取对地质领域知识图谱构建具有重要意义。针对现有实体关系联合抽取模型无法有效识别重叠三元组的问题,考虑地质领域专业知识的特殊性,基于预训练语言模型BERT建立一种用于地质领域关系三元组抽取的层级标注模型HtERT。采用中文预训练语言模型BERT-wwm替代原始的BERT模型作为底层编码器,以提高模型对中文的编码能力。在实体识别阶段,引入关于实体起始位置的嵌入表示来限制实体的抽取长度,从而提升实体识别的准确度。引入全局上下文信息和BiLSTM网络使得模型抽取到的特征能更精确地表示地质样本信息,增强模型对地质关系三元组以及重叠三元组的抽取能力。在地质领域数据集上的实验结果表明,HtERT模型相比于PCNN、BiLSTM、PCNN+ATT、CASREL等基线模型具有明显优势,精确率、召回率以及F1值分别平均提升15.24、10.96和13.20个百分点,验证了该模型在地质领域实体关系联合抽取任务中的有效性。  相似文献   

12.
从非结构化文本中联合提取实体和关系是信息抽取中的一项重要任务。现有方法取得了可观的性能,但仍受到一些固有的限制,如错误传播、预测存在冗余性、无法解决关系重叠问题等。为此,提出一种基于图神经网络的联合实体关系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分为两个阶段:第一阶段将语义依存分析扩展到语义依存图,提出融合语义依存图的图注意力网络(SDA-GAT),通过堆叠BiLSTM和SDA-GAT提取句子序列和局部依赖特征,并进行实体跨度检测和初步的关系预测;第二阶段构建关系加权GCN,进一步建模实体和关系的交互,完成最终的实体关系三元组抽取。在NYT数据集上的实验结果表明,该模型F1值达到了67.1%,对比在该数据集的基线模型提高了5.2%,对重叠关系的预测也有大幅改善。  相似文献   

13.
实体关系联合抽取的作用是从特定文本中识别出实体和对应关系,同时它也是知识图谱构建和更新的基础。目前的联合抽取方法在追求性能的同时都忽略了抽取过程中的信息冗余。针对此问题,提出基于潜在关系的实体关系联合抽取模型,通过设计一种新的解码方式来减少预测过程中关系、实体和三元组的冗余信息,从整体上分为提取潜在实体对、解码关系两步来完成从句子中抽取三元组的任务。首先通过潜在实体对提取器预测实体间是否存在潜在关系,同时筛选出置信度高的实体对作为最终的潜在实体对;其次将关系解码视作多标签二分类任务,通过关系解码器预测每个潜在实体对之间全部关系的置信度;最后通过置信度确定关系数量和类型,以完成三元组的抽取任务。在两个通用数据集上的实验结果表明,所提模型相比基线模型在准确率和F1指标上的效果更好,验证了所提模型的有效性,消融实验也证明了模型内部各部分的有效性。  相似文献   

14.
实体关系抽取任务是信息抽取的核心任务,它对于有效地从爆炸性增长的数据中提取出关键性的信息有着不可替代的作用,也是构建大规模知识图谱的基础任务,因此研究实体关系抽取对各种自然语言处理任务具有重要意义。尽管现有的基于深度学习方法的实体关系抽取已经有了很成熟的理论和较好的性能,但依然还存在着误差累积、实体冗余、交互缺失、三元组重叠等问题。语义信息和句法信息对自然语言处理任务都具有重要作用,为了充分利用这些信息以解决上述提到的问题,提出了一种融合语义和句法图神经网络的二元标记实体关系联合抽取模型FSSRel(Fusion of Semantic and Syntactic Graph Convolutional Networks Binary Tagging Framework for Relation triple extraction)。该模型分为三个阶段进行:第一阶段,对三元组主体的开始结束位置进行预测标记;第二阶段,分别通过语义图神经网络和句法图神经网络提取语义特征和句法特征,并将其融合进编码向量;第三阶段,对语句的每种关系的客体位置进行预测标记,完成最终三元组的提取。实验结果表明,在...  相似文献   

15.
实体关系联合抽取模型在实体关系抽取中具有重要作用,针对现有的实体关系联合抽取模型无法有效识别重叠关系中的实体关系三元组问题,提出一种新型的基于跨度和特征融合的实体关系联合抽取模型SFFM。将文本输入BERT预训练模型转变为词向量,根据跨度进行词向量划分形成跨度序列,并基于卷积神经网络过滤跨度序列中不包含实体的跨度序列,使用双向长短时记忆提取剩余跨度序列融合文本信息后的特征并通过Softmax回归实现实体识别,将文本中的实体和关系映射到不同的跨度序列中,当重叠关系中的实体和距离较远的实体之间存在关系时,按照跨度进行划分使可能存在关系的实体对划分到同一个跨度序列中,以更好地利用文本中的重叠关系。在此基础上,通过注意力机制获取跨度序列中的依赖关系,运用Softmax回归对跨度序列中的关系进行分类。实验结果表明,与基线模型相比,该模型在CoNLL04数据集上的微平均和宏平均分别提升了1.87和1.73个百分点,在SciERC数据集上的微平均提升了5.95个百分点。  相似文献   

16.
三元组抽取是知识学习、图谱构建的基础性工作。针对当前任务模型多存在实体识别与关系抽取语义关联不强、实体嵌套、关系重叠,以及既有概念知识关注不多等问题,融合形式化概念与神经网络模型,提出一种基于关系形式化概念的端到端三元组抽取方法。提出关系形式化概念标签,以统一实体与关系的语义表达,把实体识别问题转换为概念标签学习问题;将实体输入到关系形式化概念注意力模型,该注意力机制力图捕获关系主客体概念的连通内涵特征,即训练获得每个关系标签对应的主客体及它们上下文依存谓词的综合特征;通过多个关系分类器输出每对主客体的多关系标签,实现基于概念连通的多关系抽取;另外模型还可引入既有形式化概念的外延、内涵,以改善模型对语料标签的依赖,以及实体嵌套导致的标记难题。实验基于两份数据集,采用三种评价指标对模型性能进行评价分析。实验结果证明提出的模型在知识抽取上具有切实可行的效果,可改善实体嵌入、关系重叠问题。  相似文献   

17.
无指导的中文开放式实体关系抽取   总被引:1,自引:0,他引:1  
传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.  相似文献   

18.
陈佳沣  滕冲 《计算机应用》2019,39(7):1918-1924
针对现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题,提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。首先,句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型;然后,实体关系联合抽取模块采用序列标注方法对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子;最后,句子选择器模块和实体关系联合抽取模块同时训练,将句子选择与序列标注一起优化。实验结果表明,该模型在实体关系联合抽取中的F1值为47.3%,与CoType为代表的联合抽取模型相比,所提模型的F1值提升了1%;与LINE为代表的串行模型相比,所提模型的F1值提升了14%。结果表明强化学习结合实体关系联合抽取模型能够有效地提高序列标注模型的F1值,其中句子选择器能有效地处理数据的噪声。  相似文献   

19.
无监督关系抽取旨在从无标签的自然语言文本中抽取实体之间的语义关系。目前,基于变分自编码器(VAE)架构的无监督关系抽取模型通过重构损失提供监督信号来训练模型,这为完成无监督关系抽取任务提供了新思路。针对此类模型无法有效地理解上下文信息、依赖数据集归纳偏置的问题,提出基于Prompt学习的无监督关系抽取(PURE)模型,其中包括关系抽取和链接预测两个模块。在关系抽取模块中设计了上下文感知的Prompt模板函数以融入上下文信息,并将无监督关系抽取任务转换为掩码预测任务,从而充分利用预训练阶段获得的知识完成关系抽取。在链接预测模块中则通过预测关系三元组中的缺失实体提供监督信号联合训练两个模块。在两个公开真实关系抽取数据集上进行了大量实验,得到的结果表明PURE模型能有效利用上下文信息并且不依赖数据集归纳偏置,相较于目前最优的基于VAE架构的模型UREVA(Variational Autoencoder-based Unsupervised Relation Extraction model)在NYT数据集上的B-cubed F1指标上提升了3.3个百分点。  相似文献   

20.
针对传统实体关系标注方法存在效率低下、错误传播、实体冗余等问题,对于某些领域语料中存在“一实体(主实体)同时与多个实体之间存在重叠关系”的特点,提出一种面向领域实体关系联合抽取的新标注方法。首先,将主实体标注为一个固定标签,将文本中与主实体存在关系的其他每个实体标注为对应实体对间的关系类型,这种对实体和关系进行同步标注的方式节省了至少一半的标注成本;然后,直接对三元组进行建模,而不是分别对实体和关系进行建模,通过标签匹配和映射即可获取三元组数据,从而缓解重叠关系抽取、实体冗余以及错误传播等问题;最后,以作物病虫害领域为例进行实验,测试了来自转换器的双向编码器表征量(BERT)-双向长短期记忆网络(BiLSTM)+条件随机场(CRF)端到端模型在1 619条作物病虫害文档的数据集上的性能。实验结果表明该模型的F1值比基于传统标注方式+BERT模型的流水线方法提高了47.83个百分点;与基于新标注方式+BiLSTM+CRF模型、卷积神经网络(CNN)+BiLSTM+CRF等经典模型的联合学习方法相比,该模型的F1值分别提高了9.55个百分点和10.22个百分点,验证了所提标注方法和模型的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号