首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 968 毫秒
1.
实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92...  相似文献   

2.
关系抽取是构建知识图谱的一项核心技术.由于中文具有复杂的语法和句式,同时现有的神经网络模型提取特征有限以及语义表征能力较差,从而影响中文实体关系抽取的性能.文章提出了一种融合多特征的BERT预训练模型的实体关系抽取算法.首先对语料进行预处理,提取关键词、实体对信息和实体类型特征并进行融合,以此来强化BERT模型的语义学习能力,极大限度地减少了语义信息特征的丢失,最后通过Softmax分类器进行关系分类.实验结果表明,文章模型优于现有的神经网络模型.在人工标注的中文数据集上本文模型取得了97.50%的F1值.  相似文献   

3.
基于span的联合抽取模型在命名实体识别和关系抽取上取得了优异的效果.这些模型将文本span作为候选实体,并将span元组视为候选关系元组.span的语义表示在实体识别和关系分类中共享.然而现有基于span的模型无法很好地捕获这些候选实体和关系的语义,为了解决这些问题,提出了一种融合attention机制的span的联...  相似文献   

4.
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务。由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确。提出一种基于字词融合与对抗训练的行业人物实体识别模型。利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征。在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果。根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证。实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点。  相似文献   

5.
随着互联网技术不断地发展,数据信息呈爆炸性增长,迫切需要从海量数据中高效地提取关键信息,而实体关系抽取作为信息抽取的核心任务,发挥着不可替代的重要作用。现有基于深度学习的实体关系抽取方法存在误差累积、实体冗余、交互缺失、实体关系重叠等问题。为充分利用语句的语义信息和句法信息,提出一种加强语义信息与句法信息的二元标记实体关系联合抽取模型SSERel。通过对输入文本进行BERT编码,并对三元组主体的开始位置和结束位置进行预测标记,提取文本的全局语义特征、主体与每个词语的局部语义特征以及句法特征,并将其融合进编码向量。对语句每种关系的客体位置进行预测标记,最终完成三元组的提取。在NYT和WebNLG数据集上的实验结果表明,相比CasRel模型,该模型的F1值分别提升2.7和1.4个百分点,能够有效解决复杂数据中存在的重叠三元组和多三元组等问题。  相似文献   

6.
实体关系联合抽取任务旨在识别命名实体的同时可抽取实体间的语义关系。该文提出了一种基于多特征融合及奖惩机制的藏医药领域实体关系联合抽取方法,针对基于序列标注的联合抽取方法中标注策略的局限性及特征单一、模型学习能力有限的问题,提出以下解决方案:(1)使用嵌套实体标注策略突破原有标注方法的局限;(2)使用类别特征静态融合、多特征动态融合方法及奖惩机制分别用于特征增强及模型优化。实验结果表明,该文方法提升了藏医药领域联合抽取模型的效果,模型最终的F1值为79.23%。同时,为了证明该文模型的鲁棒性及有效性,还在SKE及NYT领域数据上进行了相关实验,实验结果验证该模型的有效性,且优于基线方法。  相似文献   

7.
谢斌红  李书宁  张英俊 《计算机应用》2022,42(10):3003-3010
针对现有细粒度实体分类(FGET)任务的工作多着眼于如何更好地编码实体和上下文的语义信息,而忽略了标签层次结构中标签之间的依赖关系及其本身的语义信息的问题,提出了一种基于层次结构感知的细粒度实体分类(HAFGET)方法。首先,利用基于图卷积网络(GCN)的层次结构编码器对不同层级标签之间的依赖关系进行建模,提出了基于层次结构感知的细粒度实体分类多标签注意力(HAFGET-MLA)模型和基于层次结构感知的细粒度实体分类实体特征传播(HAFGET-MFP)模型;然后,利用HAFGET-MLA模型和HAFGET-MFP模型对实体上下文特征进行层次结构感知和分类,前者通过层次编码器学习层次结构感知标签嵌入,并与实体特征通过注意力融合后进行标签分类,后者则直接将实体特征输入到层次结构编码器更新特征表示后进行分类。在FIGER、OntoNotes和KNET三个公开数据集上的实验结果表明,与基线模型相比,HAFGET-MLA模型和HAFGET-MFP模型的准确率和宏平均F1值均提升了2%以上,验证了所提方法能够有效提升分类效果。  相似文献   

8.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

9.
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003 数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。  相似文献   

10.
近年来,基于深度学习的关系分类多集中于注意力机制的改进或语义信息的优化两方面,但此类方法提取的特征往往较为单一,忽略了实体类型对关系分类的影响,且存在语义信息学习不完整等问题。提出一种新的关系分类方法Type-SBNE,针对实体类型学习任务,引入细粒度的实体类型信息,并通过对每个实体类型中的所有实体向量取平均生成实体类向量,再分别通过实体与句意信息学习获得其对应的特征向量,通过拼接融合得到复合语义特征,最后采用全连接层和Softmax函数来预测实体对之间的关系。Type-SBN基于细粒度的实体类型信息,丰富了实体的特征,有效加强了每个实体在上下文中的表达。实验表明,Type-SBNE模型可更好地完成关系分类任务,效果优于对比方法。  相似文献   

11.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

12.
针对非结构化自由文本中关系模式比较复杂,关系抽取性能不高的问题,该文提出了利用BP神经网络的优化算法-LM算法,对非结构化自由文本信息中的领域概念实体属性关系进行抽取。首先对语料进行预处理,然后利用CRFs模型对领域概念的实例、属性和属性值进行实体识别,然后根据领域中各类关系的特点分别进行特征提取,构造BP神经网络模型,利用LM算法抽取相应关系。和适用于二分类问题的SVM相比,人工神经网络优化算法自主学习能力强,识别精度高,更适用于多分类的问题。通过几组实验表明,该方法在领域概念实体属性关系抽取方面取得了良好的效果, F值提高了12.8%。  相似文献   

13.
铁路事故的相关信息以事故概况文本的形式存在, 对于铁路安全工作有重要意义. 但由于缺乏有效的信息抽取手段, 导致分散在文本中的铁路事故知识没有得到充分的利用. 命名实体识别是信息抽取的重要子任务, 目前关于事故领域的命名实体识别问题研究较少. 针对铁路事故命名实体识别问题, 提出一种融合字位置特征的命名实体识别模型, 该模型通过全连接神经网络获取字的位置特征, 并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列. 实验结果表明, 模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%, 相比于传统模型, 取得了更好的效果, 为铁路事故知识图谱的构建奠定基础.  相似文献   

14.
目前中文命名实体识别模型在识别具有嵌套结构的实体时存在误差,无法准确识别。基于跨度的方法能够找出嵌套实体,但在识别过程中经常生成不包含实体的跨度,无法明确划分跨度边界,增加模型负担。针对此问题,提出了基于词汇融合与跨度边界检测的中文嵌套命名实体识别模型。该模型使用多词融合方法达到文本特征增强的目的,在设计的注入模块中将目标语句中字符相关的多个词汇信息进行合并,之后融入到BERT中,以此获得更全面的上下文信息,提供更好的跨度表示;其次添加跨度边界检测模块,通过感知分类器预测跨度的首尾字符来划分跨度边界。在公共数据集上的实验表明,该模型可有效提升识别准确率。  相似文献   

15.
电子病历命名实体识别和实体关系抽取研究综述   总被引:2,自引:0,他引:2  
电子病历(Electronic medical records,EMR)产生于临床治疗过程,其中命名实体和实体关系反映了患者健康状况,包含了大量与患者健康状况密切相关的医疗知识,因而对它们的识别和抽取是信息抽取研究在医疗领域的重要扩展. 本文首先讨论了电子病历文本的语言特点和结构特点,然后在梳理了命名实体识别和实体关系抽取研究一般思路的基础上,分析了电子病历命名实体识别、实体修饰识别和实体关系抽取研究的具体任务和对应任务的主要研究方法. 本文还介绍了相关的共享评测任务和标注语料库以及医疗领域几个重要的词典和知识库等资源. 最后对这一研究领域仍需解决的问题和未来的发展方向作了展望.  相似文献   

16.
当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。  相似文献   

17.
命名实体识别是构建知识图谱的重要阶段。基于国军标及软件测试文档,完成了实体类型分类以及数据集的构建和标注。在软件测试领域,针对字词联合实体识别方法准确率不高的问题,进行字符级特征提取方法的改进,提出了CWA-BiLSTM-CRF识别框架。该框架包含两部分:第一部分构建预训练的字词融合字典,将字词一起输入给双向长短期记忆网络进行训练,并加入注意力机制衡量词内各字对特征的语义贡献,提取出字符级特征;第二部分将字符级特征与词向量等特征进行拼接,输入给双向长短期记忆网络进行训练,再通过条件随机场解决标签结果序列不合理的问题,识别出文中的实体。实验结果分别与三种常用的深度学习字符级特征提取方法进行比较,准确率和召回率均有提升,最优F1值为88.93%。实验表明,改进后的方法适用于军用软件测试领域命名实体识别任务,为下一步知识图谱的构建打下了基础。  相似文献   

18.
19.
基于知识图谱的网络安全动态预警方法,能够主动感知和应对网络安全攻击,增强感知的实时性和精准性。然而,在构建网络安全知识图谱的实体抽取过程中,传统的命名实体识别工具和方法无法识别网络安全领域中的特定类别实体,文本中的未登录和中英文混合的网络安全实体也难以被准确识别。网络安全文本中的网络安全命名实体存在中英文混合、单词缩写等问题,仅基于字的命名实体识别方法难以充分表征字或词的语义信息。因此,论文考虑中英文更细粒度的部件语义捕捉字或词的语义特征,提出一种基于部件CNN的网络安全命名实体识别方法(C C-NS-NER),利用部件CNN抽取词语部件特征中的关键语义特征,丰富字词级别的语义信息,并引入BiLSTM-CRF确保抽取字向量和部件特征中的抽象信息,同时获取标签之间的关联信息,识别文本中的网络安全命名实体。在人工标注的网络安全数据集上的实验结果表明,该方法相较于传统模型,能有效获取字或词的部件语义信息,显著提高网络安全命名实体识别的效果。  相似文献   

20.
知识图谱主要用于从复杂数据中抽取出关键信息以生成关系网络,其对于复杂关系出色的识别能力以及对于数据较强的描述能力使得知识图谱技术具有很高的应用价值.为给知识图谱在海洋领域的应用提供理论支撑,对知识图谱相关技术进行了总体概述.阐述Citespace文献分析工具的出色应用,针对海洋领域半结构化和非结构化数据抽取技术进行了系...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号