首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 406 毫秒
1.
互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.  相似文献   

2.
实体关系联合抽取作为信息抽取领域的核心任务,能够从非结构化或半结构化的文本中自动识别实体、实体类型以及实体之间特定的关系类型,为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持.传统的流水线方法将实体关系联合抽取分解成命名实体识别和关系抽取两个独立的子任务,由于两个子任务之间缺少交互,流水线方法存在误差传播等问题...  相似文献   

3.
针对从未标记的文本中抽取中文领域实体关系的问题,文中提出基于远程监督的领域实体属性关系抽取的混合方法,利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料.针对远程监督方法标注数据存在大量噪声的问题,采用隐含狄利克雷分布主题模型抽取主题关键词,再与关系类型进行相似度计算和对关键词模式匹配进行去噪.最后提取词性特征、依存关系特征和短语句法树特征,并进行融合,训练关系抽取模型.实验表明,3种特征融合的F值较高,抽取性能较好.  相似文献   

4.
崔博文  金涛  王建民 《计算机应用》2021,41(4):1055-1063
电子病历信息抽取技术能够从自由文本电子病历中获取到有用的关键信息,从而为医院的信息管理和后续的信息分析处理工作提供帮助。简要介绍了现阶段自由文本电子病历信息抽取的主要流程,分析了近十几年来关于自由文本电子病历中命名实体、实体修饰与实体间关系三类关键信息的单独抽取以及联合抽取方法的研究成果,对这些成果所采用的主要方法、使用的数据集、最终的实验效果等进行了对比总结。除此之外,还对最新的几种流行方法的特点以及优缺点进行了分析,对目前电子病历信息抽取领域常用数据集进行了总结,分析了目前国内相关领域的现状和发展趋势。  相似文献   

5.
实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92...  相似文献   

6.
《计算机科学与探索》2016,(9):1310-1319
实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出来。传统的实体关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型,人工成本高。因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关系。然后使用远程监督学习方法从无结构的文本中抽取实体关系,通过多次迭代获得最终的实体关系。实验结果证明了该方法的有效性。  相似文献   

7.
基于合一句法和实体语义树的中文语义关系抽取   总被引:1,自引:0,他引:1  
该文提出了一种基于卷积树核函数的中文实体语义关系抽取方法,该方法通过在关系实例的结构化信息中加入实体语义信息,如实体类型、引用类型和GPE角色等,从而构造能有效捕获结构化信息和实体语义信息的合一句法和实体语义关系树,以提高中文语义关系抽取的性能。在ACE RDC 2005中文基准语料上进行的关系探测和关系抽取的实验表明,该方法能显著提高中文语义关系抽取性能,大类抽取的最佳F值达到67.0,这说明结构化句法信息和实体语义信息在中文语义关系抽取中具有互补性。  相似文献   

8.
针对传统基于模板匹配、关键词共现、人工特征集合等方法的问答机器人存在用户意图识别耗时、费力且扩展性不强的问题,本文结合地质领域文献中结构化知识问答的复杂特点,使用了基于网格记忆网络(LSTM+CRF+Lattice)与基于卷积神经网络(CNN)融合的优化模型.该模型将用户询问意图识别看作分类问题,首先使用网格记忆网络进行文本信息的命名实体识别及关系抽取,然后使用卷积神经网络将用户输入的其他文本信息进行属性分类,接着将分类结果转化为满足知识图谱查询的结构化方式,最终实现地质知识属性映射的用户询问意图识别.实验证明,在考虑地质知识特征的处理中,对于准确率的提升起到了极大帮助.  相似文献   

9.
面向中文文本数据库的信息抽取机制   总被引:2,自引:0,他引:2  
中文文本文件的句子中常包含有一些有价值的结构化数据。本文提出了一种针对中文文本结构化信息的抽取机制;抽取文本中的匹配模式,并将抽取后的匹配模式作为匹配模板放入知识库中,作为知识库中的规则。并在此基础上提出了一种面积文本数据库的一种新的信息查询机制:以知识库中的规则作为基础,查询文本数据库中的数据时,先在知识库中找相应的规则(即匹配模板),然后根据匹配模板在相应的文本数据库中查找相应的数据信息。  相似文献   

10.
信息提取的目的是从自然语言文件中找到具体信息,现有研究在信息抽取的实体关系和事件抽取任务中仅解决事件论元重叠和实体关系重叠的问题,未考虑两个任务共有的角色重叠问题,导致抽取结果准确率降低。提出一个两阶段的通用模型用于完成实体关系抽取和事件抽取子任务。基于预训练语言模型RoBERTa的共享特征表示,分别对实体关系/事件类型和实体关系/事件论元进行预测。将传统抽取触发词任务转化为多标签抽取事件类型任务,利用多尺度神经网络进一步提取文本特征。在此基础上,通过抽取文本相关类型的事件论元,根据论元角色的重要性对损失函数重新加权,解决数据不平衡、实体关系抽取和事件抽取中共同存在论元角色重叠的问题。在千言数据集中事件抽取和关系抽取任务测试集上的实验验证了该模型的有效性,结果表明,该模型的F1值分别为83.1%和75.3%。  相似文献   

11.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

12.
王景慧  卢玲 《计算机应用研究》2023,40(5):1410-1415+1440
中文实体关系抽取多以字符序列处理文本,存在字符语义表征不足、长字符序列语义遗忘等问题,制约了远距离实体的召回率,为此提出了一种融合依存句法信息的关系导向型抽取方法。输入层以字符序列和基于同义词表示的词序列为输入;编码端用长短时记忆网络(LSTM)进行文本编码,并加入全局依存信息,用于产生关系门的表示;解码端加入依存类型信息,并在关系门的作用下,用双向长短时记忆网络(BiLSTM)解码得到实体关系三元组。该方法在SanWen、FinRE、DuIE、IPRE中文数据集上的F1值分别较基线方法提高5.84%、2.11%、2.69%和0.39%。消融实验表明,提出的全局依存信息和依存类型信息表示方法均可提升抽取性能,对长句和远距离实体的抽取性能也稳定地优于基线方法。  相似文献   

13.
基于远程监督的关系抽取方法可以明显地减少人工标注数据集的成本,已经被广泛应用于领域知识图谱的构建任务中.然而,现有的远程监督关系抽取方法领域针对性不强,同时也忽略了对领域实体特征信息的利用.为了解决上述问题,提出了一种融合实体特征和多种类注意力机制的关系抽取模型PCNN-EFMA.模型采用远程监督和多实例技术,不再受限于人工标注.同时,为了减少远程监督中噪声的影响,模型使用了句子注意力和包间注意力这两类注意力,并在词嵌入层和句子注意力中融合实体特征信息,增强了模型的特征选择能力.实验表明,该模型在领域数据集上的PR曲线更好,并在P@N上的平均准确率优于PCNN-ATT模型.  相似文献   

14.
互联网数据的爆炸式增长,使得研究热点更多转向Web内容结构化分析。如果将藏语知识以结构化形式表示,那么将会有利于藏语知识的结构化分析和深度挖掘。该文提出了一种优化词向量的GRU神经网络模型进行藏语实体关系抽取的方法。在模型的训练中,加入了优化的词向量,在传统的词向量模型中结合藏语音节向量、音节位置向量、词性向量等特征对词向量进一步优化,并且选取了藏语词汇特征和藏语句子特征。实验证明,通过使用改进词向量F1值达到了78.43%。  相似文献   

15.
受限领域中最长地点实体提及的提取研究   总被引:1,自引:0,他引:1  
实体是构成事件信息的基本单元,在事件中扮演着重要的角色。在自然语言处理领域,实体识别是信息提取、句法分析、机器翻译、篇章理解等应用领域重要的基础性工具。汉语句法成分特有的套叠现象决定了实体表达的复杂性,增加了识别的难度。这使得已有的用于命名实体识别中的研究方法在长地点实体的识别中不能取得好的效果。为研究自动提取实体方法,文章从事件报道领域出发,以最长地点实体为对象,对325篇新闻语料进行地点实体标注和抽取,分析、研究了地点实体的出现特征,并根据分析结论提出实体提取可行方案。  相似文献   

16.
文档级关系提取(Document relationship extraction,DRE)旨在多条句子中识别实体间的关系,而实体可能对应于跨越句子边界的多次提及,其中代词实体提及是因句子之间连接而普遍存在的语法现象,也是影响句子推理的一个重要因素。然而,以往的研究大多侧重于普通实体提及之间的关系,却很少关注代词实体提及的共指和关系捕获。本文提出了基于上下文共指实体依赖(Contextual coreference entity dependency,CCED)的文档级关系抽取模型,即通过融合普通实体和代词实体表示来构建共指实体依赖关系的上下文图结构,并在图上进行实体对间的全局交互推理,从而对实体关系的相互依赖进行建模。分别在公共数据集DocRED、DialogRE和MPDD上对CCED模型进行评估,结果显示在DocRED数据集上,与表现最好的基线模型DocuNet-BERT相比,CCED模型在测试集上的Ign F1性能提高0.55%,F1性能提高0.35%。在DialogRE和MPDD数据集上,与表现最好的基线模型COLN相比,CCED模型在DialogRE测试集上的F1性能提高1.02%,在MPDD测试集上的ACC性能提高1.19%。实验结果验证了新模型对于文档级关系抽取的有效性。  相似文献   

17.
实体关系抽取是信息抽取的关键任务之一,是一种包含实体抽取和关系抽取的级联任务.传统的实体关系抽取方式是将实体与关系抽取任务分离的Pipeline方式,忽略了两个任务的内在联系,导致关系抽取的效果严重依赖实体抽取,容易引起误差的累积.为了规避这种问题,我们提出一种端到端的实体关系联合抽取模型,通过自注意力机制学习单词特征,基于句法依存图蕴含的依赖信息构建依存约束,然后将约束信息融入图注意力网络来实现实体与关系的抽取.通过在公共数据集NYT上进行实验证明了我们工作的先进性和显著性,我们的模型在保持高精度的情况下,召回率有了显著的提升,比以往工作中的方法具有更好的抽取性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号