首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

2.
针对从自然标注大数据中抽取历史沿革主题信息的问题,提出了一种融合PAM主题模型与主题偏好TextRank的方法。该方法利用PAM主题模型获取历史沿革主题基于其它相关主题的分布,和不同主题基于词的分布;主题偏好TextRank算法则根据PAM所获得的主题和词的分布,在随机游走的过程中更加偏好于与历史沿革主题相关度大的结点,从而更有利于抽取历史沿革主题信息。因历史沿革主题特征复杂,与其它主题关联度大,词项本身是否表达历史沿革主题信息也并不明确,因此PAM即可以获取基于词空间的分布,又可以获取基于主题分布,对解决这类问题有很大的帮助。利用已获取的主题信息,主题偏好TextRank算法偏向于与历史沿革主题相关的结点进行随机游走,使得抽取结果趋向于历史沿革主题,从而提高了抽取的准确性。实验结果表明,该方法在抽取历史沿革主题信息上更有效。  相似文献   

3.
随着生命科学技术的发展,生物医学领域文献呈指数级增长,如何从海量文献中挖掘、抽取有价值的信息成为生物医学领域新的研究契机。作为信息抽取的核心技术,命名实体识别和关系抽取成为生物医学文本挖掘的基础和关键,其主要工作为识别生物医学文本中的实体,并提取实体间存在的生物医学语义关系。当前深度学习技术在各领域自然语言处理任务中取得了长足的发展,旨在总结基于神经网络的生物医学实体识别和关系抽取的方法,从概念、进展、现状等多角度全面阐述各项技术在生物医学领域的发展历程,进一步明确生物医学文本信息抽取工作的探索方向。  相似文献   

4.
实体关系抽取是信息抽取领域的重要研究内容,对知识库的自动构建起着至关重要的作用。针对非结构化文本实体关系抽取存在上下文环境信息难以准确表征,致使现有抽取模型准确率不能满足实际应用需求的问题,该文提出了一种新型的实体关系抽取模型BiGRU-Att-PCNN。该模型是基于混合神经网络,首先,构建双向门控循环单元(BiGRU)以更好地获取文本序列中的上下文语序的相关信息;然后,采用注意力(Attention)机制来达到自动关注对关系影响力高的序列特征的目的;最后,通过采用分段卷积神经网络(PCNN),从调整后的序列中较好地学习到了相关的环境特征信息来进行关系抽取。该模型在公开的英文数据集SemEval 2010 Task 8上取得了86.71%的F1值,实验表明,该方法表现出了较好的性能,为信息抽取领域实体关系的自动获取提供了新的方法支持。  相似文献   

5.
针对现有的中文开放领域知识库问答系统缺乏对多关系问答的支持,将知识库问答过程分为实体识别、实体关系抽取和答案检索三个步骤,重点讨论了实体关系抽取的实现方法。在实体关系抽取阶段,提出一种基于规则的关系词提取方法抽取问句中的关系词,然后将关系词与知识库中的谓词进行相似度计算,得到关系集合,结合实体识别的结果,将问句转换为具有语义信息的三元组形式。实验结果表明,该方法可以支持多关系问答,并且具有较高的平均F1分数。  相似文献   

6.
在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。  相似文献   

7.
信息抽取是数据挖掘的一个重要领域,文本信息抽取是指从一段自由文本中抽取出指定的信息并将其结构化数 据存入知识库供用户查询或下一步处理所用。人物属性信息抽取是智能人物类搜索引擎构建的重要基础,同时结构化信 息也是计算机所能理解的一种数据格式。作者提出了一种自动获取百科人物属性的方法,该方法利用各属性值的词性信 息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。实验表明该 方法从百科文本中抽取人物属性信息是有效的。抽取的结果可以用来构建人物属性知识库。  相似文献   

8.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

9.
在信息抽取领域,从非结构化文本中抽取实体关系是一项基础且重要的任务,且面临实体重叠和模型误差累积等挑战.本文以关系为导向,提出一种改进的实体关系联合抽取方法.该方法将实体关系抽取任务分为关系抽取与实体抽取两个子任务.在关系抽取任务上采用自注意力机制关注词与词之间的重要程度从而模拟实体信息,并使用平均池化来表征整个句子信息;在实体抽取任务上结合关系信息使用条件随机场识别该关系下的实体对.本模型不仅能够利用存在关系必定存在实体对的思想解决实体对重叠问题,还能够在训练过程中利用数据集中已知的关系使实体抽取模块不依赖于关系抽取模块的结果来训练,从而在训练阶段避免误差累积.最后,在WebNLG和NYT公开数据集上验证了该模型的有效性.  相似文献   

10.
在知识库构建中,最重要的部分就是提取文本中的三元组,而三元组的提取需要实体抽取和实体关系抽取技术。针对实体抽取提出了一种CWATT-BiLSTM-LSTMd(character word attention-bidirectional long short-term memory-long short-term memory)模型。该模型可以有效解决实体抽取中一词多义问题,并且可以模拟标签的依赖问题。在实体抽取的基础上进行实体关系的抽取,为解决实体关系抽取中远程监督的局限性,提出一种基于强化深度学习的RL-TreeLSTM(reinforcement learning tree long short-term memory)模型。该模型分为选择器和分类器,选择器选择有效的句子传入分类器,分类器对句子中实体对的关系标签进行预测。选择器和分类器共同训练以优化选择和分类过程,可以有效降低远程监督带来的噪音。实验结果表明,提出的模型和方法能有效地提高实体及其关系的抽取性能。  相似文献   

11.
基于双向语义的中文实体关系联合抽取方法   总被引:1,自引:0,他引:1  
禹克强  黄芳  吴琪  欧阳洋 《计算机工程》2023,49(1):92-99+112
现有中文实体关系抽取方法通常利用实体间的单向关系语义特征进行关系抽取,然而仅靠单向语义特征并不能完全利用实体间的语义关系,从而使得实体关系抽取的有效性受到影响。提出一种基于双向语义的中文实体关系联合抽取方法。利用RoBERTa预训练模型获取具有上下文信息的文本字向量表征,通过首尾指针标注识别句子中可能存在关系的实体。为了同时利用文本中的双向关系语义信息,将实体分别作为关系中的主体与客体来建立正负关系,并利用两组全连接神经网络构建正负关系映射器,从而对每一个输入实体同时从正关系与负关系的角度构建候选关系三元组。将候选关系三元组分别在正负关系下的概率分布序列与实体位置嵌入特征相结合,以对候选三元组进行判别,从而确定最终的关系三元组。在DuIE数据集上进行对比实验,结果表明,该方法的精确率与召回率优于MultiR、CoType等基线模型,其F1值达到0.805,相较基线模型平均提高了12.8%。  相似文献   

12.
王勇超 《计算机应用研究》2021,38(4):1004-1007,1021
针对现有实体和关系联合抽取方法中存在的实体与关系依赖建模不足、实体发生重叠难以抽取其所涉及的多个关系的问题,设计了基于深度学习的联合抽取框架。首先针对依赖建模不足问题,从预训练语料中提取实体共现特征,建模了实体间的潜在语义关系和实体与关系之间的依赖关系。其次提出了新颖的指针标注方法,该标注方法可以通过指针表示关系类别,由于任一实体可以被多个指针指向,所以可以在一段文本中标注重叠的实体并抽取多个实体—关系三元组结果。最后,为了有效利用单词的丰富语义和指针之间依赖的信息,设计了一个标签感知注意力机制,融合了包括来自编码层的字词信息、相关的共现语义信息。与研究中前沿的联合提取方法相比,该方法在百度DuIE测试集上实现了F1值的增加。通过实验结果表明指针标注方法在一定程度上可以解决实体重叠问题。  相似文献   

13.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

14.
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够 提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。  相似文献   

15.
针对目前在分布异构的大规模软件开发中难以高效地知晓信息和发现知识的问题,将语义网引入软件工程领域,对多源异构数据进行细粒度语义关联,提出本体构建、关联抽取和发现的方法,实现基于本体的软件工程关联数据的自动构建。该方法对软件工程本体进行概念抽取、合并、实例消解和属性消歧,从软件仓库结构化数据集中抽取出完整无冗余的关联数据;并采用同义词、动宾短语和结构关系三个特征利用自然语言处理(NLP)技术和信息检索(IR)技术从软件仓库中发现潜在的关联数据。实验结果表明,所提出的方法能从分布式软件工程数据集中自动构建和融合生成软件工程本体,并有效地发现潜在的关联数据将其扩充到软件工程本体中;与Baseline、Phraing和O-CSTI三种方法相比,关联数据发现的召回率、精准率和F值都有显著提高。  相似文献   

16.
知识库问答实体链接任务需要将问句内容精准链接到知识库中实体.当前方法大多难以兼顾链接实体的召回率和精确率,并且仅能根据文本信息对实体进行区分筛选.因此,文中在合并子步骤的基础上,提出融合多维度特征的知识库问答实体链接模型(MDIIEL).通过表示学习方法,将文本符号、实体和问句类型、实体在知识库中语义结构表达等信息整合并引至实体链接任务中,加强对相似实体的区分,在提高准确率的同时降低候选集的大小.实验表明,MDIIEL模型在实体链接任务性能上具有整体性提升,在大部分指标上取得较优的链接结果.  相似文献   

17.
赵畅  李慧颖 《中文信息学报》2019,33(11):125-133
面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。  相似文献   

18.
为了提高特定领域核心概念抽取的效率,提出一种基于模糊贝叶斯决策的核心概念抽取方法。在特定领域内随机抽取大量文本并进行分词获取候选概念;然后采用TF-IDF算法计算候选概念的各项特征值,采用概念隶属度归一化处理候选概念特征值;最终通过贝叶斯决策计算候选概念为核心概念的概率。在财经领域相关数据集上进行文本核心概念抽取的实验结果表明,所提方法的F1值相比TextRank、LDA主题模型、word2vec词聚类模型、RNN、LSTM等的F1值有所提高。综合实验结果表明,基于模糊贝叶斯决策的核心概念抽取方法在核心概念抽取方面表现较好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号