首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 656 毫秒
1.
自动化构建的中文知识图谱系统   总被引:1,自引:0,他引:1  
为解决当前中文知识图谱构建的准确率低、耗时长且需要大量人工参与的问题,提出一种端到端基于中文百科数据的完整中文知识图谱自动化构建解决方案,并在此基础上开发实现了面向用户的中文知识图谱系统。在此方案中,通过自定义的网络爬虫,原始百科数据的词条属性以及相关的文本信息会不间断地被抓取到本地系统中,并以带扩展属性的三元组形式保存。后端系统则自动通过图数据库Cayley以及MongoDB数据库系统,对三元组文件数据进行导入,转换为庞大的知识图谱系统,从而在前端为用户提供丰富的基于知识图谱的应用服务。通过与其他知识图谱系统的比较,该方案在构建时间上明显减少,并且知识图谱中的实体及关系数量总规模高于YAGO、知网(HowNet)和中文概念词典等中文知识图谱系统至少50%。  相似文献   

2.
知识图谱中实体所涉及的关系之间通常具有相互依赖的性质,基于这种依赖性可利用数据中的新实体来构造更多的三元组从而补全知识图谱。贝叶斯网(BN)是一种表示和推理变量之间相互依赖关系和不确定性知识的有效模型,将BN作为模型框架,研究基于BN的开放世界知识图谱补全方法。提出知识图谱中关系之间依赖性的表示模型构建方法,构建过程包括模型的基础结构构建和参数表计算,基于关系对实体的描述作用,根据描述作用强的关系决定描述作用弱的关系这一规则构建模型的基础结构。给出基于知识图谱中的三元组来抽取数据集的方法,采用最大似然估计法并利用模型的基础结构和数据集来计算模型的参数表。提出基于BN概率推理的三元组构造方法,将开放世界数据中包含新实体三元组的关系和尾实体作为证据,利用概率推理计算新实体与其他实体之间存在关系的条件概率,以此为依据构造与新实体相关的更多三元组,从而完善知识图谱。在FB15k和DBpedia数据集中分别进行三元组类型预测和链路预测实验,结果表明,该方法具有有效性,其预测召回率和MR值相比现有知识图谱补全方法均有明显提升。  相似文献   

3.
随着人工智能技术引发新一轮科技革命和社会进步,高职《人工智能应用导论》课程在众多院校相继开设,对其开展知识图谱的构建应用研究逐渐兴起,然而知识图谱的构建需要领域专家共同探讨、手工构建,十分严谨而繁琐,人工智能知识更新又较为快速,目前高职《人工智能应用导论》知识图谱的构建较为缺乏。本文借助机器学习和自然语言处理技术分别对《人工智能应用导论》课程文本资源进行实体识别和关系抽取,接着进行知识融合,最后基于Neo4j图数据库可视化展示并进行知识点推理。实验结果表明:构造后的课程知识图谱涵盖了《人工智能应用导论》课程所有知识点及其关系属性,助力开展知识点学习推理和学习路径推荐研究。  相似文献   

4.
知识图谱技术在行业领域的运用越来越广, 因此研究知识图谱技术在成果地质资料领域中的运用, 解决到馆用户的精确查询和可视化问题变得更加重要. 本文以成果地质资料为研究对象, 利用爬虫技术, 爬取成果地质资料中的矿产、地理区域、组织机构等实体信息. 结合知识图谱相关技术, 设计成果地质资料知识图谱地质实体和关系, 经过命名实体识别、关系抽取和属性抽取, 构建成果地质资料实体266787个, 关系306686个. 使用Neo4j图形化数据库存储知识图谱来提高地质资料的查询性能, 方便到馆用户的查询. 该研究可以为知识图谱在成果地质资料上面的应用提供理论支撑.  相似文献   

5.
探讨基于Neo4j构建《伤寒论》知识图谱的方法。以中医古籍《伤寒论》为知识图谱构建的数据源。在《中医临床术语标准规范》等规范的指导下,采用人工知识抽取对中医药相关术语的提取、预处理以及标准化,并利用图数据库Neo4j对所构建的知识图谱进行存储。构建了包含639个中医实体以及2076条实体关系的基于Neo4j的《伤寒论》知识图谱。  相似文献   

6.
鉴于近年来气候变化的加剧,海洋灾害频繁发生且后果严重,构建面向海洋综合减灾的问答系统成为迫切需要完成的任务。本研究通过收集和整理海洋减灾领域的专业知识,将知识建模成包含实体、属性和关系的知识图谱。结合知识图谱识别问句实体,通过语义匹配和问题解析构建模型分类问句意图,从图谱中检索答案。此外,研究提供了可视化的海洋灾害知识图谱,支持交互式探索和查询,能够直观了解灾害之间的关联性,有效提升用户对海洋防灾知识的了解程度。  相似文献   

7.
孙亚茹  杨莹  王永剑 《计算机工程》2022,48(10):116-122
解决多源知识对齐和知识冗余问题是在开放数据域自动构建知识图谱的关键。建立一种融合知信学习与深度学习的知识图谱自动构建模型。分析图卷积神经网络(GCN)模型与知信学习之间的理论联系,以先验知识与深度学习相结合的方式构建实体语义联合空间,将先验知识对模型的干预形式化,并利用自动编码器实现一个细粒度的实体对齐和关系抽取模型。同时,采用GCN与多头注意力相结合的方式,缓解因结构数据中多跳推理造成实体依赖信息丢失的影响。在开源数据集SemEval、FB15k和收集整理的MD数据集上的实验结果表明,该模型针对关系抽取、实体对齐和三元组抽取任务的F1值分别达到89.5%、86.6%和84.2%,较BERT-Softmax模型分别提升了0.3、2.4和0.3个百分点,具有更好的信息学习能力。  相似文献   

8.
在知识互联的大数据环境下,初步构建的领域知识图谱可展示该领域知识的结构化信息,但实体之间隐含的潜在关系并未在图谱中得到充分表达。为解决领域知识图谱实体关系丰富和扩展问题,提出一种基于实体间关联规则分析与主题分析的关系发现方法。应用与领域实体相关的数据,通过实体间关联规则分析与实体相关数据集间主题分布相似度分析获取领域实体间潜在关系,将新发现的关系融合到初步构建的知识图谱中,实现领域知识图谱的潜在关系扩展。实验结果表明,该方法能够发现部门实体间的共性,挖掘出隐藏在领域实体间的关系,可有效地应用于领域实体间关系发现,丰富领域知识图谱。  相似文献   

9.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

10.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

11.
车超  刘迪 《计算机工程》2022,48(3):74-80
实体对齐表示在不同的知识图谱中查找引用相同现实身份的实体。目前主流的基于图嵌入的实体对齐方法中的对齐实体通常具有相似的属性,有效利用属性信息可提升实体对齐效果,同时由于不同知识图谱之间的知识分布差异,仅考虑单个方向的对齐预测会导致预测结果出现偏差。针对上述问题,提出一种改进的跨语言实体对齐方法。利用融合属性信息的双向对齐图卷积网络模型,将前馈神经网络编码实体对应的属性信息与初始的实体嵌入相结合,得到联合属性信息的实体表示,并使用双向对齐机制实现跨语言的实体对齐预测。在3个跨语言数据集上的实验结果表明,该方法通过融合更多的知识图谱信息增强了实体表示能力,并且利用双向对齐机制缓解了数据分布差异问题,相比基于图嵌入的实体对齐方法整体性能更优。  相似文献   

12.
田江伟  柳青 《计算机应用研究》2021,38(7):1979-1982,1992
现有的基于图卷积的实体对齐算法大多基于实体之间的关系结构构建,没有有效利用实体的属性结构信息,为此提出一种结合实体属性结构信息的图卷积实体对齐方法.该方法在实体以属性连接起来的知识图上进行卷积,学习实体基于属性结构的嵌入,再结合实体基于关系结构的嵌入来比较实体的相似性.在真实数据集上的实验结果表明提出的方法优于基准方法,从而为实体对齐提供了一种新的可能.  相似文献   

13.
辅助投保人了解保险产品的条款是保险应用关注的热点问题之一, 借助知识图谱技术辅助人身保险业务开展是一种可行的方法. 本文首先从多源数据中提取并构建人身保险知识图谱LIKG. 具体而言, 构建BERT-IDCNN-BiLSTM-CRF模型提取非结构化文本数据的实体, 通过多种短文本相似度算法以及集成排序算法完成实体对齐; 设计并使用Bootstrapping和分类预测两阶段抽取方法对保险产品进行属性填充. 然后, 根据构建的LIKG, 设计开发原型系统, 该系统使用实体抽取和属性抽取算法提供知识获取功能、设计CF-IIF指标提供属性推荐功能以及实现可视化界面帮助用户快速掌握人身保险产品的信息, 展示LIKG的应用价值.  相似文献   

14.
知识图谱嵌入模型KR-EAR用实体及其属性值的嵌入(向量)来定义属性三元组的评分函数,导致多值属性的不同属性值学得的嵌入很相似,即KR-EAR未能精细地表示多值属性,从而影响下游任务的准确度。论文通过改进KR-EAR的属性三元组表示来提出一种精细表示多值属性的知识图谱嵌入模型,称为KGE-EAV。在KGE-EAV的属性值空间中,每个实体都对应一个超平面,该实体的每个属性值嵌入都在该超平面上形成一个投影向量;KGE-EAV用这样的投影向量(而不是属性值嵌入)来定义属性三元组的评分函数,从而可以为多值属性的不同属性值学得不同的嵌入。实验表明,在实体预测和属性预测两项任务上,KGE-EAV的准确度均优于KR-EAR和三个基线模型。  相似文献   

15.
实体对齐旨在找到位于不同知识图谱中的等效实体,是实现知识融合的重要步骤.当前主流的方法是基于图神经网络的实体对齐方法,这些方法往往过于依赖图的结构信息,导致在特定图结构上训练得到的模型不能拓展应用于其他图结构中.同时,大多数方法未能充分利用辅助信息,例如属性信息.为此,本文提出了一种基于图注意力网络和属性嵌入的实体对齐方法,该方法使用图注意力网络对不同的知识图谱进行编码,引入注意力机制从实体应用到属性,在对齐阶段将结构嵌入和属性嵌入进行结合实现实体对齐效果的提升.在现实世界的3个真实数据集上对本文模型进行了验证,实验结果表明提出的方法在很大程度上优于基准的实体对齐方法.  相似文献   

16.
提出一种宠物知识图谱的构建框架。通过自顶向下的方式设计并构建了schema(概念)层,从半结构化和非结构化数据中进行知识抽取构建了数据层。在对非结构化数据的实体抽取方面,提出了一种条件随机场(CRF)与宠物症状词典相结合的症状命名实体识别方法。该方法利用症状词典对文本进行识别,获取语义类别信息,CRF结合语义信息实现对症状实体的识别抽取。实验结果表明了该方法的有效性。在知识表示方面,选用OrientDB数据库支持的属性图模型来表示。知识图谱采用OrientDB图数据库来完成知识的存储,并实例展示了构建的宠物知识图谱。  相似文献   

17.
Knowledge graphs (KGs) have been widely accepted as powerful tools for modeling the complex relationships between concepts and developing knowledge-based services. In recent years, researchers in the field of power systems have explored KGs to develop intelligent dispatching systems for increasingly large power grids. With multiple power grid dispatching knowledge graphs (PDKGs) constructed by different agencies, the knowledge fusion of different PDKGs is useful for providing more accurate decision supports. To achieve this, entity alignment that aims at connecting different KGs by identifying equivalent entities is a critical step. Existing entity alignment methods cannot integrate useful structural, attribute, and relational information while calculating entities’ similarities and are prone to making many-to-one alignments, thus can hardly achieve the best performance. To address these issues, this paper proposes a collective entity alignment model that integrates three kinds of available information and makes collective counterpart assignments. This model proposes a novel knowledge graph attention network (KGAT) to learn the embeddings of entities and relations explicitly and calculates entities’ similarities by adaptively incorporating the structural, attribute, and relational similarities. Then, we formulate the counterpart assignment task as an integer programming (IP) problem to obtain one-to-one alignments. We not only conduct experiments on a pair of PDKGs but also evaluate our model on three commonly used cross-lingual KGs. Experimental comparisons indicate that our model outperforms other methods and provides an effective tool for the knowledge fusion of PDKGs.   相似文献   

18.
社交媒体与知识图谱的数据各具特点,相互之间的数据互通具有较强的现实意义,而社交账号与知识图谱实体的对齐是数据互通的前提。针对社交媒体与知识图谱的特点,提出了一种基于子图相交的对齐方法,旨在给定社交账号的情况下,根据社交账号的相关信息在知识图谱中找到正确的对应条目。该方法在候选实体生成阶段对比实验了不同的生成策略。在目标实体选择阶段提出一种基于子图相交的算法,利用社交账号的社交关系在知识图谱中映射成子图。子图相交算法通过考察子图中候选实体周围顶点的"稠密"程度,确定社交账号所对应的目标实体。由于该领域尚无公开可用的测试数据集,构造了一个基于Twitter与Wikidata的对齐数据集,使用该数据集对该方法进行评估,对比测试了标题匹配算法和AGDISTIS算法,子图相交算法能够达到更好的效果。  相似文献   

19.
药用植物文本的命名实体识别对中医药领域的信息抽取和知识图谱构建起着重要作用。针对药用植物属性文本存在长序列语义稀疏的问题,提出一种基于注意力机制的双向长短时记忆网络(BiLSTM)和条件随机场(CRF)模型相结合的疾病实体识别方法(BiLSTM+ATT-CRF,BAC)。首先对药用植物属性文本进行预处理和半自动化标注构建数据集,并进行预训练得到低维词向量;然后将这些低维词向量输入BiLSTM网络中,得到双向语义依赖的特征向量;Attention层把注意力集中到与当前输出特征高度相关的信息上;最后通过条件随机场(CRF)算法获取最优的标签序列并解码输出。实验结果表明,BAC方法针对药用植物属性文本的长序列语义稀疏问题,疾病命名实体识别效果较传统方法更优。利用BAC方法训练好的模型从1680条文本句子中识别疾病命名实体,共抽取出1422个疾病实体。与药用植物名称进行匹配,共抽取出4316个药用植物治疗疾病的三元组数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号