首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。  相似文献   

2.
鉴于现有农业知识图谱对病虫害防治相关实体、关系刻画不够细致的问题,以苹果病虫害知识图谱构建为例,研究细粒度农业知识图谱的构建方法。对苹果病虫害知识的实体类型和关系种类进行细粒度定义,共划分出19种实体类别和22种实体关系,以此为基础标注并构建了苹果病虫害知识图谱数据集AppleKG。使用APD-CA模型对苹果病虫害领域命名实体进行识别,使用ED-ARE模型对实体关系进行抽取。实验结果表明,该文模型在命名实体识别和关系抽取两项子任务中的F1值分别达到了93.08%和94.73%。使用Neo4j数据库对知识图谱进行了存储和可视化,并就细粒度苹果病虫害知识图谱可以为精准病虫害信息查询、智能辅助诊断等下游任务提供底层技术支撑进行了讨论。  相似文献   

3.
秦鹏  唐忠 《计算机仿真》2023,(2):279-283
为加强知识图谱实体间的关联性,提高知识图谱的表达精度,以深度学习为技术支持,构建可视化知识图谱建构模型。采用清洗、jieba分词、卷积神经网络分类等手段处理初始数据集,基于BiLSTM-CRF算法与BiGRU-Attention模型,建立知识实体识别模型与实体关系识别模型。将识别的知识实体与实体关系储存至Neo4j图数据库中,令建构的知识图谱可视化。仿真环节,从人工标注数据集合中随机抽取中文语料,设立测试集与训练集,利用测试集训练识别模型,更新模型参数,采用多指标客观评价训练集的实体与关系识别效果,经指标评估结果验证,所建模型具有相对理想的可视化知识图谱建构效果。  相似文献   

4.
知识图谱是通过符号形式描述世界万物的实体及其之间的关联关系,是一种具备强大知识处理能力的大规模语义网络。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。之前的概念图谱较难覆盖长尾实体,且存在概念粒度较粗和更新困难等问题。针对这些问题,该文提出了一种全新的自动化概念图谱构建方法,能够自动地从海量文本及半结构化数据中构建细粒度的中文概念层次结构,还发布了一个开放的细粒度中文概念知识图谱OpenConcepts,包含440万概念核心实例,5万多个细粒度概念和1 300万概念-实例三元组,并提供相应的调用接口。  相似文献   

5.
互联网时代, 数据呈爆发式的增长, 怎样从这些数据中抽取出有用的信息, 已是人工智能研究中的一个核心问题. 知识图谱作为解决这一问题的重要方法, 已成为人工智能技术发展的核心推动力. 信息抽取是知识图谱构建过程中的首要环节, 它实现了从海量的数据中抽取出结构化实体以及实体之间的关系. 本文探讨知识图谱中信息抽取的发展趋势, 对实体抽取、关系抽取和事件抽取及其关键技术进行了综述, 分析和讨论了当前存在的问题、挑战以及未来发展的方向.  相似文献   

6.
近年来,随着知识图谱相关技术的不断发展,各方面研究对知识图谱本身的需求也不断加强。然而现有的知识图谱无法完全覆盖整个真实世界,同时在知识正确性以及时效性等方面存在问题,这使得知识图谱补全越来越受到研究者的关注。在中文环境下,知识图谱补全任务又呈现出与英文图谱补全任务不同的特性。该文对中/英知识图谱补全任务进行了对比分析,将中文图谱中出现的错误进行了归类。根据该分析结果,该文提出将三元组中实体和关系嵌入表示、实体和关系描述文本嵌入表示结合的链接预测方法MER-Tuck,该方法利用外部的语义补充来加强矩阵分解模型的学习能力。为了验证该方法的有效性,该文为中文知识图谱补全任务构建了新数据集。在该数据集上将该文的方法与主流的链接预测方法进行比较,实验结果表明该文所提方法是有效的。  相似文献   

7.
作为信息抽取任务中极为关键的一项子任务,实体关系抽取对于语义知识库的构建和知识图谱的发展都有着重要的意义。对于中文而言,语义关系更加复杂,实体关系抽取的作用也就愈加显著,因此,对中文实体关系抽取的研究方法进行详细考察极为必要。本文从实体关系抽取的产生和发展开始,对目前基于中文的实体关系抽取技术现状作了阐述;按照关系抽取方法对语料的依赖程度分为4类:有监督的实体关系抽取、无监督的实体关系抽取、半监督的实体关系抽取和开放域的实体关系抽取,并对这4类抽取方法进行具体的分析和比较;最后介绍深度学习在中文实体关系抽取上的应用成果和发展前景。  相似文献   

8.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

9.
为探索知识图谱技术在农业智能生产中应用与落地, 解决复杂多样的农业生产数据的精准查询与可视化问题, 本研究以小麦品种知识为例, 利用爬虫技术, 爬取1852个小麦品种信息、735个微百科、102349个词条; 基于知识图谱技术, 设计品种知识图谱实体与关系, 对抓取数据进行清洗、抽取与融合, 经过实体识别、关系构造等处理, 构建实体258484个, 关系328933个. 在此基础上, 设计了小麦品种知识存储方式, 结构化数据存储在MySQL中, 非结构化数据存储在MongoDB中, 使用Neo4j图数据库存储知识图谱来提高知识的查询性能, 在此基础上实现小麦品种关系查询与实体识别, 提供品种数据精确表达与可视化, 表明利用知识图谱技术实现品种等信息的可视化是可行的, 该研究可以为知识图谱在农业中的应用提供技术参考和理论支撑.  相似文献   

10.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

11.
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016 Task 3和英文SemEval 2010 Task 8 数据集上的实验表明该方法表现出了较好的性能。  相似文献   

12.
科技成果数据呈现跨领域、跨学科特性,传统的信息查询检索技术已难以满足用户日益增长的智能化、精准化的科技成果信息获取需求。分析了知识图谱领域和信息检索领域的研究现状。采用网络爬虫从互联网中高效地爬取科技成果数据,利用实体识别和关系抽取技术识别和发现科技成果数据中的科技实体,构建科技成果知识图谱,并实现科技成果数据的结构化存储。基于ElasticSearch搜索引擎对科技实体构建高效索引,研究科技成果语义相似度计算方法,实现基于知识图谱的科技成果智能查询系统。实验结果验证了所构建的系统能够实现科技成果的高效查询以及相关主题内容的关联发现。  相似文献   

13.
问答系统可以增加用户获取信息的便捷度,而知识图谱作为结构化的数据来源,可以为问答系统提供更加高质量的知识,基于医学知识图谱的问答系统具有重要的研究和应用意义。该文针对成人中常见的原发性肝癌,从医学指南及SemMedDB知识库中抽取其知识三元组,构建了原发性肝癌的知识图谱。在此基础上,实现了流水线式的问答系统: 先识别问题中的实体,再结合TFIDF和词向量生成句子向量,匹配最相似的问题模板,根据模板的语义及问题中的实体,到知识图谱中检索答案。实验表明,该系统可以有效地回答原发性肝癌相关的药物、疾病及表征等问题。  相似文献   

14.
基于BERT的心血管医疗指南实体关系抽取方法   总被引:1,自引:0,他引:1  
武小平  张强  赵芳  焦琳 《计算机应用》2021,41(1):145-149
实体关系抽取是医疗领域知识问答、知识图谱构建及信息抽取的重要基础环节之一。针对在心血管专病知识图谱构建的过程中尚无公开数据集可用的情况,收集了心血管疾病领域的医疗指南并进行相应的实体和关系类别的专业标注,构建了心血管专病知识图谱实体关系抽取的专业数据集。基于该数据集,首先提出双向变形编码器卷积神经网络(BERT-CNN)模型以实现中文语料中的关系抽取,然后根据中文语义中主要以词而不是字为基本单位的特性,提出了改进的基于全词掩模的双向变形编码器卷积神经网络(BERT(wwm)-CNN)模型用于提升在中文语料中关系抽取的性能。实验结果表明,改进的BERT(wwm)-CNN在所构建的关系抽取数据集上准确率达到0.85,召回率达到0.80,F1值达到0.83,优于对比的基于双向变形编码器长短期记忆网络(BERT-LSTM)模型和BERT-CNN模型,验证了改进网络模型的优势。  相似文献   

15.
中文命名实体识别是中文信息处理领域中的一项基本任务,能够为关系抽取、实体链接和知识图谱提供技术支持。与传统命名实体识别方法相比,基于双向长短期记忆(BiLSTM)神经网络模型在中文命名实体识别任务中获得了较好的效果。针对基于字词联合的BiLSTM-CRF模型存在特征提取不够准确的缺陷,在其基础上,引入Gated去噪机制,对输入字向量进行微调,自动学习过滤或者减少文本中不重要的字信息,保留对命名实体识别任务更有用的信息,进而提高命名实体的识别率。在Resume和Weibo数据集上的测试结果表明,该方法有效地提高了中文命名实体识别的效果。  相似文献   

16.
计算机学科评估需要对学科整体信息进行汇总, 过于依赖专家经验且历届学科评估信息复用程度低. 针对此问题, 该文提出了一种计算机学科评估知识图谱构建方法. 该方法基于CIR模型建模知识图谱, 设计了针对文本数据的基于依存句法分析的无监督命名实体关系抽取方法和针对表格的数据流组合模型抽取知识, 并借助Neo4j图数据库实现知识图谱可视化, 为更多学科知识图谱的构建提供思路和借鉴.  相似文献   

17.
针对当下垃圾分类的热门话题,从无到有搭建一个以垃圾分类为中心的一定规模的垃圾分类知识图谱。项目采用网络爬虫、BiLSTM-CRF、BiGRU-Attention等技术对垃圾分类中文文本数据进行爬虫获取、实体识别、关系抽取,形成“实体-关系-实体”的三元组信息,使用Neo4j可视化展示三元组关系,形成结构化的知识图谱。构建垃圾分类知识图谱,为垃圾分类知识问答系统奠定了基础,使人们在日常生活中能够更好地将垃圾分好类、分对类。  相似文献   

18.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

19.
自动化构建的中文知识图谱系统   总被引:1,自引:0,他引:1  
为解决当前中文知识图谱构建的准确率低、耗时长且需要大量人工参与的问题,提出一种端到端基于中文百科数据的完整中文知识图谱自动化构建解决方案,并在此基础上开发实现了面向用户的中文知识图谱系统。在此方案中,通过自定义的网络爬虫,原始百科数据的词条属性以及相关的文本信息会不间断地被抓取到本地系统中,并以带扩展属性的三元组形式保存。后端系统则自动通过图数据库Cayley以及MongoDB数据库系统,对三元组文件数据进行导入,转换为庞大的知识图谱系统,从而在前端为用户提供丰富的基于知识图谱的应用服务。通过与其他知识图谱系统的比较,该方案在构建时间上明显减少,并且知识图谱中的实体及关系数量总规模高于YAGO、知网(HowNet)和中文概念词典等中文知识图谱系统至少50%。  相似文献   

20.
马表型-基因知识库为马的遗传育种和疾病诊治提供辅助参考。从生物医学文献库Pubmed中提取相关文献摘要,采用多实体识别接口Pubtator进行生物实体识别,以半自动化方式通过公共域关系抽取工具OpenIE和人工标注相结合的方法实现马表型-基因知识图谱的构建。知识图谱包含了马的25种常见表型,分析获取到与之关联的基因、变异等实体139个,语义关系177个。马表型-基因知识图谱的构建可以将马科研工作者从繁琐耗时的文献检索中解脱出来,为进一步的研究提供便利,同时也为构建完整的马知识图谱提供技术参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号