首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
风险领域实体关系抽取是扩充现有知识图谱与泛化知识工程应用的关键问题.当前特定领域实体关系抽取面临人工标注语料的严重依赖、实体间关系的交叉互联以及远程监督标注存在噪声数据等核心难题,简单的解决方案是运用风险领域已有的知识图谱作为指导.然而,相比通用领域知识图谱,风险领域知识图谱的规模往往较小,难以满足当前领域实体关系抽取的知识需求.因此,本文既要利用已有的风险领域知识图谱,又要充分挖掘蕴含于领域文本数据中规律性的风险知识.本文提出基于知识图谱与文本互注意力的风险领域实体关系抽取方案.首先,根据已有的知识图谱抽象出风险领域实体关系及其约束条件;其次,运用少量高质的实体关系与大规模风险领域语料训练知识图谱与文本的互注意力机制模型,并融合文本表示学习与深度神经网络的方法进行风险领域实体关系的抽取.最后,针对给定的领域文本数据,综合关系约束与关系抽取结果得出风险领域实体关系类型.本文以风险领域数据为例,仅用少量的领域知识,即可获取较好的实体关系抽取效果.  相似文献   

2.
近年来,基于注意力(attention)机制的循环神经网络在文本分类中表现出显著的性能。然而,当训练集数据有限时,测试集数据中许多领域实体指称项在训练集中处于低频,甚至从未出现,如中文话语领域分类任务。该文提出结合特殊领域实体识别的远监督话语分类模型。首先,通过远监督(distant supervision)的方式获取数据集中的领域知识,显著地减少了人工操作;其次,利用特殊领域实体识别和本地构建的补充性知识库去补全远监督获取的领域知识,旨在为模型提供更加全面的领域知识;最后,对基于上下文的语义特征和知识特征这两种异构信息提出了细粒度拼接机制,在词级上融合了预训练词汇语义表达和领域知识表达,有效提升了分类模型的性能。通过与研究进展的文本分类模型的对比实验表明,该文模型在中文话语领域分类基准数据集的实验上取得了较高的正确率,特别是在知识敏感型领域,较研究进展方法具有显著优势。  相似文献   

3.
针对现有意图识别联合模型在专业领域知识图谱问答中容易发生识别领域实体以及问句分类错误的情况,提出一个结合了领域知识图谱的意图识别联合模型。该模型有三步,将领域知识图谱中实体对应的本体标签以及本体间关系导入训练数据集,形成包含本体标签的知识文本以及额外包含本体关系的知识文本图;通过字符级嵌入和位置信息嵌入将包含了本体标签的知识文本转化成嵌入表示并依据知识文本图创建实体关系可视矩阵,明确知识文本各成分的相关程度;将嵌入表示和实体关系可视矩阵输入模型编码层进行模型的训练。以高速列车领域知识图谱为例,经过准确率和召回率的验证,以该方法训练出的模型在高速列车领域问答数据集的意图识别任务上取得了更好的表现。  相似文献   

4.
在知识互联的大数据环境下,初步构建的领域知识图谱可展示该领域知识的结构化信息,但实体之间隐含的潜在关系并未在图谱中得到充分表达。为解决领域知识图谱实体关系丰富和扩展问题,提出一种基于实体间关联规则分析与主题分析的关系发现方法。应用与领域实体相关的数据,通过实体间关联规则分析与实体相关数据集间主题分布相似度分析获取领域实体间潜在关系,将新发现的关系融合到初步构建的知识图谱中,实现领域知识图谱的潜在关系扩展。实验结果表明,该方法能够发现部门实体间的共性,挖掘出隐藏在领域实体间的关系,可有效地应用于领域实体间关系发现,丰富领域知识图谱。  相似文献   

5.
鉴于视频感知方式的多样性,视频标签层级分类算法均从视觉和文本模态入手,训练联合模型共同推断视频内容。但现有研究通常只适用于粗粒度的分类,针对影视剧名的分类,则需要更加细粒度的识别。提出了一个融合知识图谱的影视视频标签分类算法。首先,使用了基于大规模通用数据训练的多模态预训练模型提取了视觉和文本的特征,训练了一个多任务的视频标签预测模型,得到视频的类型、题材和实体三级标签;通过在多任务学习网络中引入相似性任务提高分类模型训练的难度,使得同类样本特征更加紧密,且更好地表达样本差异。其次,对于最细粒度的实体标签,提出了一个局部注意力头扩展的实体纠错模型,引入外部知识图谱的共现信息对前置模型的预测结果做修正,得到更准确的实体标签预测结果。采集豆瓣的半结构化数据构建了影视知识图谱并对影视视频标签分类模型进行了实证研究。视频标签分类的实验结果表明,首先,基于多任务网络结构,在训练分类任务时加入交叉熵损失函数和相似性损失函数对模型进行共同约束优化了特征表达,在类型、题材、实体标签的Top-1分类准确率上分别提升了3.70%、3.35%和16.57%;其次,针对前置模型的困难样本提出的全局-局部注意力...  相似文献   

6.
提出一种基于维基百科的领域实体发现方法,该方法将构成领域实体的典型字或词作为种子元素,利用少量种子元素作为实体发现的初始知识,有效地克服了传统方法在获取种子词条时过分依赖领域专家的局限,同时还利用维基百科词条中的分类信息,通过计算维基百科类与领域类间的隶属度实现领域实体的有效扩充。人工抽样对实体发现结果进行检验,平均准确率达到80%左右,同时还将构建出的领域实体知识应用到文本分类中,结果显示,当训练集具有一定规模时,以实体为特征的分类模型的准确率较以词为特征分类模型的准确率有显著提高,说明实体知识在实际应用中的有效性。提出的方法具有较好的领域独立性和语种独立性,可较为便捷地移植到其他语种与领域。  相似文献   

7.
随着认知计算的飞速发展,通用知识图谱的自动构建取得了极大的进步,但在垂直领域由于缺乏本体等语义信息,导致进展缓慢。叙词表广泛分布于各个专业领域且蕴藏着丰富的语义信息,如能对这些语义信息进行合理的提取和利用,必然能在一定程度上帮助领域知识图谱的自动构建。该文提出两个假设,利用假设可以从叙词表内部结构中提取实体类型和关系类型,进而设计了一种基于叙词表的领域知识图谱初始种子集自动生成算法。最后,以地质领域和林业领域的叙词表作为实验对象,采用Bootstrapping算法,利用由叙词表自动生成的初始种子集进行抽取工作,通过对抽取到的结果进行分析,结果表明利用叙词表得到的初始种子集可以取得同人工设计种子比较接近的效果。此外,所提模型具有通用性,为叙词表在构建领域知识图谱中的应用提供了一种新的思路。  相似文献   

8.
实体抽取是自然语言处理中的一项基础任务,基于实体抽取的医疗领域实体分类是医疗知识图谱构建的基础,现有的实体抽取方法鲜有基于字符级的特征.文中提出了KBLCC方法,一种融合实体关键字特征的医疗领域实体分类方法.通过对医疗领域文本的语言特点进行分析与总结,发现医疗领域实体通常包含一些明显的关键字特征,能够辅助实体分类任务....  相似文献   

9.
跨境民族是指居住地"跨越"了国境线,但又保留了原来共同的某些民族特色,彼此有着同一民族的认同感的民族,对于跨境民族文化中涉及到的文本分类问题可以看作领域文本细分类任务,但是,目前面临类别标签歧义的问题.为此提出一种融合领域知识图谱的跨境民族文化分类方法.首先把知识图谱中的知识三元组通过TransE模型表示为实体语义向量...  相似文献   

10.
针对当下垃圾分类的热门话题,从无到有搭建一个以垃圾分类为中心的一定规模的垃圾分类知识图谱。项目采用网络爬虫、BiLSTM-CRF、BiGRU-Attention等技术对垃圾分类中文文本数据进行爬虫获取、实体识别、关系抽取,形成“实体-关系-实体”的三元组信息,使用Neo4j可视化展示三元组关系,形成结构化的知识图谱。构建垃圾分类知识图谱,为垃圾分类知识问答系统奠定了基础,使人们在日常生活中能够更好地将垃圾分好类、分对类。  相似文献   

11.
国内垂直领域知识图谱发展现状与展望   总被引:1,自引:0,他引:1  
为了充分展现国内在垂直知识图谱领域研究的现状,以垂直领域知识图谱为研究对象对其发展现状和趋势进行综述.对垂直领域知识图谱的定义和分类、架构和关键技术的发展现状进行了详细论述;针对垂直领域知识图谱的具体应用进行了论述,并以学术信息知识图谱和医药卫生知识图谱为例进行了详细介绍.最后对垂直领域知识图谱发展中存在的问题和对策以及未来的趋势进行了探讨.  相似文献   

12.
煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。  相似文献   

13.
知识图谱在很多人工智能领域发挥着越来越重要的作用。知识图谱表示学习旨在将三元组中的实体和关系映射到低维稠密的向量空间。TransE、TransH和TransR等基于翻译操作的表示学习方法,只考虑了知识图谱的三元组信息孤立的学习表示,未能有效利用实体描述、实体类型等重要信息,从而不能很好地处理一对多、多对多等复杂关系。针对这些问题,该文提出了一种融合实体描述及类型的知识图谱表示学习方法。首先,利用Doc2Vec模型得到全部实体描述信息的嵌入;其次,对实体的层次类型信息进行表示,得到类型的映射矩阵,结合Trans模型的三元组嵌入,得到实体类型信息的表示;最后,对三元组嵌入、实体描述嵌入及实体类型嵌入进行连接操作,得到最终实体嵌入的表示,通过优化损失函数训练模型,在真实数据集上分别通过链接预测和三元组分类两个评测任务进行效果评估,实验结果表明新方法优于TransE、TransR、DKRL、SimplE等主流模型。  相似文献   

14.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

15.
知识表示学习旨在将知识图谱中的实体和关系表示成低维稠密实值向量,能有效缓解知识图谱的数据稀疏性和显著提升计算效率。然而,现有大多数知识表示学习方法仅将实体视为三元组的一个组成部分,没有考虑实体自身具有的特质,如实体相似性。为了加强嵌入向量的语义表达,提出基于实体相似性的表示学习方法SimE。该方法首先利用实体的结构邻域度量实体的相似性,再将实体的相似性和拉普拉斯特征映射结合作为基于三元组事实的表示学习方法的约束,形成联合表示。实验结果表明,该方法在链接预测和三元组分类等任务上与目前最好的方法性能接近。  相似文献   

16.
提出了一个基于图像识别的跨模态实体链接模型。首先,利用人机交互的图像目标截取模块实现图像目标指代,支持多目标图像的输入,将复杂的目标检测任务简化为图像识别分类任务。然后,设计了一个基于轻量快速的MobileNet V2网络训练的图像识别模块,在自建目标图像数据集环境下进行测试。实验结果验证了该模型能够减小模型规模,降低对硬件的要求,通过有监督的数据增强,在少样本训练条件下达到了94.06%的识别准确度,缓解了数据缺乏的问题。最后,进一步借助模型输出的目标实体命名标签,完成跨模态实体链接任务,能够有效支撑图像输入条件下的知识图谱问答任务。  相似文献   

17.
域名生成算法(DGA)存在变化多、部分类别样本难获取的特点,使得采用传统机器学习的恶意域名检测模型准确性不高。提出一种基于迁移学习和多核CNN的小样本DGA恶意域名检测模型。该模型将目标域名映射到向量空间中,使用样本充足的DGA种类进行预训练,并迁移预训练得到的参数到小样本检测模型。采用多核CNN小样本分类模型根据发音习惯进行域名特征提取并分类。通过实验对比发现,无知识迁移的小样本分类模型只有11类域名准确率超过92%,经过迁移学习的多核CNN模型20类准确率超过92%,11类准确率超过97%,检测效果接近数据充足时的分类效果。  相似文献   

18.
基于领域知识的图模型词义消歧方法   总被引:1,自引:0,他引:1  
鹿文鹏  黄河燕  吴昊 《自动化学报》2014,40(12):2836-2850
对领域知识挖掘利用的充分与否,直接影响到面向特定领域的词义消歧(Word sense disambiguation, WSD)的性能.本文提出一种基于领域知识的图模型词义消歧方法,该方法充分挖掘领域知识,为目标领域收集文本领域关联词作为文本领域知识,为目标歧义词的各个词义获取词义领域标注作为词义领域知识;利用文本领域关联词和句子上下文词构建消歧图,并根据词义领域知识对消歧图进行调整;使用改进的图评分方法对消歧图的各个词义结点的重要度进行评分,选择正确的词义.该方法能有效地将领域知识整合到图模型中,在Koeling数据集上,取得了同类研究的最佳消歧效果.本文亦对多种图模型评分方法做了改进,进行了详细的对比实验研究.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号