首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
实体链接是指将文本中具有歧义的实体指称项链接到知识库中相应实体的过程。该文首先对实体链接系统进行了分析,指出实体链接系统中的核心问题—实体指称项文本与候选实体之间的语义相似度计算。接着提出了一种基于图模型的维基概念相似度计算方法,并将该相似度计算方法应用在实体指称项文本与候选实体语义相似度的计算中。在此基础上,设计了一个基于排序学习算法框架的实体链接系统。实验结果表明,相比于传统的计算方法,新的相似度计算方法可以更加有效地捕捉实体指称项文本与候选实体间的语义相似度。同时,融入了多种特征的实体链接系统在性能上获得了达到state-of-art的水平。  相似文献   

2.
实体链接任务是识别文本中潜在的实体指称,并将其链接到给定知识库中无歧义的实体上。在绝大多数情况下,实体链接可能存在中文短文本缺乏有效上下文信息,导致存在一词多义的歧义现象;同时候选链接过程中,候选实体的不确定相关性也影响候选实体链接精确性。针对上述两个问题,提出深度神经网络与关联图相结合的实体链接模型。模型添加字符特征、上下文、信息深层语义来增强指称和实体表示,并进行相似度匹配。利用Fast-newman算法将图谱知识库聚类划分不同类型实体簇,将相似度计算得分最高候选实体所属实体簇映射到关系平面,构建聚类实体关联图。利用偏向随机游走算法考查候选实体之间语义相关度,计算指称与候选实体的匹配程度,输入链接实体。该模型可以实现短文本到知识图谱目标实体的准确链接。  相似文献   

3.
Named entity disambiguation (NED) is the task of linking mentions of ambiguous entities to their referenced entities in a knowledge base such as Wikipedia. We propose an approach to effectively disentangle the discriminative features in the manner of collaborative utilization of collective wisdom (via human-labeled crowd labels) and deep learning (via human-generated data) for the NED task. In particular, we devise a crowd model to elicit the underlying features (crowd features) from crowd labels that indicate a matching candidate for each mention, and then use the crowd features to fine-tune a dynamic convolutional neural network (DCNN). The learned DCNN is employed to obtain deep crowd features to enhance traditional hand-crafted features for the NED task. The proposed method substantially benefits from the utilization of crowd knowledge (via crowd labels) into a generic deep learning for the NED task. Experimental analysis demonstrates that the proposed approach is superior to the traditional hand-crafted features when enough crowd labels are gathered.  相似文献   

4.
基于词向量语义分类的微博实体链接方法   总被引:1,自引:0,他引:1  
微博实体链接是把微博中给定的指称链接到知识库的过程,广泛应用于信息抽取、自动问答等自然语言处理任务(Natural language processing,NLP). 由于微博内容简短,传统长文本实体链接的算法并不能很好地用于微博实体链接任务. 以往研究大都基于实体指称及其上下文构建模型进行消歧,难以识别具有相似词汇和句法特征的候选实体. 本文充分利用指称和候选实体本身所含有的语义信息,提出在词向量层面对任务进行抽象建模,并设计一种基于词向量语义分类的微博实体链接方法. 首先通过神经网络训练词向量模板,然后通过实体聚类获得类别标签作为特征,再通过多分类模型预测目标实体的主题类别来完成实体消歧. 在NLPCC2014公开评测数据集上的实验结果表明,本文方法的准确率和召回率均高于此前已报道的最佳结果,特别是实体链接准确率有显著提升.  相似文献   

5.
实体链接技术是将文本中的实体指称项正确链接到知识库中实体对象的过程,对知识库扩容起着关键作用。针对传统的实体链接方法主要利用上下文相似度等表层特征,而且忽略共现实体间的语义相关性,提出一种融合多特征的集成实体链接方法。首先结合同义词表、同名词表产生候选实体集,然后从多角度抽取语义特征,并将语义特征融合到构建的实体相关图中,最后对候选实体排序,选取top1实体作为链接目标。在NLP&CC2013中文微博实体链接评测数据集上进行实验,获得90.97%的准确率,与NLP&CC2013中文微博实体链接评测的最优系统相比,本文系统具有一定的优势。  相似文献   

6.
实体消歧作为自然语言处理的关键问题,旨在将文本中出现的歧义实体指称映射到知识库中的目标实体。针对现有方法存在仅实现单实体指称消歧、忽略了实体影响力及候选实体间相似度对消歧结果的影响以及冗余图节点增加图计算复杂性等问题,提出了一种融合多特征图及实体影响力的领域实体消歧方法,以金融领域为例,提取CN-Dbpedia中金融类别相关关键词三元组,构建金融领域知识库;针对金融活动类文本,提取待消歧实体指称,融合字符串及语义的相似特征,筛选出候选实体,利用知识库三元组信息获取候选实体间2-hop内的关系,同时计算候选实体间相似度作为边权值,进而将多特征信息充分融合到图模型当中,完成多特征图构建;采用动态决策策略,利用PageRank算法,并结合实体影响力计算多特征图中候选实体的综合评分,进而获得可信度较高的消歧结果。实验结果验证了提出方法在特定领域实体消歧的精确度及效率。  相似文献   

7.
赵畅  李慧颖 《中文信息学报》2019,33(11):125-133
面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。  相似文献   

8.
Lata  Kusum  Singh  Pardeep  Dutta  Kamlesh 《Applied Intelligence》2022,52(9):9816-9860

Coreference Resolution is an essential task for Natural Language Processing (NLP) application, which has a paramount impact on the performance of text summarization, machine translation, text classification, and recognizing textual entailment. Mention Detection (MD) is the core component of the coreference resolution task and is additionally a process of extraction of all possible mentions from the text. Mention is referred to as a textual representation of entities in the text, such as Name, Nominal, and Pronominal mentions. The mentions appear in the text using different representations but indicating the same entity. The performance of an MD module positively affects the performance of NLP tasks such as Coreference resolution, Relation Extraction, Information retrieval, Information extraction, etc. Incorrect identification of mentions in the text severely affects the efficiency of the coreference resolution task. This paper aims to provide a comprehensive overview for the state of the art of mention detection approaches, which is utilized in the coreference resolution task and explains the importance of MD in Coreference resolution. The subsisting approaches are classified based on the underlying techniques adopted by each approach in three categories: Rule-based mention detection, Statistics-based mention detection, and Deep learning-based mention detection. The performance of deep learning is improving as more data and more powerful computing resources become available. This study endeavors to provide a comparative analysis of various mention detection approaches and help the researchers to assimilate knowledge about the mention detection approaches from sundry aspects.

  相似文献   

9.
Traditional knowledge graphs (KG) representation learning focuses on the link information between entities, and the effectiveness of learning is influenced by the complexity of KGs. Considering a multi-modal knowledge graph (MKG), due to the introduction of considerable other modal information(such as images and texts), the complexity of KGs further increases, which degrades the effectiveness of representation learning. To resolve this solve the problem, this study proposed the multi-modal knowledge graphs representation learning via multi-head self-attention (MKGRL-MS) model, which improved the effectiveness of link prediction by adding rich multi-modal information to the entity. We first generated a single-modal feature vector corresponding to each entity. Then, we used multi-headed self-attention to obtain the attention degree of different modal features of entities in the process of semantic synthesis. In this manner, we learned the multi-modal feature representation of entities. New knowledge representation is the sum of traditional knowledge representation and an entity’s multi-modal feature representation. Simultaneously, we successfully train our model on two existing models and two different datasets and verified its versatility and effectiveness on the link prediction task.  相似文献   

10.
事件检测任务旨在从非结构化的文本中自动识别并分类事件触发词。挖掘和表示实体的属性特征(即实体画像)有助于事件检测,其基本原理在于“实体本身的属性往往暗示了其参与的事件类型”(例如,“警察”往往参与“Arrest-Jail”类的事件)。现有研究已利用编码信息实现实体表示,并借此优化事件检测模型。然而,其表示学习过程仅仅纳入局部的句子级语境信息,使得实体画像的信息覆盖率偏低。为此,该文提出基于全局信息和实体交互信息的画像增强方法,其借助图注意力神经网络,不仅在文档级的语境范围内捕捉实体的高注意力背景信息,也同时纳入了局部相关实体的交互信息。特别地,该文开发了基于共现图的注意力遮蔽模型,用于降低噪声信息对实体表示学习过程的干扰。在此基础上,该文联合上述实体画像增强网络、BERT语义编码网络和GAT聚合网络,形成了总体的事件检测模型。该文在通用数据集ACE 2005上进行实验,结果表明实体画像增强方法能够进一步优化事件检测的性能,在触发词分类任务上的F1值达到76.2%,较基线模型提升了2.2%。  相似文献   

11.
引入结构化知识的对话系统因为能够生成流畅度更高、多样性更丰富的对话回复而受到广泛关注, 但是以往的研究只注重于结构化知识中的实体, 却忽略了实体之间的关系以及知识的完整性. 本文提出了一种基于图卷积网络的知识感知对话生成模型(KCG). 该模型通过知识编码器分别捕获实体与关系的语义信息并利用图卷积网络增强实体表征; 再利用知识选择模块获得与对话上下文相关的实体与关系的知识选择概率分布; 最后将知识选择概率分布与词表概率分布融合, 解码器以此选择知识或词表字词. 本文在中文公开数据集DuConv上进行实验, 结果表明, KCG在自动评估指标上优于目前的基线模型, 能生成更加流畅并且内容更加丰富的回复.  相似文献   

12.
在知识图谱中,实体的文本描述信息、实体的层次类型信息和图的拓扑结构信息中隐藏着丰富的内容,它们可以形成对原始三元组的有效补充,帮助提高知识图谱各种任务的效果.为了充分利用这些多源异质信息,首先通过一维卷积神经网络嵌入文本描述信息,然后根据实体的层次类型信息构建投影矩阵,将三元组中的实体向量和实体的描述向量映射到特定的关...  相似文献   

13.
现有中文短文本实体消歧模型在消歧过程中大多只考虑指称上下文与候选实体描述的语义匹配特征,对同一查询文本中候选实体间的共现特征以及候选实体与实体指称类别相似特征等有效的消歧特征考虑不足。针对这些问题,本文首先利用预训练语言模型获得指称上下文与候选实体描述的语义匹配特征;然后,针对实体嵌入和指称类别嵌入提出共现特征与类别特征;最后,通过融合上述特征实现基于多特征因子融合实体消歧模型。实验结果表明本文提出的共现特征及类别特征在实现实体消歧中的可行性和有效性,以及本文提出的基于多特征因子融合的实体消歧方法能够取得更好的消歧效果。  相似文献   

14.
Wang  Xuwu  Chen  Lihan  Zhu  Wei  Ni  Yuan  Xie  Guotong  Yang  Deqing  Xiao  Yanghua 《Knowledge and Information Systems》2023,65(10):4335-4358
Knowledge and Information Systems - Entity linking is the task of resolving ambiguous mentions in documents to their referent entities in a knowledge graph (KG). Existing solutions mainly rely on...  相似文献   

15.
临床术语标准化任务是医学统计中不可或缺的一部分。在实际应用中,一个标准的临床术语可能有数种口语化和非标准化的描述,而对于一些应用例如临床知识库的构建而言,如何将这些描述进行标准化是必须要面对的问题。该文主要关注中文临床术语的标准化任务,即将非标准的中文临床术语的描述文本和给定的临床术语库中的标准词进行对应。尽管一些深度判别式模型在简单文本结构的医疗术语,例如,疾病、药品名等的标准化任务上取得了一定成效,但对于中文临床术语标准化任务而言,其带标准化的描述文本中经常包含的信息缺失、“一对多”等情况,仅依靠判别式模型无法得到完整的语义信息,因而导致模型效果欠佳。该文将临床术语标准化任务类比为翻译任务,引入深度生成式模型对描述文本的核心语义进行生成并得到标准词候选集,再利用基于BERT的语义相似度算法对候选集进行重排序得到最终标准词。该方法在第五届中国健康信息处理会议(CHIP2019)评测数据中进行了实验并取得了很好的效果。  相似文献   

16.
问句实体链接不仅需要大量的数据处理和特征选择工作,而且容易形成错误累积,降低链接效果.针对这种情况,文中提出基于注意力机制的编码器-解码器问句实体链接模型.模型使用双向的长短期记忆网络编码问句,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后链接到知识库实体.在有关汽车领域车系产品问句和实体数据集上的实验表明,文中模型仅利用较少的上下文信息便可取得良好效果.  相似文献   

17.
现有时序知识图谱推理主要是基于静态知识图谱的推理方法,通过知识图谱的结构特征挖掘潜在的语义信息和关系特征,忽略了实体时序信息的重要性,因此提出一种基于实体活跃度及复制生成机制的时序知识图谱推理方法(EACG)。首先,通过改进的图卷积神经网络对多关系实体建模,有效挖掘知识图谱的潜在语义信息和结构特征。其次,时序编码器基于实体活跃度学习实体的时序特征。最后,使用复制生成机制进一步学习知识图谱的历史信息,提升对时序数据建模的能力。在时序知识图谱数据集ICEWS14、ICEWS05-15、GDELT上推理的实验结果表明,EACG在MRR评估指标中分别优于次优方法2%、10%和5%。  相似文献   

18.
知识表示学习在自然语言处理领域获得了广泛关注,尤其在实体链指、关系抽取及自动问答等任务上表现优异。然而,大部分已有的表示学习模型仅利用知识库中的结构信息,无法很好地处理新的实体或关联事实极少的实体。为解决该问题,该文提出了引入实体描述信息的联合知识表示模型。该模型先利用卷积神经网络编码实体描述,然后利用注意力机制来选择文本中的有效信息,接着又引入位置向量作为补充信息,最后利用门机制联合结构和文本的向量,形成最终的联合表示。实验表明,该文的模型在链路预测和三元组分类任务上与目前最好的模型性能相近。  相似文献   

19.
针对大多数简单知识库问答模型没有充分利用候选实体排序,并且往往忽略实体和关系之间依赖的问题,提出了基于实体排序和联合事实选择的方法。整个过程分为模式抽取、实体排序和联合事实选择三个步骤。首先,通过BILSTM-CRF算法对自然语言问题进行模式提取,将其划分为实体提及(mention)和问题模式(pattern)两部分;然后,同时利用subject(主题实体)和mention的字面和语义相似性对候选实体进行排序,抽取相关事实;最后,为了能在候选事实池中选择出最正确的实体—关系对,联合事实选择模型利用多级别编码增强整个过程。实验证明,该方法在simple questions dataset的准确率、召回率都有明显的提升。实验结果表明所提方法在知识库的简单问答上具有可行性。  相似文献   

20.
针对知识图谱推荐算法用户端和项目端建模程度不均且模型复杂度较高等问题, 提出融合知识图谱和轻量图卷积网络的推荐算法. 在用户端, 利用用户相似性生成邻居集合, 将用户及其相似用户的交互记录在知识图谱上多次迭代传播, 增强用户特征表示. 在项目端, 将知识图谱中实体嵌入传播, 挖掘与用户喜好相关的项目信息; 接着, 利用轻量图卷积网络聚合邻域特征获得用户和项目的特征表示, 同时采用注意力机制将邻域权重融入实体, 增强节点的嵌入表示; 最后, 预测用户和项目之间的评分. 实验表明, 在Book-Crossing数据集上, 相较于最优基线, AUCACC分别提高了1.8%和2.3%. 在Yelp2018数据集上, AUCACC分别提高了1.2%和1.4%. 结果证明, 该模型与其他基准模型相比有较好的推荐性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号