共查询到20条相似文献,搜索用时 140 毫秒
1.
基于支持向量机分类和语义信息的中文跨文本指代消解 总被引:2,自引:0,他引:2
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。 相似文献
2.
跨文本指代(CrossDocumentCoreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。 相似文献
3.
黄丹凤 《数字社区&智能家居》2013,(15):3447-3448
中文信息处理是NLP(自然语言处理)的一个组成部分,它是研究自然语言的学科,它和其他学科如计算机学,文学,理工学等有着一定的综合联系。中文跨文本指代消解是中文信息处理的核心技术,是提高信息抽取和信息检索正确率的基础,主要任务是解决重名消歧和多名聚合两大问题。该文从基本概念入手,描述在语言处理中典型的指代现象和指代消解所需的基本语言知识;同时简单介绍指代消解中商用的算法和技术。 相似文献
4.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。 相似文献
5.
采用优先选择策略的中文人称代词的指代消解 总被引:9,自引:4,他引:9
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。 相似文献
6.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。 相似文献
7.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。 相似文献
8.
9.
10.
研究客户重名消解问题。针对以往重名消解方法如文本聚类的方法需考虑大量无用词汇并需要人工设定阈值以及类别数量,而基于信息抽取的人物相关属性相似度方法对于人物信息的抽取具有依赖性,提出了一种改进的重名消解算法。该算法首先对具有相同标志的客户进行属性匹配,合并匹配成功的标志;然后进行链接分析,对客户合作网的结构进行分析,将具有相同标志并与同一个代理人实体合作的客户归为一个客户实体,并把具有相同合作对的信息加以分析合并;最后通过原子团簇分析法进行聚类分析。仿真实验结果表明,所提改进算法对中文字符串的匹配处理进行了优化,执行效率高,适合于以大量数据为特征的保险领域的重名消解。 相似文献
11.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。 相似文献
12.
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。 相似文献
13.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。 相似文献
14.
针对传统用户影响力分析等研究遇到姓名重名的挑战,姓名歧义的影响日益严重的问题,本文基于双曲空间结合欧氏空间进行特征融合,提出融合多空间特征的网络对齐方法(geometry interaction network alignment, GINA),有效建模网络结构对用户姓名消歧的主要作用。本文同时使用欧氏空间和双曲空间进行网络表示学习,以获取具有不同空间特点的网络结构信息,使用跨空间网络映射及跨空间特征融合在尽量减少空间映射损失的情况下实现不同空间的信息交互得到最终的网络表示,进行网络对齐,进而实现姓名消歧。本文在中文论文合作网络、英文论文合作网络和中文专利合作网络上,两两对齐构建论文-专利实证数据网络对齐数据集和中文-英文实证数据网络对齐数据集,开展GINA模型在网络对齐数据集上对重名人员身份识别和中外论文身份识别2个实证场景试验验证,双曲空间融合欧氏空间相比单一空间精确率增加了24.9%,验证了GINA方法的有效性。 相似文献
15.
16.
17.
18.
19.
韦丽红 《计算机光盘软件与应用》2013,(21):311-312
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。 相似文献
20.
指代消解研究现状综述 总被引:1,自引:0,他引:1
黄毳丽 《电脑与微电子技术》2012,(6):16-19
指代消解是自然语言处理的一项关键环节,也是信息抽取的核心任务之一。针对指代消解的一些基本问题进行阐述,主要介绍利用机器学习的方法开展的共指消解相关研究,从共指消解模型、常见算法、语料库、特征、评测标准等方面概述相关工作。 相似文献