首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于支持向量机分类和语义信息的中文跨文本指代消解   总被引:2,自引:0,他引:2  
跨文本(实体)指代消解(CDCR)的任务就是把所有分布在不同文本但指向相同实体的词组合在一起形成一个指代链。传统的跨文本指代消解主要采用聚类方法来解决信息检索中遇到的重名消歧问题。将聚类问题转换为分类问题,并采用支持向量机(SVM)分类器来解决信息抽取中的重名消歧和多名聚合问题。该方法可有效融合实体名称的构词特征、读音特征以及文本内部和文本外部的多种语义特征。在中文跨文本指代语料库上的实验表明,同聚类方法相比,该方法在提高精度的同时,也提高了召回率。  相似文献   

2.
跨文本指代(CrossDocumentCoreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。  相似文献   

3.
中文信息处理是NLP(自然语言处理)的一个组成部分,它是研究自然语言的学科,它和其他学科如计算机学,文学,理工学等有着一定的综合联系。中文跨文本指代消解是中文信息处理的核心技术,是提高信息抽取和信息检索正确率的基础,主要任务是解决重名消歧和多名聚合两大问题。该文从基本概念入手,描述在语言处理中典型的指代现象和指代消解所需的基本语言知识;同时简单介绍指代消解中商用的算法和技术。  相似文献   

4.
跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP 2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。  相似文献   

5.
采用优先选择策略的中文人称代词的指代消解   总被引:9,自引:4,他引:9  
指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。  相似文献   

6.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

7.
实体消歧作为知识库构建、信息检索等应用的重要支撑技术,在自然语言处理领域有着重要的作用。然而在短文本环境中,对实体的上下文特征进行建模的传统消歧方式很难提取到足够多用以消歧的特征。针对短文本的特点,提出一种基于实体主题关系的中文短文本图模型消歧方法,首先,通过TextRank算法对知识库信息构建的语料库进行主题推断,并使用主题推断的结果作为实体间关系的表示;然后,结合基于BERT的语义匹配模型给出的消歧评分对待消歧文本构建消歧网络图;最终,通过搜索排序得出最后的消歧结果。使用CCKS2020短文本实体链接任务提供的数据集对所提方法进行评测,实验结果表明,该方法对短文本的实体消歧效果优于其他方法,能有效解决在缺乏知识库实体关系情况下的中文短文本实体消歧问题。  相似文献   

8.
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。  相似文献   

9.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

10.
研究客户重名消解问题。针对以往重名消解方法如文本聚类的方法需考虑大量无用词汇并需要人工设定阈值以及类别数量,而基于信息抽取的人物相关属性相似度方法对于人物信息的抽取具有依赖性,提出了一种改进的重名消解算法。该算法首先对具有相同标志的客户进行属性匹配,合并匹配成功的标志;然后进行链接分析,对客户合作网的结构进行分析,将具有相同标志并与同一个代理人实体合作的客户归为一个客户实体,并把具有相同合作对的信息加以分析合并;最后通过原子团簇分析法进行聚类分析。仿真实验结果表明,所提改进算法对中文字符串的匹配处理进行了优化,执行效率高,适合于以大量数据为特征的保险领域的重名消解。  相似文献   

11.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

12.
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。  相似文献   

13.
人名消歧已经成为自然语言处理和信息抽取应用中亟待解决的重要问题。运用中文自然语言处理和信息抽取系统识别命名实体和实体关系,生成实体信息对象(Entity Profile),采用实体信息对象(EP)中的个人信息特征,实体关系和上下文相关信息在Hadoop平台上基于凝聚的层次聚类方法解决了实体消歧问题。采用哈尔滨工业大学整理的全网新闻语料作为人名消歧训练和测试数据,着重研究了中文人名消歧特征的选取,参数的确定和验证,在训练集和测试集上分别取得了91.33%和88.73%的F值。说明提出的方法具有较好的可行性。  相似文献   

14.
针对传统用户影响力分析等研究遇到姓名重名的挑战,姓名歧义的影响日益严重的问题,本文基于双曲空间结合欧氏空间进行特征融合,提出融合多空间特征的网络对齐方法(geometry interaction network alignment, GINA),有效建模网络结构对用户姓名消歧的主要作用。本文同时使用欧氏空间和双曲空间进行网络表示学习,以获取具有不同空间特点的网络结构信息,使用跨空间网络映射及跨空间特征融合在尽量减少空间映射损失的情况下实现不同空间的信息交互得到最终的网络表示,进行网络对齐,进而实现姓名消歧。本文在中文论文合作网络、英文论文合作网络和中文专利合作网络上,两两对齐构建论文-专利实证数据网络对齐数据集和中文-英文实证数据网络对齐数据集,开展GINA模型在网络对齐数据集上对重名人员身份识别和中外论文身份识别2个实证场景试验验证,双曲空间融合欧氏空间相比单一空间精确率增加了24.9%,验证了GINA方法的有效性。  相似文献   

15.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

16.
开放式文本信息抽取   总被引:6,自引:2,他引:4  
信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。  相似文献   

17.
指代消解综述   总被引:3,自引:0,他引:3       下载免费PDF全文
给出指代消解的基本概念,从指代消解的语料资源、评测系统和算法3个方面出发,介绍指代消解的国内外研究现状,分析制约指代消解的3个关键问题:结构化句法信息的自动获取和表示,深层次语义信息的自动获取和使用,跨文本指代消解,基于分析结果给出国际上指代消解的研究趋势。  相似文献   

18.
结合决策树方法的中文姓名识别   总被引:4,自引:2,他引:4  
中文姓名识别是自然语言处理中专名识别的一个重要的子问题,本文将中文姓名的识别过程细分为三个步骤:抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息,在文本中抽取潜在的中文姓名,以及其相关的上下文词法、语法和语义特征,并将潜在姓名是否是真实姓名的判别看作是两分类问题,并利用决策树算法来实现初步判别,最后消除初步判别结果中的歧义现象。实验结果表明,该方法的召回率和准确率都可达到90%以上。  相似文献   

19.
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。  相似文献   

20.
指代消解研究现状综述   总被引:1,自引:0,他引:1  
指代消解是自然语言处理的一项关键环节,也是信息抽取的核心任务之一。针对指代消解的一些基本问题进行阐述,主要介绍利用机器学习的方法开展的共指消解相关研究,从共指消解模型、常见算法、语料库、特征、评测标准等方面概述相关工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号