首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
实现了一个基于最大熵的中文指代消解系统。通过预处理获得相关信息,抽取出12特征,采用最大熵算法训练生成分类器。在ACE05 bnews中文测试语料上的指代消解实验结果表明,本系统是一个中文指代消解研究的较好平台。  相似文献   

2.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

3.
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。  相似文献   

4.
已有的中文指代消解系统研究大多是基于有监督的机器学习方法,训练集中正负例的比值直接影响到分类器模型,进而影响指代消解结果。针对如何选取训练集正负例比值的问题,实现了一个中文指代消解系统,提出了训练数据正负例比值与指代消解系统评测结果之间的数学模型,并引入一种改进的遗传算法计算训练数据最优比值,使系统评测结果最优。在ACE 2005中文语料上的实验表明,改进的遗传算法更适合指代消解任务,适当增大负例的比值能够提高指代消解系统的性能。  相似文献   

5.
指代消解是文本信息处理中的一项重要任务,针对这一任务过于复杂,本文分析了中文突发事件语料中人称代词的特点, 提出一种基于语料库,运用规则预处理与最大熵模型相结合的人称代词消解方法。在ACE05 bnews中文测试语料上,分别与仅用基于规则和仅用统计方法进行了对比实验,结果表明该方法分别在召回率、准确率和F值上有一定的提高,本方法是中文人称代词指代消解的较好平台。  相似文献   

6.
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。  相似文献   

7.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

8.
指代消解研究现状综述   总被引:1,自引:0,他引:1  
指代消解是自然语言处理的一项关键环节,也是信息抽取的核心任务之一。针对指代消解的一些基本问题进行阐述,主要介绍利用机器学习的方法开展的共指消解相关研究,从共指消解模型、常见算法、语料库、特征、评测标准等方面概述相关工作。  相似文献   

9.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

10.
指代消解综述   总被引:3,自引:0,他引:3       下载免费PDF全文
给出指代消解的基本概念,从指代消解的语料资源、评测系统和算法3个方面出发,介绍指代消解的国内外研究现状,分析制约指代消解的3个关键问题:结构化句法信息的自动获取和表示,深层次语义信息的自动获取和使用,跨文本指代消解,基于分析结果给出国际上指代消解的研究趋势。  相似文献   

11.
指代消解是自然语言处理中重要的研究课题之一。结合基于实例的学习方法,提出了一种基于Fuzzy Rough集模型的中文人称代词消解方法。该方法的第一步过滤掉与人称代词性别和单复数特征不一致的名词短语,构成候选集,然后按照仅涉及浅层语义和语法知识的属性集对其中的每个名词短语进行标记。第二步利用Fuzzy Rough集模型中相关概念选择代表性较强的实例,并对其进行属性值约简,以提高这些实例的泛化能力。以上两步即为学习阶段。第三步即可根据这些实例判断新输入的名词短语是否为代词的先行语。该方法用人民日报语料进行了测试,测试结果表明该方法是有效的。  相似文献   

12.
篇章消解,即识别篇章中对现实世界中同一实体不同表达的过程,包括指代消解和同指消解两个方面。作为信息抽取的重要环节,它在信息检索、自动文摘及文本挖掘等领域有着广阔的应用前景。本文分析并总结了消解过程中常用的语言知识,介绍了上世纪90年代以来具代表性的算法,并指出了篇章消解未来的发展趋势。  相似文献   

13.
Under statistical learning framework, the paper focuses on how to use traditional linguistic findings on anaphora resolution as a guide for mining and organizing contextual features for Chinese co-reference resolution. The main achievements are as follows. (1) In order to simulate "syntactic and semantic parallelism factor", we extract "bags of word form and POS" feature and "bag of seines" feature from the contexts of the entity mentions and incorporate them into the baseline feature set. (2) Because it is too coarse to use the feature of bags of word form, POS tag and seme to determine the syntactic and semantic parallelism between two entity mentions, we propose a method for contextual feature reconstruction based on semantic similarity computation, in order that the reconstructed contextual features could better approximate the anaphora resolution factor of "Syntactic and Semantic Parallelism Preferences". (3) We use an entity-mention-based contextual feature representation instead of isolated word-based contextual feature representation, and expand the size of the contextual windows in addition, in order to approximately simulate "the selectional restriction factor" for anaphora resolution. The experiments show that the multi-level contextual features are useful for co-reference resolution, and the statistical system incorporated with these features performs well on the standard ACE datasets.  相似文献   

14.
This paper reports our investigation of machine learning methods applied to anaphora resolution for biology texts, particularly paper abstracts. Our primary concern is the investigation of features and their combinations for effective anaphora resolution. In this paper, we focus on the resolution of demonstrative phrases and definite determiner phrases, the two most prevalent forms of anaphoric expressions that we find in biology research articles. Different resolution models are developed for demonstrative and definite determiner phrases. Our work shows that models may be optimized differently for each of the phrase types. Also, because a significant number of definite determiner phrases are not anaphoric, we induce a model to detect anaphoricity, i.e., a model that classifies phrases as either anaphoric or nonanaphoric. We propose several novel features that we call highlighting features , and consider their utility particularly for processing paper abstracts. The system using the highlighting features achieved accuracies of 78% and 71% for demonstrative phrases and definite determiner phrases, respectively. The use of the highlighting features reduced the error rate by about 10%.  相似文献   

15.
指代消解的基本方法和实现技术   总被引:18,自引:11,他引:18  
指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。  相似文献   

16.
提出了信息抽取系统中同指求解方法,主要针对汉语篇章中与代词和定指短语相关的同指求解。该方法分为规则消解和统计因子消解两个组成部分。规则消解法给出了规则的一般形式、秩取途径及应用方法,还结合若干规则实例来表明规则的有效性。利用规则库中的规则对可能先行语进行分析过滤,如粜能“滤出”唯一的一个先行语,则这个即为求解到的先行语。否则进入统计因子消解过程。在这部分利用统计的方法,对消解因子库中的各因子分析求和,然后选择最大的作为求解的先行语。本算法具有很好的跨领域性和易扩展性,实现了该方法并进行了测试运行,结果表明该方法是行之有效的。  相似文献   

17.
与实体指代不同,事件指代其先行词候选是一个事件,与名词性的指代词具有完全不同的语义分类体系,因此适用于实体指代消歧的大多数特征都不能用于事件指代消歧。给出了一个基于机器学习方法的事件指代消歧平台,详细介绍了平台的实例生成和特征选择过程,给出了平台在OntoNotes3.0语料上的事件指代消歧的结果,并对结果进行了分析。从实验结果可以看到,给出的平台获得了较好的召回率,但系统准确率需要进一步提升。  相似文献   

18.
Effective anaphora resolution is helpful to many applications of natural language processing such as machine translation, summarization and question answering. In this paper, a novel resolution approach is proposed to tackle zero anaphora, which is the most frequent type of anaphora shown in Chinese texts. Unlike most of the previous approaches relying on hand-coded rules, our resolution is mainly constructed by employing case-based reasoning and pattern conceptualization. Moreover, the resolution is incorporated with the mechanisms to identify cataphora and non-antecedent instances so as to enhance the resolution performance. Compared to a general rule-based approach, the proposed approach indeed improves the resolution performance by achieves 78% recall and 79% precision on solving 1051 zero anaphora instances in 382 narrative texts.  相似文献   

19.
与实体指代不同,事件指代因为其先行词候选是一个事件,与名词性的指代词具有完全不同的语义分类体系,因此适用于实体指代消歧的大多数特征都不能用于事件指代消歧。该文给出了一个基于机器学习方法的事件代词指代消歧平台,详细介绍了平台的实例生成和特征选择过程,并给出了平台在OntoNotes3.0语料上的事件代词指代消歧的结果,对结果进行了分析。从实验结果可以看到,给出的平台获得了较好的系统性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号