首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 151 毫秒
1.
中文人称名词短语单复数自动识别   总被引:2,自引:1,他引:1  
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务.  相似文献   

2.
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005, OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。  相似文献   

3.
一种基于图划分的无监督汉语指代消解算法   总被引:4,自引:2,他引:4  
指代消解是自然语言处理领域中的一个重要问题。针对当前中文指代标注训练语料非常缺乏的现状,本文提出一种无监督聚类算法实现对名词短语的指代消解。引入图对名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并引入一个有效的模块函数实现对图的自动划分,使得指代消解过程并不是孤立地对每一对名词短语分别进行共指决策,而是充分考虑了多个待消解项之间的相关性,并且避免了阈值选择问题。通过在ACE中文语料上的人称代词消解和名词短语消解实验结果表明,该算法是一种有效可行的无监督指代消解算法。  相似文献   

4.
指代消解是自然语言处理领域中的一个重要问题。本文引入图对汉语名词短语的指代消解问题进行建模,将指代消解问题转化为图划分问题,并应用关联聚类算法来实现对图的自动划分。相对于传统的link-first和link-best聚类机制,该方法并不是孤立地针对每一对名词短语分别进行共指决策,而是充分考虑了多个名词短语之间的相关性,且不需事先给出聚类的数量以及距离闻值。通过在ACE中文语料上名词短语消解的实验结果表明,该方法是一个有效的指代消解算法。  相似文献   

5.
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。  相似文献   

6.
共指消解是文本信息处理中的一个重要问题.提出了一种有监督的关联聚类算法以实现对中文实体提及的共指消解.首先将共指消解过程看成图的关联聚类问题,从全局的角度实现对共指等价类的划分,而不是孤立地对每一对名词短语分别进行共指决策;然后给出了关联聚类的推导算法;最后设计了一种基于梯度下降的特征参数学习算法,使得训练出的特征参数能够较好拟合关联聚类的目标.在ACE中文语料上的实验结果显示,该算法优于传统的"分类一聚类"共指消解学习算法.  相似文献   

7.
指代消解是自然语言处理中重要的研究课题之一。结合基于实例的学习方法,提出了一种基于Fuzzy Rough集模型的中文人称代词消解方法。该方法的第一步过滤掉与人称代词性别和单复数特征不一致的名词短语,构成候选集,然后按照仅涉及浅层语义和语法知识的属性集对其中的每个名词短语进行标记。第二步利用Fuzzy Rough集模型中相关概念选择代表性较强的实例,并对其进行属性值约简,以提高这些实例的泛化能力。以上两步即为学习阶段。第三步即可根据这些实例判断新输入的名词短语是否为代词的先行语。该方法用人民日报语料进行了测试,测试结果表明该方法是有效的。  相似文献   

8.
事件共指消解是很多自然语言处理任务的基础,旨在识别文本中指代相同真实事件的事件提及。由于中文语法相比英文更复杂,捕获英文文本特征的方法在中文事件共指消解中效果并不明显。为解决文档内中文事件共指,提出了一种门控机制神经网络(Gated Mechanism Neural Network, GMNN)。针对中文具有主语省略、结构松散等特点,引入事件基本属性作为符号特征。在此基础上,提出了一种新的门控去噪机制,对符号特征向量进行微调,过滤符号特征中的噪声,提取在特定上下文语境中的有用信息,进而提高共指事件的识别率。在ACE2005中文数据集上进行了实验,结果表明,GMNN的AVG分数提升了2.66,有效地提高了中文事件共指消解的效果。  相似文献   

9.
针对维吾尔语名词短语待消解项识别任务,该文提出一种利用栈式非负约束自编码器(Stacked Nonnegative Constrained Autoencoder,SNCAE)完成基于语义特征的待消解项识别方法。为了提高自动编码器隐藏层激活度的稀疏性和重构数据的质量,利用NCAE非负约束算法,为连接权值施加非负性约束。通过分析维吾尔语名词短语语言指代现象,提取出15个特征,利用SNCAE提取出深层语义特征,引入Softmax分类器,进而完成待消解项识别任务。该方法在维吾尔语名词短语待消解项识别中,正例准确率和负例准确率分别比SVM高出8.259%和4.158%,比栈式自编码(SAE)高出1.884%和1.590%,表明基于SNCAE的维吾尔语名词短语待消解项识别方法比SVM和SAE更适合维吾尔文的待消解项识别任务。  相似文献   

10.
指代消解技术是自动文章的关键,介绍了指代消解的研究方式,分析了中文指代消解目前研究现状,并且详细阐述了语料库和所使用的此类标记,同时提出了名词短语识别和标记符号,分析了中文名词短语的确定与英文的不同,对中文指代消解的前期语料的处理和后期应用作了很好的介绍。  相似文献   

11.
针对维吾尔语名词短语指代现象,提出了一种利用栈式自编码深度学习算法进行基于语义特征的指代消解方法.通过对维吾尔语名词短语指称性的研究,提取出利于消解任务的13项特征.为提高特征对文本语义的表达,在特征集中引入富含词汇语义及上下文位置关系的Word embedding.利用深度学习机制无监督的提取隐含的深层语义特征,训练Softmax分类器进而完成指代消解任务.该方法在维吾尔语指代消解任务中的准确率为74.5%,召回率为70.6%,F值为72.4%.实验结果证明,深度学习模型较浅层的支持向量机更合适于本文的指代消解任务,对Word embedding特征项的引入,有效地提高了指代消解模型的性能.  相似文献   

12.
Knowledge of noun phrase anaphoricity might be profitably exploited in coreference resolution to bypass the resolution of non-anaphoric noun phrases.However,it is surprising to notice that recent attempts to incorporate automatically acquired anaphoricity information into coreference resolution systems have been far from expectation.This paper proposes a global learning method in determining the anaphoricity of noun phrases via a label propagation algorithm to improve learning-based coreference resolutio...  相似文献   

13.
深入研究了中英文指代消解中的待消解项识别问题.在前人工作的基础上,首先使用规则方法识别与上下文无关或具有显著固定模式的非待消解项;针对与上下文相关的非待消解项识别,从平面特征方法和结构化树核函数方法两方面入手进行了探索;利用复合核函数将平面特征和结构化特征有效结合,对待消解识别问题进行了进一步研究.在ACE2003英文语料和ACE2005中文语料上的实验结果表明,提出的多种待消解项识别方案各具特色,都取得了不错的性能.最后将得到的待消解项识别模块应用于中英文的指代消解任务.实验结果表明,合适的待消解项识别能够大大提高中英文指代消解的性能.  相似文献   

14.
基于最大熵模型的英文名词短语指代消解   总被引:11,自引:0,他引:11  
提出了一种新颖的基于语料库的英文名词短语指代消解算法,该算法不仅能解决传统的代词和名词/名词短语间的指代问题,还能解决名词短语间的指代问题。同时,利用最大熵模型,可以有效地综合各种互不相关的特征,算法在MUC7公开测试语料上F值达到了60.2%,极为接近文献记载的该语料库上F值的最优结果61.8%。  相似文献   

15.
交互式问答系统能够与用户进行对话式交互进而处理用户提出的一系列问题。交互式问答技术是近些年来问答技术的一个热门方向。该文首次深入研究交互式问答中待消解项的识别方法。根据语料统计了交互式问答中待消解项的分布情况并进行相关实验,运用前人研究的启发式规则与平面特征相结合的方法在交互式问答中测试识别待消解项的性能。结合交互式问答的特点提出了专有名词的两个基于交互式问答特点的特征,并在TREC QA问题集语料中进行相关实验。实验结果表明,代词、有定名词用已有的方法识别效果较好,在加入本文提出的新特征后,在专有名词上也取得了较好的效果。  相似文献   

16.
指代消解是自然语言处理领域中要研究的关键问题之一。在自然语言中,为了使语言简明,减少冗余,往往对同一意思的单词、句子或某一事件用不同的单词来代替。相对于人而言,计算机理解这些指代现象就比较困难,因此近年来关于指代消解的研究越来越多。由于中文指代消解研究起步较晚,因此关于中文名词短语指代消解的研究还比较少,大多研究是关于英文指代消解的。给出了一个基于SVM的中文名词短语指代消解平台并详细介绍了整个实现过程,语料库采用OntoNotes 3.0的中文新闻语料。利用3种评测算法对系统性能进行了评测,结果表明本系统是一个比较好的中文指代消解平台。  相似文献   

17.
庞宁  杨尔弘 《中文信息学报》2008,22(2):24-27,54
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。  相似文献   

18.
基于树核函数的“it”待消解项识别研究   总被引:3,自引:1,他引:2  
该文在基于特征的英文代词指代消解平台上,使用复合核函数,研究指代消解中待消解项“it”的识别问题。围绕“it”是否是待消解项,该文采取有效策略获得“it”句法结构信息与平面特征信息,并将它们结合起来生成“it”待消解项分类器。在测试分类器性能的同时,将其运用到代词指代消解中以检验它对指代消解的作用。最后在ACE2003基准语料上实验表明采用复合核生成的分类器具有较高的准确率,并能显著提高代词指代消解性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号