首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
基于浅层句法分析的中文语义角色标注研究   总被引:2,自引:1,他引:1  
语义角色标注是获取语义信息的一种重要手段。许多现有的语义角色标注都是在完全句法分析的基础上进行的,但由于现阶段中文完全句法分析器性能比较低,基于自动完全句法分析的中文语义角色标注效果并不理想。因此该文将中文语义角色标注建立在了浅层句法分析的基础上。在句法分析阶段,利用构词法获得词语的“伪中心语素”特征,有效缓解了词语级别的数据稀疏问题,从而提高了句法分析的性能,F值达到了0.93。在角色标注阶段,利用构词法获得了目标动词的语素特征,细粒度地描述了动词本身的结构,从而为角色标注提供了更多的信息。此外,该文还提出了句子的“粗框架”特征,有效模拟了基于完全句法分析的角色标注中的子类框架信息。该文所实现的角色标注系统的F值达到了0.74,比前人的工作(0.71)有较为显著的提升,从而证明了该文的方法是有效的。  相似文献   

2.
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。  相似文献   

3.
语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。  相似文献   

4.
“把”字句是现代汉语中一种重要的特殊句式,该文尝试用基于知识库的规则方法对把字句进行语义角色自动标注。首先,我们从《人民日报》语义角色标注语料库中收集把字句例句,形成一个覆盖范围较广的把字句例句库;之后,对例句库中把字句的句法和语义构成规律进行手工标注,标注内容包括谓语动词的配价类型、把字句谓语结构类型、把字句句模类型等。在上述标注的基础上,对把字句的句模构成规律进行分析,总结出若干条语义角色标注规则;最后,在测试数据上对前述规则进行验证,语义角色标注的最终正确率为98.61%,这一结果说明该文所提出的规则在把字句语义角色标注上是有效的。  相似文献   

5.
指代消解中语义角色特征的研究   总被引:1,自引:0,他引:1  
该文实现了一个基于机器学习的指代消解平台,并在此基础上着重研究了语义角色特征对指代消解的影响。该文使用ASSERT语义角色标注系统得到语义角色标注信息,然后在原型系统的基础上加入语义角色特征。为了分析语义角色特征对指代消解的影响,该文还分析了语义角色特征和指代链特征以及代词细化特征的结合对系统的影响。通过把先行语和照应语在句子中所作的语义角色特征加入机器学习系统中进行研究,该文发现语义角色特征能够显著提高系统的性能,特别是对代词的消解有很好的效果。在ACE 2003 NWIRE基准语料上的所有类型名词短语的指代消解测试表明,召回率提高了3.4%,F值提高了1.8%。  相似文献   

6.
语义角色标注是浅层语义分析的一种实现方式。目前汉语框架语义角色自动标注一般被看作以词为基本标注单元的序列标注问题,而已有研究中仅在词、词性层面来选取特征,标注结果并不理想。该文利用树条件随机场模型,通过在词、词性层面特征的基础上依次加入不同类型的依存特征,研究依存特征对汉语框架语义角色标注的影响。实验设置了8类,共24种特征模板,结果显示,加入依序特征的最优模版使标注结果的F值提高近3%,特别是对较长框架语义角色的标注结果有较好的改善。  相似文献   

7.
中文语义角色标注的特征工程   总被引:3,自引:2,他引:3  
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征: 例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。  相似文献   

8.
基于语义组块分析的汉语语义角色标注   总被引:1,自引:1,他引:0  
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。  相似文献   

9.
语义角色标注的研究方法中使用最频繁的一类是基于特征工程,将任务转化成分类问题使用机器学习的方法来解决,几乎所有的有指导语义角色标注采用的标注语料都是宾州大学命题库标注体系。近年来,北京大学开发出一套新的标注语料—北京大学中文网库,该文的目的在于测试这类研究方法在新语料的效果,验证之前所使用的特征是否对标注语料具有依赖性。通过实验发现前人方法中的一些不足,尤其个别特征在北大网库上作用更关键。  相似文献   

10.
中文名词性谓词语义角色标注的特征研究   总被引:1,自引:0,他引:1  
在语义角色标注中,相对于动词性谓词,名词性谓词与其角色之间的结构更灵活和复杂。为了更好地捕获这些结构化信息,通过对名词性谓词语义角色标注相关特征集的研究,探索了新的单词特征和句法特征,用于名词性谓词语义角色标注。基于正确句法树和正确谓词识别,中文名词性谓词语义角色标注的F1值达到了73.99,优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为57.16。最后,讨论了使用动词性谓词的特征实例来提高名词性谓词SRL的准确率,然而性能的提高并不是很明显。  相似文献   

11.
动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。  相似文献   

12.
该研究以动词的语义聚合层次为核心,构建了含有四个语义层级的动词分类系统,依托生成词库理论、语义格框理论和构式语法理论,从事件结构、语义格框架、物性角色、句法格式四个角度来对动词的自身属性以及组合性等特征进行描述,从而构造出能够解释并深入描述动动之间、动名之间甚至是超常搭配用法的汉语动词资源馆Chinese Verb Library(CVL)。实验表明,该研究可以为句法分析、语义角色标注、尤其是揭示隐含的谓间关系提供新的支持。  相似文献   

13.
Corpus-based semantic role approach in information retrieval   总被引:1,自引:0,他引:1  
In this paper, a method to determine the semantic role for the constituents of a sentence is presented. This method, named SemRol, is a corpus-based approach that uses two different statistical models, conditional Maximum Entropy (ME) Probability Models and the TiMBL program, a Memory-based Learning. It consists of three phases that make use of features using words, lemmas, PoS tags and shallow parsing information. Our method introduces a new phase in the Semantic Role Labeling task which has usually been approached as a two phase procedure consisting of recognition and labeling arguments. From our point of view, firstly the sense of the verbs in the sentences must be disambiguated. That is why depending on the sense of the verb a different set of roles must be considered. Regarding the labeling arguments phase, a tuning procedure is presented. As a result of this procedure one of the best sets of features for the labeling arguments task is detected. With this set, that is different for TiMBL and ME, precisions of 76.71% for TiMBL or 70.55% for ME, are obtained. Furthermore, the semantic role information provided by our SemRol method could be used as an extension of Information Retrieval or Question Answering systems. We propose using this semantic information as an extension of an Information Retrieval system in order to reduce the number of documents or passages retrieved by the system.  相似文献   

14.
In this work, we report large-scale semantic role annotation of arguments in the Turkish dependency treebank, and present the first comprehensive Turkish semantic role labeling (SRL) resource: Turkish Proposition Bank (PropBank). We present our annotation workflow that harnesses crowd intelligence, and discuss the procedures for ensuring annotation consistency and quality control. Our discussion focuses on syntactic variations in realization of predicate-argument structures, and the large lexicon problem caused by complex derivational morphology. We describe our approach that exploits framesets of root verbs to abstract away from syntax and increase self-consistency of the Turkish PropBank. The issues that arise in the annotation of verbs derived via valency changing morphemes, verbal nominals, and nominal verbs are explored, and evaluation results for inter-annotator agreement are provided. Furthermore, semantic layer described here is aligned with universal dependency (UD) compliant treebank and released to enable more researchers to work on the problem. Finally, we use PropBank to establish a baseline score of 79.10 F1 for Turkish SRL using the mate-tool (an open-source SRL tool based on supervised machine learning) enhanced with basic morphological features. Turkish PropBank and the extended SRL system are made publicly available.  相似文献   

15.
现代藏语动词的句法语义分类及相关语法句式   总被引:1,自引:3,他引:1  
本文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则。本文区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求。因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词。动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础。  相似文献   

16.
块扩句是一类概念预期知识十分明确的句子。基于概念层次网络理论介绍了块扩句对应的块扩句类,总结了能够激活块扩句类的典型块扩动词。根据块扩动词的概念知识得到句子的特征语义块及块扩句类,依据块扩句类的知识对句子进行检验后可给出句子句类的分析结果。在已有的句类分析系统的基础上对真实语料中的块扩句进行了自动分析,实验表明正确率达到了71.29%,错误主要来自特征语义块动词辨识、动词多句类代码等。正确分析块扩句将有助于解决汉语句子的多动词处理难点。  相似文献   

17.
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。  相似文献   

18.
框架语义角色标注(Frame Semantic Role Labeling, FSRL)是基于FrameNet标注体系的语义分析任务。语义角色标注通常对句法有很强的依赖性,目前的语义角色标注模型大多基于双向长短时记忆网络Bi-LSTM,虽然可以获取句子中的长距离依赖信息,但无法很好地获取句子中的句法信息。因此,引入Self-Attention机制来捕获句子中每个词的句法信息。实验结果表明,该模型在CFN(Chinese FrameNet,汉语框架网)数据集上的F1值得到了提升,证明了融入self-attention机制可以改进汉语框架语义角色标注模型的性能。  相似文献   

19.
语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。  相似文献   

20.
该文讨论如何构造合适的汉语语义描写体系并建设相应的语义知识库,从而为文本语义的计算机自动分析提供可靠的资源。文章提出的技术路线是 在生成词库论和论元结构理论的指导下,分别描写名词的物性结构和动词、形容词的论元结构(包括物性角色或论元角色集合及其句法配置格式集合),标定名词、动词和形容词的情感评价色彩,揭示相关名词、动词和形容词的物性角色和论元角色之间的关联和推导关系,从而形成比较完整的关于名词、动词和形容词的实体指称、概念关系和情感评价等多层面的语义知识。最后,还展示了这种多层面的语义知识在语义自动计算中的运用案例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号