首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。  相似文献   

2.
近年来,依存句法分析逐渐成为自然语言处理领域中的研究热点。然而,蒙古文的依存句法分析尚未得到足够的重视。基于最大生成树模型在蒙古文依存关系树库TMDT上进行了蒙古文依存句法分析的研究。在简要介绍蒙古文的特点和蒙古文依存关系树库TMDT之后,详细讨论了最大生成树模型。为找到该模型在蒙古文依存句法分析中合适的特征,重点通过实验对8种特征及其组合在句法分析中的性能进行了比较。结果显示,Basic Unigram Features、Basic Bi-gram Features以及C-C sibling Features这3种特征的组合性能最佳。本研究为蒙古文依存句法分析奠定了基础。  相似文献   

3.
由于对越南语的研究工作相对较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难得多,所以该文提出了一种借助汉-越双语词对齐语料构建越南语依存树库的方法。首先对汉语-越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉-越双语词对齐关系映射到越南语句子中,从而生成越南语的依存树库。实验表明,该方法简化了人工收集和标注越南语依存树库的过程,节省了人力和构建树库的时间。实验结果表明,该方法相比采用机器学习的方法准确率明显提高。  相似文献   

4.
现有藏语句法体系复杂,不利于藏文自然语言处理的应用.为此,提出基于判别式的藏语依存句法分析方法,采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树.实验结果表明,在人工标注的测试集上,句法分析正确率达到81.2%,可实际应用到藏语依存树库的构建和其他自然语言处理中.  相似文献   

5.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。  相似文献   

6.
该文以汉英机器翻译为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨了句类依存树库构建的理论和标注实践等问题,描述了构建树库所需的概念类别标注集和句类关系标注集。并通过与已有汉语树库进行对比,以汉语显性轻动词句的标注为例,分析了汉语句类依存树库的特点。该文在应用层面定义了面向汉英机器翻译的融句法语义信息于一体的“句类依存子树到串”双语转换模板,尝试基于汉语句类依存树库提取汉英转换模板。  相似文献   

7.
基于词汇支配度的汉语依存分析模型   总被引:7,自引:0,他引:7  
刘挺  马金山  李生 《软件学报》2006,17(9):1876-1883
如何应用句法结构和词汇化是句法分析建模所面临的两个主要问题,汉语依存分析对这两方面做了初步的探索.首先通过对大规模依存树库的统计学习,获取其中的词汇依存信息,建立了一个词汇化的概率分析模型.然后引入词汇支配度的概念,以充分利用了句子中的结构信息.词汇化方法有效地弥补了以前工作中词性信息的粒度过粗问题.同时,词汇支配度增强了对句法结构的识别,有效地避免了非法结构的生成.在4 000句的测试集上,依存分析获得了约74%的正确率.  相似文献   

8.
近年来的方面级情感分析研究尝试利用注意力机制与基于依存树的图卷积模型对上下文词和方面之间的依赖关系进行建模,然而,基于注意力机制的模型具有容易引入噪声信息的缺点,基于依存树的图模型则具有高度依赖于依存树解析质量、鲁棒性较差的缺点。为解决以上问题,探索一种将注意力机制与语法知识相结合的新方法,利用依存树和位置信息分别对注意力机制进行监督,设计并提出了一种用于方面级情感分析的依存树增强的注意力模型,能够更合理地利用语义和句法信息的同时减轻对依存树的依赖程度。在三个基准数据集上进行的实验验证了所提方法的有效性和可解释性。  相似文献   

9.
王志国  宗成庆 《软件学报》2012,23(10):2628-2642
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升.  相似文献   

10.
句法分析是自然语言处理的基础技术,主流的由数据驱动的神经网络句法分析模型需要大规模的标注数据,但是通过人工标注扩展树库成本很高,因此如何利用现有标注树库进行数据增强成为研究焦点。在汉语句法分析的数据增强任务中,对于给定的标注树库,要求数据增强所生成的句子满足如下条件:第一,要求生成句具有多样化且完整的句法树结构;第二,要求生成句具有合理的语义。对此,我们首次提出基于词汇化树邻接语法的数据增强方法。针对第一个需求,该文设计实现基于词汇化树邻接语法的词汇化树抽取算法与句法树合成算法,基于该语法可以在句法树之间进行“接插”和“替换”的操作,从而推导生成新的句法树,并且用语言学的知识保证生成句符合语法规则且具有完整的句法树结构。针对第二个需求,该文利用语言模型对生成句进行语义合理性评估,选取语义合理的句子作为最终的增强数据,从而获取高质量的标注树库。我们以汉语为例开展研究,在汉语树库CTB5上进行句法分析的数据增强评测实验。实验结果显示,在小样本(CTB5的20%)实验中,通过该方法得到的增强数据使依存句法分析和成分句法分析的精度分别提高1.39%和2.14%。在鲁棒性实验中,该文通过构建扩展...  相似文献   

11.
基于柱搜索的高阶依存句法分析   总被引:3,自引:0,他引:3  
该文提出使用所有的孙子节点构成祖孙特征的高阶依存模型,并且使用柱搜索策略限制搜索空间,最终找到近似最优依存树。另外,该文以较小的时间复杂度为代价,使用了丰富的依存关系特征,并且允许模型在解码的过程中进行依存关系选择。作者参加了CoNLL 2009年多语依存句法分析和语义角色标注国际评测,最终获得联合任务总成绩第一名,依存句法分析总成绩第三名。  相似文献   

12.
谢德峰  吉建民 《计算机应用》2021,41(9):2489-2495
在自然语言处理(NLP)中,句法信息是完整句子中词汇与词汇之间的句法结构关系或者依存关系,是一种重要且有效的参考信息。语义解析任务是将自然语言语句直接转化成语义完整的、计算机可执行的语言。在以往的语义解析研究中,少有采用输入源的句法信息来提高端到端语义解析效率的工作。为了进一步提高端到端语义解析模型的准确率和效率,提出一种利用输入端句法依存关系信息来提高模型效率的语义解析方法。该方法的基本思路是先对一个端到端的依存关系解析器进行预训练;然后将该解析器的中间表示作为句法感知表示,与原有的字词嵌入表示拼接到一起以产生新的输入嵌入表示,并将得到的输入嵌入表示用于端到端语义解析模型;最后采用转导融合学习方式进行模型融合。实验对比了所提模型和基准模型Transformer以及过去十年的相关工作。实验结果表明,在ATIS、GEO、JOBS数据集上,融入依存句法信息感知表示以及转导融合学习的语义解析模型分别实现了89.1%、90.7%、91.4%的最佳准确率,全面超过了Transformer,验证了引入句法依存关系信息的有效性。  相似文献   

13.
句法与词义相结合的中文代词消解   总被引:1,自引:0,他引:1  
句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的支配词之间的词义相似和词语相关特征,采用支持向量机作为分类器,在ACE2005语料上的实验证明了这些特征的有效性。  相似文献   

14.
RChiQL是一个基于受限汉语的关系数据库查询语言界面的计算模型,其中文法分析占有重要地位。本文引入了一种新的文法GWERSC(Grammar with ER Semantic Characteristics , ER语义特征文法) ,设计了分析算法,其内嵌的ER语义特征有利于排除语法分析的歧义并可简化语义分析。  相似文献   

15.
结合结构下文及词汇信息的汉语句法分析方法   总被引:2,自引:0,他引:2  
针对句法分析中上下文无关语法模型对句子信息利用的不足,通过融入结构下文和部分词汇信息,提出两种基于概率上下文无关语法模型的短语结构消歧方法,以达到消解结构歧义的目的;引入分层分析的算法,通过损失一定的时间效率使得在提高分析准确率的同时保证分析结果的全面性。实验结果表明,融入结构下文及词汇信息的汉语句法分析方法,利用了更多的句子信息,与上下文无关语法相比有着更强的消歧能力。  相似文献   

16.
《Pattern recognition》1988,21(6):623-629
An edNLC-graph grammar, introduced by Janssens,(4) is a strong formalism for generating scene representations. This grammar generates directed node- and edge-labelled graphs, EDG-graphs. A method of construction of unambiguous string EDG-graph representation is briefly described. The characteristics of edNLC-graph grammar for syntactic pattern recognition allows us to construct the parsing algorithm. The deterministic top-down syntax analyzer is constructed for the subfamily of an edNLC-graph grammar, called an ETL/1-graph grammar. An ETL/1-graph grammar is parallel to a finite state string grammar. The notions introduced in the paper are useful for researches in less restricted edNLC-graph grammars, for example grammars analogical to context-free string grammars.  相似文献   

17.
随着Web应用的功能日趋复杂,其安全问题不容乐观, Web应用安全性测试成为软件测试领域的研究重点之一.漏洞报告旨在记录Web应用安全问题,辅助Web应用测试,提升其安全性与质量.然而,如何自动识别漏洞报告中的关键信息,复现漏洞,仍是当前的研究难点.为此,本文提出一种自动化的漏洞报告理解和漏洞复现方法,首先,依据漏洞报告的特点,归纳其语法依存模式,并结合依存句法分析技术,解析漏洞描述,提取漏洞触发的关键信息.其次,不同于常规自然语言描述, Web漏洞的攻击负载通常是非法字符串,大多以代码片段的形式存在,为此,本文针对攻击负载,设计提取规则,完善漏洞报告中攻击负载的提取.在此基础上,考虑漏洞报告与Web应用文本描述不同但语义相近,提出基于语义相似度的漏洞复现脚本自动生成方法,实现Web应用漏洞的自动复现.为验证本文方法的有效性,从漏洞收集平台Exploit-db的300余个Web应用项目中收集了400份漏洞报告,归纳出其语法依存模式;并针对23个开源Web应用涉及的26份真实漏洞报告进行漏洞复现实验,结果表明本文方法可有效提取漏洞报告的关键信息,并据此生成可行测试脚本,复现漏洞,有效减少...  相似文献   

18.
基于ER模型和受限汉语的数据库中文查询语言研究   总被引:7,自引:0,他引:7  
本文给出了一个基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL(Restrictive Chinese Query Language)及其实现方案,系统模拟人脑对语言处理的并行机制,将中文查询句的处理分为四个相互依存、相互交织的步骤(词的切分,文法分析,语义分析和SQL转换) ,其中引入了一种新的文法GWERSC(Grammar with ER Semantic Characteristics ,ER语义特征文法) ,其内嵌的ER模型语义既有利于语法分析又简化了语义分析,取得了很好的效果。  相似文献   

19.
汉英机器翻译源语分析中词的识别   总被引:1,自引:1,他引:0  
汉英MT源语分析首先遇到的问题是词的识别。汉语中的“词”没有明确的定义,语素和词、词和词组、词组和句子,相互之间也没有清楚的界限。按照先分词、再句法分析的办法,会在分词时遇到构词问题和句法问题相互交错的困难。作者认为,可以把字作为源语句法分析的起始点,使词和词组的识别与句法分析同时进行。本文叙述了这种观点及其实现过程,并且以处理离合词为例,说明了识别的基本方法。  相似文献   

20.
Answering complex questions involving multiple relations over knowledge bases is a challenging task. Many previous works rely on dependency parsing. However, errors in dependency parsing would influence their performance, in particular for long complex questions. In this paper, we propose a novel skeleton grammar to represent the high-level structure of a complex question. This lightweight formalism and its BERT-based parsing algorithm help to improve the downstream dependency parsing. To show the effectiveness of skeleton, we develop two question answering approaches: skeleton-based semantic parsing (called SSP) and skeleton-based information retrieval (called SIR). In SSP, skeleton helps to improve structured query generation. In SIR, skeleton helps to improve path ranking. Experimental results show that, thanks to skeletons, our approaches achieve state-of-the-art results on three datasets: LC-QuAD 1.0, GraphQuestions, and ComplexWebQuestions 1.1.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号