首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
基于DOP的汉语句法分析技术   总被引:3,自引:1,他引:2  
本文提出一种以DOP技术作为基本框架,同时利用基于相似的概率评估技术,实现汉语句法分析的方法。其中,对于输入语句,首先需要经过词汇层与词性层两层初选。然后,基于已构建知识源,获取输入语句的片段组合形式。最后,对输入语句与初选结果进行相似性评估,完成输入语句的组合分析过程。为论证方法有效性,基于包含1000个语句的真实汉语语料构建知识源,并采用包含100个语句的真实汉语语料作为测试集。实验表明,句法分析的各项指标都比较令人满意,可有效地实现汉语句法分析。  相似文献   

2.
王志国  宗成庆 《软件学报》2012,23(10):2628-2642
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升.  相似文献   

3.
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。  相似文献   

4.
汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。  相似文献   

5.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

6.
针对目前融合词义信息的短语句法分析过程中,多义词词义消歧较差的问题,提出一种基于词性消歧的中文短语句法分析方法。首先构建具有词性信息的同义词字典;然后对训练集和测试集中的词语进行词义替换,利用多义词的词性区分其不同的词义。在宾州中文树库(CTB)的实验结果表明,正确率为80.30%,召回率为78.12%,F值为79.19%。相对于没有进行词性消歧的系统,该方法有效提高了短语句法分析的性能。  相似文献   

7.
概率句法分析器(PCFG Parser)是基于概率规则集的上下文无关文法的句法分析器。规则集主要是针对词类和短语类。然而事实上,词性相同而词汇不同,其所常用的句法规则也通常不同。目前NLP研究的一个趋势和热点就是词汇化的句法分析。针对概率句法分析独立性假设中缺乏词汇化的缺陷,本文将谓语动词的子语类信息与概率句法分析结合起来,提出一种基于动词子语类信息的词汇化概率句法分析方法。论文建立了基于汉语动词子语类框架的统计句法分析模型,并且针对动词子语类框架难以获取的问题,提出一种词汇化概率句法分析与动词子语类框架获取的互动方法。实验利用这种互动的方法获取了汉语中十个常用高频动词的概率化子语类信息,并结合原有的概率句法分析器PCFG实现了一个基于动词子语类信息的概率句法分析器原型系统S-PCFG。实验证明了基于动词子语类信息的概率句法分析对自然语言句法分析的准确率和速度均有所提高。同时分析了新的概率句法分析器的不足之处,为进一步的改进提供条件。  相似文献   

8.
机器翻译中,在词性标注和句法语义分析阶段经常会遇到歧义,使用基于统计方法的词汇评分和句法语义评分就是对词性标注和句法语义分析阶段产生的歧义进行消歧,在用统计方法消歧时,经常遇到的一个现象就是数据稀疏问题,本文对词汇评分和句法语义评分遇到数据稀疏现象使用改进的Turing公式来平滑参数,给出平滑算法对词汇评分平滑的处理过程,在实验中给出语料与参数数量,正确率的实验结果。  相似文献   

9.
针对传统的汉语句法分析算法进行改进,采用了自底向上与自顶向下相结合的线图分析方法,分析、设计和实现了一个汉语句法分析原型系统.该系统实现了基于最大词长匹配算法的分词模块、基于统计方法的词性标注模块和基于改进的线图分析算法的句法分析模块.最后对系统进行小规模中文文本试验测试,测试结果表明利用改进的分析算法,使得句法分析效率和分析结果的准确率均有一定程度的提高.  相似文献   

10.
基于移进归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。  相似文献   

11.
This paper describes an original approach to semantics representation based on the use of a non-strict functional programming language with polymorphic typing. This approach provides a unified formalism needing no preprocessing or postprocessing to the functional language itself: parsing and semantics are declared naturally using function definition and evaluation is done by lambda application along the lines of Montague. We show that by changing only the model we can, after parsing, compute either the truth value of a sentence or its parse tree.  相似文献   

12.
序列到序列(seq2seq)的框架可以应用到抽象语义表示(AMR)解析任务中,把AMR解析当作一个从源端句子到目标端AMR图的翻译任务。然而,以前的工作通常把源端句子表示为一个单词序列,忽略了句子内部潜藏的句法和语义角色信息。基于seq2seq框架,该文提出了一个直接而有效的融合句法和语义角色信息的AMR解析方法。实验结果表明,该文的方法在AMR英文标准数据集上取得了6.7%的显著提升。最后,该文从多个角度深入分析了源端的句法和语义角色信息是如何对AMR解析提供帮助的。分析表明,词性信息和subword技术对AMR解析性能提升的贡献最大,上层句法和语义角色信息次之。  相似文献   

13.
句法结构歧义是句法分析过程中最主要也是最难解决的问题之一.使用了一种组合型的概率评价函数解决英语句法分析过程中所面临的结构歧义问题,综合考虑了句法分析时的结构特性和上下文信息.并使用基于规则的句法分析后校正机制对错误的分析结果进行进一步的校正.组合型的概率评价函数为更精细的句法分析提供了一个可以扩充的统计模型,这种方法也可以适用于其它语言的句法分析.实验结果表明,这种方法具有较高的精确率和召回率。  相似文献   

14.
基于最大熵模型的汉语问句语义组块分析   总被引:1,自引:0,他引:1  
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。  相似文献   

15.
面向数据的分析技术(Data-Oriented Parsing,DOP)是一种概率分析策略,其概率模型的主要目的在于为一个给定的句子找到最可能的分析,即分析消歧。实际上,有关算法计算复杂度的大量研究证明,该类消歧问题属于NP-完全问题。因此,为有效实现最可能的分析,国外学者提出许多近似分析算法。本文主要论述在 DOP 框架中,基于 Monte Carlo 方法找到最可能分析的近似分析算法,并说明该方法可在合理的算法时间代价范围内实现,而且在统计上受控,以确保所获得的近似解确实对应着分析消歧后的精确解。  相似文献   

16.
面向数据的句法分析技术   总被引:7,自引:1,他引:7  
面向数据的分析技术(Data-Oriented Parsing ,DOP) 首先由Scha (1990) 年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP 技术框架可以分为: (1) 建立包括以往成功分析的语言经验的标注语料库; (2) 从语料库中抽取片段单元来构造新语言的分析过程;(3) 计算分析过程的概率。DOP 模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法( Grammar) 。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义,组合分析和概率计算。  相似文献   

17.
结合结构下文及词汇信息的汉语句法分析方法   总被引:2,自引:0,他引:2  
针对句法分析中上下文无关语法模型对句子信息利用的不足,通过融入结构下文和部分词汇信息,提出两种基于概率上下文无关语法模型的短语结构消歧方法,以达到消解结构歧义的目的;引入分层分析的算法,通过损失一定的时间效率使得在提高分析准确率的同时保证分析结果的全面性。实验结果表明,融入结构下文及词汇信息的汉语句法分析方法,利用了更多的句子信息,与上下文无关语法相比有着更强的消歧能力。  相似文献   

18.
Visual YACC is a tool that automatically creates visualizations of the YACC LR parsing process and synthesized attribute computation. The Visual YACC tool works by instrumenting a standard YACC grammar with graphics calls that draw the appropriate data structures given the current actions by the parser. The new grammar is processed by the YACC tools and the resulting parser displays the parse stack and parse tree for every step of the parsing process of a given input string. Visual YACC was initially designed to be used in compiler construction courses to supplement the teaching of parsing and syntax directed evaluation. We have also found it to be useful in the difficult task of debugging YACC grammars. In this paper, we describe this tool and how it is used in both contexts. We also detail two different implementations of this tool: one that produces a parser written in C with calls to Motif; and a second implementation that generates Java source code. Copyright © 1999 John Wiley & Sons, Ltd.  相似文献   

19.
面向特定领域的汉语句法主干分析   总被引:3,自引:3,他引:3  
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节,形成用模板表示的句法主干。在浅层句法分析中,本文使用了级联的隐马尔可夫模型进行了短语的归并;而后以已有的汉语句子模板为基础,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中,模板匹配的精确率和召回率分别达到了98.04%和81.43% ,句子级的精确率和召回率分别达到了96.97%、84.85% ,实验表明该方法在特定领域是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号