首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
句法分析是自然语言处理的基本问题,掌握句法分析的研究方法和研究现状是进一步深入研究的基础。首先介绍短语结构语法和依存语法的特点,对比基于规则、统计和组块的句法分析方法,并对汉语句法分析的现状和原因进行研究,最后指出汉语句法分析应采用多方法、多特征或多知识源相结合才能高效地进行分析。  相似文献   

2.
汉语句法分析研究综述   总被引:1,自引:0,他引:1  
郑伟发 《信息技术》2012,(7):72-74,78
句法分析是自然语言处理的基本问题,掌握句法分析的研究方法和研究现状是进一步深入研究的基础.首先介绍短语结构语法和依存语法的特点,对比基于规则、统计和组块的句法分析方法,并对汉语句法分析的现状和原因进行研究,最后指出汉语句法分析应采用多方法、多特征或多知识源相结合才能高效地进行分析.  相似文献   

3.
袁里驰 《电子学报》2013,41(7):1337-1342
解决数据稀疏问题是中心词驱动句法分析中的一个重要问题,基于词类的统计语言模型是解决统计模型数据稀疏问题的重要方法.本文在分析经典平滑算法的基础上,提出一种基于语义依存信息和互信息的词聚类算法,并利用绝对权重差分方法构造了一种可变长语言模型,即根据历史词对当前词预测所作的贡献不同,n值的大小也随之变化.进而提出了一种基于语义类和可变长模型的中心词驱动句法分析改进模型,既增强了句法分析模型的消歧能力,又解决了严重的数据稀疏问题.改进模型性能有了明显的提高,精确率和召回率分别为84.53%和82.41%,综合指标F值比Collins的中心词驱动句法分析模型提高了2.02个百分点.  相似文献   

4.
泰语的依存句法分析任务具有重要研究价值。但泰语作为低资源语言,缺乏公开可用的句法标注训练集,难以训练有效的依存解析模型。针对这种情况,借助泰语和英语间的动态词嵌入对齐矩阵,将在英语标注数据上训练的依存解析模型迁移到泰语中,分析无监督泰语依存句法。实验结果表明,该方法能有效地从无标注泰语数据中提取到依存句法知识。此外该方法还支持多语言联合训练迁移到泰语来提升泰语依存句法分析的性能。  相似文献   

5.
袁里驰 《电子学报》2013,41(10):2029
目前主流的词汇化句法分析方法仅仅考虑词语之间的语义依存关系,而没有引入语义搭配和语义类等语义信息.“配价”是词语的一个比较本质的特点,一旦一个词语的配价结构确定下来,它应该和怎样的词进行搭配也就比较清楚了,从而也可以比较直接地导出句子的结构.本文结合中心词驱动句法分析模型,提出了基于配价结构和语义依存关系的句法分析模型.模型在规则的分解及概率计算中引入丰富的语义信息,既包括语义依存信息,也包括配价结构等语义搭配信息.用改进的句法分析模型进行句法分析实验,实验结果表明,精确率和召回率分别为88.76%和87.43%,综合指标F值比Collins的中心词驱动句法分析模型提高了6.65个百分点.  相似文献   

6.
针对基于有监督学习的依存句法分析模型的研究现状与进展进行了总结。重点综述了标注语料匮乏、特征选择与提取、模型一体化三个问题的相关研究内容。首先,详细介绍人们借助依存关系映射和主动学习摆脱标注语料匮乏困境的相关研究;其次,重点总结了不同特征对构建依存句法分析模型的贡献,例如句子级特征、词类别特征、语言形态特征和高阶特征等;最后,分析了依存句法分析模型一体化的优势与不足;此外,详细总结了如何借助该类模型解决事件抽取、产品评论分析和舆情分析等问题。  相似文献   

7.
卢朝华  黄广君  郭志兵 《通信技术》2010,43(5):181-183,186
汉语介词短语识别的方法是基于最大熵的统计模型,通过最大熵的介词短语边界自动识别和依存语法错误校正两个处理阶段:先由最大熵模型对介词短语进行识别,然后利用依存树库中介词短语的左右边界词语的依存语法知识,对介词短语右边界的错误识别进行校正,完成了对经过分词和词性标注的句子进行介词短语界定的任务,为进一步的句法分析工作打下良好的基础。实验表明该方法是行之有效的。  相似文献   

8.
本文首先介绍了自然语言处理的概念,并给出了自然语言处理模型,与此同时,分析了依存句法的有关问题,包括其公理以及具体分析方法等,最后阐述了基于依存句法的实体关系抽取过程。  相似文献   

9.
语义通信是一种全新的通信范式,可以从语义级别提高通信的可靠性,解决通信带宽与频谱资源受限的问题。针对语义通信中语义重要性划分这一问题,本文提出了一种基于依存句法分析的分层语义通信系统。首先,为了获取传输语句内部的依存句法关系,本文设计了一种基于图解码的依存句法分析模型,用于提取传输语句对应的依存句法树。其次,本文根据提取到的依存句法树提出了一种语义分层方法,并根据信道质量对不同层级的语义信息进行选择传输,从而保证关键语义的准确传递。此外,本文还引入了ERNIE语言模型,结合依存句法关系提高接收端的语义恢复能力。仿真结果表明:本文提出的语义分层方法可以有效提取传输语句的关键语义信息。与传统通信系统相比,本文所提系统显著提升了在低信噪比下的通信可靠性。  相似文献   

10.
机器翻译技术是一种人工智能技术,它是利用计算机模拟和人的翻译过程,将一种语言自动翻译成为另一种语言。计算机翻译语言的过程就是将源语言翻译成为目标语。其具体翻译过程是先对源语言进行词法分析,之后在词法分析的基础上再进行句法分析,然后根据源语言句法分析的结果,生成相应的目标语。词法分析为翻译过程的第一阶段,第二阶段是计算机根据句法规则  相似文献   

11.
概率型的句法分析模型具有一定的消岐能力,PCFG的最大特点上下文无关,对于开放领域的自然语言分析来说具有较长的鲁棒性。但上下文无关假设不可能很好地表示语言的特点,难t,X解决需要上下文信息才可以消解的句法分析岐义.而且它只考虑了词类信息而没有考虑词汇或语义信息,所以对语言的描述也是粗粒度的。本文结合知网定义句子成分结构语义关联度,对PCFG分析结果改进,句法岐义有效改善。  相似文献   

12.
Linked open data (LOD) supports the SPARQL query strongly. A translation system from the natural language query to the SPARQL query based on the syntax rules is proposed. For a natural language query, a parsing method is proposed to represent the query in-tention and construct the corresponding query graph. The algorithms for obtaining and instantiating triple patterns are designed based on the rules. A mapping method for different types of graph nodes is lastly proposed to im-prove the recall. The experiments based on test data from QALD-4 are conducted. Compared with the other systems, our system is more easy and effective, and evaluation re-sults are outstanding in the field of unsupervised learning.  相似文献   

13.
 问句检索在问答系统中有着重要的作用,其核心问题在于研究查询问句与候选问句之间的相似性计算问题,实现问句之间的高精度匹配。该文采用树核函数的方法计算问句之间的结构相似性,并针对原有算法的不足,做了相应的改进。为降低句法解析器性能对树核函数的影响,该文在改进的树核函数基础上,将其与字符串核结合,提出了一种能同时融合问句的句法信息,词性信息和词序信息的复合核函数,用以计算问句之间的综合语义相似性。在社区问答系统Yahoo!Answer的数据上进行测试,相对传统的基于词频的特征向量法,问句检索平均准确率提高了24.02%。  相似文献   

14.
语义依存分析建立在依存理论基础上,是一种深层的语义分析理论。同时融合了句子的依存结构和语义信息,更好地表达了句子的结构与隐含信息。在许多高层次的研究和应用上,语义依存分析都大有用武之地。语义依存分析主要面临两方面的难题,一是语义体系的确定,其次是自动语义依存分析算法。将重点从语义体系的确定以及自动语义依存分析算法的角度上对语义依存分析进行系统的介绍。  相似文献   

15.
一种新颖的词性标注模型   总被引:4,自引:4,他引:0  
文章首次提出一种统计模型,即马氏族模型,该模型假定一个词出现概率既与当前词的词性标记有关,也与它前面的词有关,但其前面的词和该词词性标记关于该词条件独立.将马氏族模型适当加以简化,能成功地用于词性标记,实验结果证明:在相同的测试条件下,这种基于马氏族模型的词性标注方法标记成功率大大高于传统的基于隐马尔可夫模型的词性标注方法.马氏族模型在其它一些自然语言处理领域如分词、句法分析、语音识别、机器翻译也有广泛的应用前景.  相似文献   

16.
A model of a linguistic information source is proposed as a grammar that generates a language over some finite alphabet. It is pointed out that grammatical sentences generated by the source grammar contain intrinsic "redundancy" that can be exploited for error-corrections. Symbols occurring in the sentences are composed according to some syntactic rules determined by the source grammar, and hence are different in nature from the lexicographical source symbols assumed in information theory and algebraic coding theory. Almost all programming languages and some simple natural languages can be described by the linguistic source model proposed in this paper. In order to combat excessive errors for very noisy channels, a conventional encoding-decoding scheme that does not utilize the source structure is introduced into the communication system. Decoded strings coming out of the lexicographical decoder may not be grammatical, which indicates that some uncorrected errors still remain in the individual sentences and will be reprocessed by a syntactic decoder that converts ungrammatical strings into legal sentences of the source language by the maximum-likelihood criterion. Thus more errors in the strings coming out of the noisy channel can be corrected by the syntactic decoder using syntactic analysis than the !exicographical decoder is capable of correcting or even of detecting. To design the syntactic decoder we use parsing techniques from the study of compilers and formal languages.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号