首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
近年来,依存句法分析逐渐成为自然语言处理领域中的研究热点。然而,蒙古文的依存句法分析尚未得到足够的重视。基于最大生成树模型在蒙古文依存关系树库TMDT上进行了蒙古文依存句法分析的研究。在简要介绍蒙古文的特点和蒙古文依存关系树库TMDT之后,详细讨论了最大生成树模型。为找到该模型在蒙古文依存句法分析中合适的特征,重点通过实验对8种特征及其组合在句法分析中的性能进行了比较。结果显示,Basic Unigram Features、Basic Bi-gram Features以及C-C sibling Features这3种特征的组合性能最佳。本研究为蒙古文依存句法分析奠定了基础。  相似文献   

2.
虚词在现代汉语中占有重要地位,虚词与词序一起构成现代汉语的句法手段,对句法分析有重要的影响。依存句法分析是自然语言处理领域研究的热点,为了提高依存关系的识别效果,该文考虑将虚词用法应用到依存关系的识别过程中。通过对虚词用法的研究,以及对依存句法分析各种依存关系识别情况的分析,发现并列关系与虚词中的连词关系密切。作者在并列关系识别过程中加入连词的用法信息,从而提高了并列关系的识别效果。实验结果表明,包含连词的并列关系的LAS及UAS分别提高了3.43%和2.29%。  相似文献   

3.
为解决藏文复合句引起的依存句法分析性能下降的主要问题,该文提出了一种基于判别式的藏文复合句切分标注方法,先根据藏文固有的虚词语法结构和连词特征,将复合句子切分标注为句法分析的基本单元,然后将句法分析之后的各个部分依据主分句关系进行合并,生成复合句的完整分析结果。实验结果表明该方法在一定程度上降低了藏文复合句依存句法分析的复杂度,最终句法分析的准确率达到88.72%。
  相似文献   

4.
基于序列标注模型的分层式依存句法分析方法   总被引:2,自引:0,他引:2  
该文提出了一种全新的分层式依存句法分析方法。该方法以依存深度不大于1的依存层作为分析单位,自底向上构建句子的依存结构。在层内,通过穷尽搜索得到层最优子结构;在层与层之间,分析状态确定性地转移。依存层的引入,使该模型具有比典型的基于图的方法更低的算法复杂度,与基于转换的方法相比,又一定程度上缓解了确定性过程的贪婪性。此外,该方法使用典型序列标注模型进行层依存子结构搜索,证明了序列标注技术完全可以胜任句法分析等层次结构分析任务。实验结果显示,该文提出的分层式依存分析方法具有与主流方法可比的分析精度和非常高的分析效率,在宾州树库上可以达到每秒2 500个英语单词。  相似文献   

5.
基于动作建模的中文依存句法分析   总被引:1,自引:0,他引:1  
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。  相似文献   

6.
旨在探索利用语言学手段来提高句法分析精度的可能性.采用MaltParser和自建的汉语依存树库进行相关汉语依存句法分析实验.通过对句法分析结果的分析,找出影响句法分析精度的主要因素,并据此对树库中处理某些语言结构的方式进行修改.然后再对得到的句法分析数据进行进一步分析,以确定所用方法的有效性.结果表明,无标记依存句法分析精度提高了5.5%,有标记依存句法分析精度提高了7.5%.  相似文献   

7.
崔新波  张琳 《现代计算机》2010,(5):42-44,77
介绍依存句法分析的理论和方法,句法分析是自然语言处理中的关键技术之一.比较自顶向下算法、自底向上算法和最大生成树算法,从而得出最大生成树算法是效果最好的.利用句法分析可以提高问题分类的正确率,从而提高整个系统的正确性.  相似文献   

8.
为提升依存分析并分析影响其精度的相关因素,该文构建了大规模中文通用依存树库和中等规模领域依存树库。基于这一系列树库,通过句法分析实验考察质量、规模、领域差异等因素对中文依存分析的影响,实验结果表明: (1)树库规模和质量均与句法分析精度成正相关关系,质量应先于规模因素被优先考虑;(2)通用树库和领域树库之间的差异程度与前者对后者的替代性成相关关系;(3)两种树库混合使用的效果同样与领域差异有关。
  相似文献   

9.
文本分类被广泛应用于新闻分类、话题标记和情感分析等语言处理场景中,是自然语言处理中的一个基本而重要的任务。目前的文本分类模型一般没有同时考虑文本单词的共现关系和文本自身的句法特性,从而限制了文本分类的效果。因此,提出了一个基于图卷积神经网络的文本分类模型(Mix-GCN)。首先基于文本单词之间的共现关系和句法依存关系,将文本数据构建成文本共现图和句法依存图;接着,利用GCN模型对文本图和句法依赖图进行表示学习,得到单词的嵌入向量;然后通过图池化方法以及自适应融合的方法得到文本的嵌入向量;最后通过图分类方法完成文本分类。Mix-GCN模型同时考虑了文本中相邻单词之间的关系和文本单词之间存在的句法依存关系,提升了文本分类性能。在6个基准数据集上与8种知名文本分类方法进行了比较,实验结果表明Mix-GCN具有良好的文本分类效果。  相似文献   

10.
中文复杂名词短语依存句法分析   总被引:1,自引:0,他引:1  
针对中文复杂名词短语的依存句法分析进行了研究,提出简单边优先与SVM相结合的依存句法分析算法.算法的每一步迭代根据边的特征于每一对相邻子树之间的无向边中选择最优者,然后利用支持向量机根据边两端子树的特征确定该边的方向,即得到两棵子树的中心语之间的依存关系.实验证明对于复杂名词短语的依存句法分析,算法准确率比简单边优先算法有明显提高,且优于基于最大生成树算法的中文句法分析器;算法分析效率更高,时间复杂度为O(n2 log n).  相似文献   

11.
随着互联网的不断普及,针对各种产品的评论也不断增多,这些评论中所包含的丰富信息,对制造商和消费者都极具分析价值.只有正确分析评价对象,意见挖掘的结果才会准确可信.在总结前人成果的基础上,针对网络上的客户评论,提出了一种新的评价对象抽取方法.该方法是基于ICTParser的句法分析与IR的依存关系分析的联合,采用似然值检...  相似文献   

12.
病理检查报告中的文本通常为非结构化数据,不利于计算机自动分析和处理.目前文本结构化主要采用信息关系抽取方法,然而病理检查报告所具有的语义特殊性,给中文信息关系抽取带来了挑战.为解决上述问题,设计了一种针对病理检查报告的结构化方法,首先通过神经网络语言模型获得病理报告中的同义词表,合并一义多词现象;在此基础上,生成病理检查报告文本的依存关系树,并提出切分短句和信息标注的剪裁策略,以简化初始生成的依存关系树结构,从而使语法关系更加清晰,提高结构化结果的准确度;进而,利用依存句法分析结果从中文检查报告中提取指标及对应指标值,并自动生成结构化模板.实验采用医生真实使用的医疗病理检查报告进行验证,其结果表明:该方法在指标词和对应指标值提取任务中的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础.  相似文献   

13.
片段抽取式阅读理解是机器阅读理解典型任务之一,根据所给的篇章回答相关问题得到答案片段。在处理长文本如长问题或者长答案时,在无关词的噪声干扰和词之间长距离的关联跨度影响下,往往模糊了关注度的问题,一方面,依存句法分析通过识别词之间的语义关系,另一方面,增强句子的主干文本结构信息可以提升模型对于长文本阅读能力。该文寻找篇章中相关问题答案的主要方式是找到问题与篇章的关联特征,两者最关联的特征就是关键词,通过建立的关键词指导模型,实现在自注意力机制以获得正确答案的开始和结束位置。实验结果表明,在预训练语言模型的基础上将依存句法分析信息和关键词共现特征结合能够提升阅读理解的效果,在评测语料上F1值达到88.24。  相似文献   

14.
依存句法分析旨在识别句子中词与词之间的句法依赖关系。依存句法能为信息抽取、自动问答和机器翻译等任务提供句法特征,提高模型性能。训练数据规模对依存句法分析模型的性能具有重要影响,训练数据的缺乏会带来严重的未知词问题和模型过拟合问题。文中针对低资源依存句法分析问题,提出了多种数据增强策略。所提方法通过同义词替换有效扩充了训练数据,缓解了未知词问题。通过多种Mixup的数据增强策略,有效缓解了模型过拟合问题,提高了模型的泛化能力。在(Universal Dependencies treebanks, UD treebanks)数据集上的实验结果表明,所提方法有效提升了小规模训练语料条件下泰语、越南语和英语依存句法分析的性能。  相似文献   

15.
基于字符的中文分词、词性标注和依存句法分析联合模型   总被引:1,自引:0,他引:1  
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。  相似文献   

16.
用依存句法分析汉语歧义结构发现人脑在句法加工时倾向选择最小化依存距离的句法结构。该发现从依存理论角度解释了以往依照短语结构句法分析潜在歧义结构“VP+N1+的+N2”无法说明心理学实验结果的原因,找到了歧义结构实时阅读过程中倾向选择特定句法结构的语言学依据。最小化依存距离的认知机制是降低言语工作记忆成本的有效方法,是言语理解过程中的重要机制之一。  相似文献   

17.
现有藏语句法体系复杂,不利于藏文自然语言处理的应用.为此,提出基于判别式的藏语依存句法分析方法,采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树.实验结果表明,在人工标注的测试集上,句法分析正确率达到81.2%,可实际应用到藏语依存树库的构建和其他自然语言处理中.  相似文献   

18.
隐式方面提取对于提升细粒度情感分析的准确性具有重要意义,然而现有隐式方面提取技术在处理大规模数据时泛化能力不强。为此,提出结合依存句法分析与交互注意力机制的隐式方面提取模型。首先利用预训练语言模型BERT生成文本的初始表征,然后传递给依存句法引导的自注意力层再次处理,再将两次处理的结果经交互注意力机制进一步提取特征,最终用分类器判断句子所属的隐式方面类别。与基线BERT及其他深度神经网络模型对比,所提模型在增强的SemEval隐式方面数据集上取得了更高的F1与AUC值,证明了模型的有效性。  相似文献   

19.
石翠 《软件》2014,(3):68-71
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。  相似文献   

20.
基于两种句法分析的语义角色标注比较研究   总被引:1,自引:0,他引:1  
首先介绍了短语结构句法树和依存树,比较了两者的差别.然后通过构建基于短语结构句法分析和基于依存句法分析的两个不同的语义角色标注系统,在实验数据的基础上,重点分析短语结构句法分析和依存句法分析的差别以及两者对语义角色标注的影响.实验结果表明,基于依存句法分析的语义角色标注系统的性能略好于基于短语结构句法分析的语义角色标注系统.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号