首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
如何有效利用篇章上下文信息一直是篇章级神经机器翻译研究领域的一大挑战。该文提出利用来源于整个篇章的层次化全局上下文来提高篇章级神经机器翻译性能。为了实现该目标,该文提出的模型分别获取当前句内单词与篇章内所有句子及单词之间的依赖关系,结合不同层次的依赖关系以获取含有层次化篇章信息的全局上下文表示。最终源语言当前句子中的每个单词都能获取其独有的综合词和句级别依赖关系的上下文。为了充分利用平行句对语料在训练中的优势,该文使用两步训练法,在句子级语料训练模型的基础上使用含有篇章信息的语料进行二次训练以获得捕获全局上下文的能力。在若干基准语料数据集上的实验表明,该文提出的模型与若干强基准模型相比取得了有意义的翻译质量提升。实验进一步表明,结合层次化篇章信息的上下文比仅使用词级别上下文更具优势。除此之外,该文还尝试通过不同方式将全局上下文与翻译模型结合并观察其对模型性能的影响,并初步探究篇章翻译中全局上下文在篇章中的分布情况。  相似文献   

2.
汉越神经机器翻译是典型的低资源翻译任务,由于缺少大规模的平行语料,可能导致模型对双语句法差异学习不充分,翻译效果不佳。句法的依存关系对译文生成有一定的指导和约束作用,因此,该文提出一种基于依存图网络的汉越神经机器翻译方法。该方法利用依存句法关系构建依存图网络并融入神经机器翻译模型中,在Transformer模型框架下,引入一个图编码器,对源语言的依存结构图进行向量化编码,利用多头注意力机制,将向量化的依存图结构编码融入到序列编码中,在解码时利用该结构编码和序列编码一起指导模型解码生成译文。实验结果表明,在汉越翻译任务中,融入依存句法图可以提升翻译模型的性能。  相似文献   

3.
为了对句子有更全面的表示,增强翻译模型的能力,汉字利用子词特征,蒙古文端使用混合编码器。同时,为了缓解歧义问题,将篇章上下文方法应用于蒙汉神经机器翻译中。实验结果表明,在67 288句对蒙汉平行语料和118 502句对蒙汉平行语料中应用篇章上下文方法后,与基准系统相比,BLUE值分别提升了0.9和0.5。且随着篇章上下文语料的增大,BLUE值提升效果更明显。说明篇章上下文语境方法能够提高译文的质量。  相似文献   

4.
对于句子级别的神经机器翻译,由于不考虑句子所处的上下文信息,往往存在句子语义表示不完整的问题。该文通过依存句法分析,对篇章中的每句话提取有效信息,再将提取出的信息,补全到源端句子中,使得句子的语义表示更加完整。该文在汉语-英语语言对上进行了实验,并针对篇章语料稀少的问题,提出了在大规模句子级别的平行语料上的训练方法。相比于基准系统,该文提出的方法获得了1.47个BLEU值的提高。实验表明,基于补全信息的篇章级神经机器翻译,可以有效地解决句子级别神经机器翻译语义表示不完整的问题。  相似文献   

5.
近年来,神经机器翻译(neural machine translation, NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制,结合“硬关注”和“软关注”的机制对篇章上下文的信息进行建模。关键思想是通过“硬关注”筛选出与翻译当前句子相关的源端历史词语,然后采用“软关注”的方法进一步抽取翻译中所需的上下文信息。实验表明,相比于基线系统,该方法能使翻译性能获得明显提升。  相似文献   

6.
多语言神经机器翻译利用单一的编码器-解码器模型对多种语言之间的翻译同时进行建模.多语言神经机器翻译不仅能够促进关联语言之间的知识迁移,提高低资源语言的翻译质量,并且能够实现未见语言对之间的翻译.现有多语言神经机器翻译仍然存在语言多样性建模能力不足和未见语言对翻译质量不佳的问题.为此,首先在现有的适配器模型基础上提出变维...  相似文献   

7.
篇章连贯性建模是自然语言处理研究领域的一个基础问题。主流的篇章连贯性模型分为两大类,分别是基于实体网格的连贯性模型和基于神经网络的篇章连贯性模型。其中,基于实体网格的篇章连贯性模型需要进行特征提取,而基于深度学习的模型没有充分考虑篇章中句子间的实体链接对连贯性建模的重要作用。基于此,该文首先抽取篇章中相邻句子的实体信息,将其进行分布式表示,然后将此信息通过多种简单且有效的向量操作融合至句子级的双向LSTM深度学习模型之中。在汉语和英语篇章语料上的句子排序和中英文机器翻译连贯性检测两种任务上的实验表明该文提出的模型性能和现有模型相比有所提升,尤其在中文上有显著提升。  相似文献   

8.
孙成  孔芳 《中文信息学报》2018,32(12):48-56
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。  相似文献   

9.
商品评论摘要是从一个商品的所有评论中抽取出一系列有序的能够代表评论广泛意见的句子作为该商品的综合评论。篇章层次结构分析旨在对篇章内部各个语义单元之间的层次结构和语义关系进行分析。由此可见,分析篇章层次结构有利于更加准确地判断篇章内各个语义单元的语义信息和重要程度,这对于抽取篇章的重要内容有很大帮助。因此,文中提出了一种基于篇章层次结构的商品评论摘要方法。该方法基于LSTM(Long Short Term Memory Network)神经网络构建抽取式商品评论摘要模型,并利用注意力机制将篇章层次结构信息作为判断篇章单元重要程度的参照加入该模型中,以便更加准确地抽取出商品评论中的重要内容,从而提升整个任务的性能。将所提方法在Yelp 2013数据集上进行实验,并在ROUGE评价指标上进行评测。实验结果表明,加入篇章层次结构信息后,模型的ROUGE-1值达到了0.3608,与仅考虑评论句子信息的标准LSTM方法相比提升了1.57%,这说明在商品评论摘要任务中引入篇章层次结构信息能够有效地提升该任务的性能。  相似文献   

10.
在长距离依赖场景,篇章依存分析的效果欠佳,传统分析方法通常设计大量特征模板来缓解这一瓶颈问题.该文提出一种层次化篇章依存分析方法,减少了篇章分析器所需一次性处理的篇章分析单元的数量,从而缩短了分析器所处理的依存对之间的距离;并通过长短时记忆模型直接处理篇章分析单元中的序列信息,避免了特征提取.在RS T语料库上进行实验...  相似文献   

11.
该文提出利用一个大型且精度高的神经机器翻译模型(教师模型)从单语数据中提取隐性双语知识,从而改进小型且精度低的神经机器翻译模型(学生模型)的翻译质量。该文首先提出了“伪双语数据”的教学方法,利用教师模型翻译单语数据获得的合成双语数据改进学生模型,然后提出了“负对数似然—知识蒸馏联合优化”教学方法,除了利用合成双语数据,还利用教师模型获得的目标语言词语概率分布作为知识,从而在知识蒸馏框架下提高学生模型的翻译质量。实验证明,在中英和德英翻译任务上,使用该方法训练的学生模型不仅在领域内测试集上显著超过了基线学生模型,而且在领域外测试集上的泛化性能也得到了提高。  相似文献   

12.
篇章依存结构一般表示为最小篇章单位(小句)间的支配与被支配关系,相比修辞结构等,其可以有效刻画最小篇章单位间的直接关系及其向心性。篇章依存结构的理论内涵及具体实践有待深入。该文结合汉语篇章依存结构语料库的标注实践,重点分析标注难点问题并给出处理方案,包括小句切分、小句关联、依存中心等重要分析任务。事实上,这些难点不仅是人工标注的难点,也是自动标注的难点,其处理不仅有利于指导构建高质量语料库,也有利于指导进一步的自动标注研究。  相似文献   

13.
基本篇章单元(elementary discourse units,EDU)识别是构建篇章结构的基础,对篇章分析意义重大。从篇章衔接性视角来看,篇章话题结构理论认为,每个EDU都由要表达信息的起始点(主位)和传达的新信息(述位)两部分构成。因此,EDU识别与主述位识别任务的关系密切。基于此,该文给出了一个基于多任务学习的汉语基本篇章单元和主述位联合识别方法。该方法利用双向长短时记忆网络和图卷积网络对基本单元进行序列化和结构化拓扑信息的表征,再利用多任务学习框架让两个任务共享参数,借助不同任务间的相关性来提升模型的性能。实验结果表明,基于多任务学习的EDU和主述位识别性能均优于单任务学习模型中各自的性能,其中基本篇章单元识别的F1值达到91.90%,主述位识别的F1值达到85.65%。  相似文献   

14.
篇章分析是自然语言理解的基础。作为篇章分析的重要任务之一,汉语主次关系识别还处于探索阶段。该文提出了一种基于门控记忆网络(GMN)的汉语篇章主次关系识别方法。该方法首先使用Bi-LSTM和CNN分别获取每个篇章单元的全局信息和局部信息。然后,融合两部分篇章单元信息并从中计算得到一个门控单元。最后,使用这个门控单元捕获各个篇章单元相对于篇章整体来说相对重要的特征表示,从而识别出核心篇章单元。在Chinese Discourse Treebank(CDTB)语料库上的实验显示,和最好的基准系统相比,该文的方法在宏平均F1、微平均F1值上均得到了提高。  相似文献   

15.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.无监督神经机器翻译U N MT又在一定程度上解决了高质量平行语料库难以获取的问题.最近的研究表明,跨语言模型预训练能够显著提高U N MT的翻译性能,其使用大规模的单语语料库在跨语言场景中对深层次上下文信息进行建模,获得了显著的效果.进一步探究基...  相似文献   

16.
神经机器翻译在平行语料充足的任务中能取得很好的效果,然而对于资源稀缺型语种的翻译任务则往往效果不佳。汉语和越南语之间没有大规模的平行语料库,在这项翻译任务中,该文探索只使用容易获得的汉语和越南语单语语料,通过挖掘单语语料中词级别的跨语言信息,融合到无监督翻译模型中提升翻译性能;该文提出了融合EMD(Earth Mover's Distance)最小化双语词典的汉—越无监督神经机器翻译方法,首先分别训练汉语和越南语的单语词嵌入,通过最小化它们的EMD训练得到汉越双语词典,然后再将该词典作为种子词典训练汉越双语词嵌入,最后利用共享编码器的无监督机器翻译模型构建汉—越无监督神经机器翻译方法。实验表明,该方法能有效提升汉越无监督神经机器翻译的性能。  相似文献   

17.
已有事件间时序关系识别只考虑两个事件所在上下文的局部信息,忽略事件间篇章视角的关联关系.针对这一问题,文中给出融合句子级依存关系和篇章层修辞关系的事件时序关系识别方法.将事件间关联关系分两部分进行表征:事件所在句子的依存路径信息和事件所在基本篇章单元间的修辞关系信息.基于这一表征体系构建可以捕获更多有效信息的神经网络模型,提高事件时序关系识别的性能.在TimeBank-Dense语料上的一系列实验验证文中方法的优越性.  相似文献   

18.
神经机器翻译领域中多层神经网络结构能够显著提升翻译效果,但是多层神经网络结构存在信息传递的退化问题。为了缓解这一问题,提出了层间和子层间信息融合传递增强的方法,增强多层神经网络的层与层之间信息传递的能力。通过引入“保留门”机制来控制融合信息的传递权重,将融合信息与当前层的输出信息连接共同作为下一层的输入,使得信息传递更加充分。在目前最先进的多层神经网络Transformer上进行相关的实验,在中英和德英翻译任务上的实验结果表明,该信息传递增强方法相比于基线系统,BLEU得分分别提高了0.66和0.42。  相似文献   

19.
篇章分析是自然语言处理领域研究的热点和重点。相较于基于形式语法篇章分析的快速发展,篇章作为一个整体的语义单位,其功能和语义却没有引起足够的重视。该文提出一种融合全局语义信息和结构特征信息模型(FPRGS)来识别篇章的功能语用。该模型在获取篇章单元交互信息的同时融合篇章单元所在文章的全局信息,并使用门控语义网络将篇章单元的结构信息与语义信息结合,从而在语义和结构两方面获得了更加丰富的篇章单元信息。在汉语宏观篇章树库上的实验结果证明,该文提出的模型能够有效地识别篇章单元的功能语用。  相似文献   

20.
该文探讨了基于RNN和CNN的蒙汉神经机器翻译模型,分别采用蒙古语的词模型、切分模型和子词模型作为翻译系统的输入信号,并与传统的基于短语的SMT进行了比较分析。实验结果表明,子词模型可以有效地提高RNN NMT和CNN NMT的翻译质量。同时实验结果也表明,基于RNN的蒙汉NMT模型的翻译性能已经超过传统的基于短语的蒙汉SMT模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号