首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于词典和句长及位置的双语对齐方法的改进   总被引:1,自引:1,他引:0  
基于词典和句子的长度和位置信息的双语句子对齐方法在解决真实双语文本对齐问题时具有一定的普适性。在分析该方法的基础上,提出了在解决某一指定领域内的维汉互译文本时,对基于长度和位置信息的双语句子对齐方法的改进,在此方法引入维语与汉语句子长度比的期望值,能够使数据更平滑,更有效地解决了维汉互译文本句子对齐的问题。  相似文献   

2.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法。首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐。之后基于语料的特点提取句对齐特征融入输入层。通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对比实验证明,融入特征的孪生Bi-LSTM方法在句对齐任务中具有更优越的性能。  相似文献   

3.
针对汉藏政府公文机器翻译的数据稀疏和构建大规模的语料库等关键问题,提出了一种基于规则的句级语料对齐技术。所提出的技术以汉藏政府公文的句子特点为依据,结合了基于长度和词汇的混合式对齐方法,在国家和省级层面的5个汉藏政府公文数据集上进行了测试,测试结果表明,准确率在66%到75%之间,减少了句级语料对齐所需的人力、物力和财力,同时在构建大规模语料上取得了较好的效果。  相似文献   

4.
蓝瞻瞻 《电子测试》2013,(5S):203-204
随着互联网的发展,双语网站逐渐增多,使得通过对网页双语资料的挖掘而建立双语语料库成为可能。双语语料库的建设涉及到对双语网站的获取,然后根据URL命名规律获取网页的双语材料,段落层次的对齐,句子的对齐等步骤。实验证实了双语语料库的研建的可操作性。  相似文献   

5.
句子相似度的计算在自然语言处理的各个领域有很广泛的应用,但跨语言的句子相似度计算方法却非常少。文中提出一种基于互译特征词对匹配,构建老-汉双语句子相似度计算方法,改进了传统的依赖于词形词序通过计算相同词个数和共有单词的位置信息的相似度计算方法,充分考虑了老挝语和汉语句子中的词汇互译信息、相似概率,避免了由于特征词位置导致的精度丢失。此方法用来最终识别相似度较高的老-汉双语平行句对,依据相似度对源句子和目标句子进行对齐,在老-汉双语平行语料库的建设中使用。实验结果表明,此方法在一定程度上提高了老-汉双语句子相似度计算的准确率。  相似文献   

6.
词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对齐阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。  相似文献   

7.
针对传统短语对齐方法依赖外部资源,且较少涉及平行句对内在特征的问题,提出了融入双语词向量的韩汉名词短语对齐方法.利用平行语料,分别训练单语词向量再进行跨语言映射得到双语词向量,并构建了基于短语构成规律的短语抽取和融入双语词向量、短语长度和词性相似度的短语对齐模型.实验结果证明,融入韩汉双语词向量,能更有效地提取短语特征从而实现短语对齐.  相似文献   

8.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

9.
针对现有方法利用机器翻译在双语新闻中抽取差异性摘要存在的语义转换偏差问题,提出一种基于图卷积网络的双语多文档差异性摘要抽取方法。首先,对已抽取的双语多文档摘要构建句子关系图,并将GRU模型获得的句向量和句子关系图作为图卷积网络的输入,以获得图卷积相关性聚合之后的句子节点表征;然后,计算句子节点表征和GRU模型获得中英文文档向量之间的显著性得分;最后,按照显著性得分高低进行降序排序,分别抽取出中英文的差异性摘要。实验结果表明,所提出的方法能够有效抽取双语多文档差异性摘要。  相似文献   

10.
《现代电子技术》2016,(15):108-111
针对双语术语抽取系统在处理多种语言时大量耗费人力、财力、物力等的局限性问题,提出基于平行语料库的双语术语抽取方法,同时,分析此方法的不足,结合多种方法进行改善。在此基础上开发了一个双语术语抽取系统,并通过实验分析了相似度函数、语料规模以及改进后方法对术语抽取结果的影响,而且该系统已经作为商品化软件投入实际应用。  相似文献   

11.
中文分词结果对中英命名实体识别及对齐有着直接的影响,本文提出了一种命名实体识别及对齐中的中文分词优化方法.该方法利用实体词汇的对齐信息,首先修正命名实体识别结果,然后根据实体对齐结果调整分词粒度、修正错误分词.分词优化后的结果使得双语命名实体尽可能多地实现一一对应,进而提高中英命名实体翻译抽取和统计机器翻译的效果.实验结果表明了本文优化方法的有效性.  相似文献   

12.
由于信息的高速发展,多语言语料库资源日益增长,促进了双语术语抽取的研究和应用。双语词典被广泛应用于跨语言信息检索、机器翻译等广泛领域,而双语词表的抽取也成为了语言学领域的重要问题。文章在研究了可比语料库双语词表构建的基础上,提出了基于依存上下文来构建中-英词表的方法,并通过对比验证依存上下文方法双语词表构建的优越性。  相似文献   

13.
江雪  郑宝玉 《信号处理》2015,31(5):570-580
随着用户数的增大,干扰制约着无线通信网络的容量。在资源有限的情况下,干扰对齐的提出为系统容量的提高提供了新的方法,成为当前降低通信系统干扰的研究热点。对齐主要指使接收端多个干扰信号重叠或抵消,压缩干扰所占资源。本文首先重点分析了基于信号空间、信道时隙、和信号编码级等的干扰对齐算法及其优缺点。然后根据这些算法在实际应用中的限制,给出反馈、中继、分组和接纳控制等改进机制;最后介绍了干扰对齐算法衡量的主要性能指标自由度,并分析比较了现有干扰对齐算法及改进机制的性能。   相似文献   

14.
大姿态人脸对齐是人脸识别和三维人脸重构等很多重要视觉任务的先决条件。现有的对齐方法大多使用二维界标位置来进行对齐,且使用的界标数量有限,影响大姿态人脸对齐的准确性。提出一种采用三维形变模型(3DMM)来表示二维人脸图像,将具有任意姿态的人脸对齐问题建模为基于3DMM的拟合问题。采用基于卷积神经网络(CNN)的级联回归方法学习二维人脸图像及其表示之间的映射关系。提出2种新的姿态不变局部特征作为卷积神经网络学习的输入层,通过训练得到CNN用于大姿态人脸对齐。在2个经典的人脸图像数据集上的仿真实验结果表明,与目前最新的人脸对齐方法相比,该方法的效果较优。  相似文献   

15.
干扰对齐IA(Interference Alignment)是一种新兴有效地干扰抑制技术,可以通过压缩干扰所占的信号维度,使系统获得最大自由度。文章搭建了3用户MIMO系统线性干扰对齐的应用模型,对经典干扰对齐算法、基于特征子信道的干扰对齐预编码矩阵优化方法以及分布式干扰对齐算法进行了性能分析。分析结果表明,基于特征子信道的干扰对齐预编码矩阵优化方法和经典干扰对齐算法适用于集中式通信环境,因利用了本信道信息,前者性能优于经典干扰对齐算法;分布式干扰对齐算法用于分布式环境,性能与经典干扰对齐算法逼近。  相似文献   

16.
逆合成孔径雷达(ISAR)成像中,包络对齐是初相校正和图像重构的基础。基于刚体模型的包络相关法对具有大动态范围的回波处理时对齐效果较差,针对这一问题,本文提出了一种基于自适应幂变换的相关包络对齐新方法,对齐质量明显提高,大量实测数据验证了该方法的有效性。  相似文献   

17.
双语语料库作为基础资源,在机器翻译、跨语言信息检索、词典编纂等领域起着重要作用。早期的双语语料库主要靠人工挑选和整理,网络的快速传播和web挖掘技术的发展为双语语料库构建提供了新途径。双语语料库按照互译程度的差异可分为平行语料库和可比语料库。本文分别对平行语料库和可比语料库目前主要的构建方法进行了介绍。平行语料库构建主要面向同一网站内部不同网页间的平行语料资源,这些资源url地址相关且网页结构相似,利用这种特点构建的系统都获得了很好的效果。也有人利用网页内部结构特征挖掘双语混合网页内的平行语料。近几年,又出现了利用跨语言信息检索技术收集不同网站间的平行语料,这一技术同样适用于可比语料库的构建。相比平行语料库,可比语料库来源更加广泛,近年来研究逐渐增多。除了利用跨语言信息检索技术,学者们还研究了基于统计特征的方法。针对蕴含着大量多语资源的维基百科等特定网站,也有人专门进行了一些研究。文章最后对双语语料库未来发展前景进行了展望。  相似文献   

18.
为满足下一代移动通信系统高速率传输的要求,LTE-A系统引入了无线中继技术,用户终端可通过中继节点接入网络以获得高质量的服务。但是随着中继节点及用户的增加会导致系统的同道干扰更加突出,成为限制LTE-A网络容量的主要因素。因此,需要研究有效的干扰抑制技术以增强网络性能。近年提出的干扰对齐技术能够获得干扰网络的最大自由度并可达其最优容量。研究了基于低秩干扰空间的多小区干扰对齐技术,然后将该算法推广到LTE-A中继网络,提出了基于协作中继的LTE-A干扰对齐方案。仿真结果表明,提出的干扰对齐技术能够有效提高LTE-A中继网络容量。  相似文献   

19.
藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑.本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据.  相似文献   

20.
为了弥补传统干扰对齐方案只在一维域上对齐的不足,提出了一种时频联合干扰对齐方案。通过把频率选择性高斯干扰信道分割成多个并行的高斯干扰信道后引入时频联合干扰对齐矩阵,对这些并行信道在时域和频域同时进行干扰对齐。基于最优化方法,提出了一种计算时频联合干扰对齐矩阵的算法。数值仿真表明该方案和传统干扰对齐方案获得相同性能的条件下,能大幅度地缩短译码延时或减少频带资源的使用,所提方案是传统一维域算法在二维域的扩展,能够提供更加灵活的时频资源分配手段。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号