共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法。首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐。之后基于语料的特点提取句对齐特征融入输入层。通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对比实验证明,融入特征的孪生Bi-LSTM方法在句对齐任务中具有更优越的性能。 相似文献
3.
针对汉藏政府公文机器翻译的数据稀疏和构建大规模的语料库等关键问题,提出了一种基于规则的句级语料对齐技术。所提出的技术以汉藏政府公文的句子特点为依据,结合了基于长度和词汇的混合式对齐方法,在国家和省级层面的5个汉藏政府公文数据集上进行了测试,测试结果表明,准确率在66%到75%之间,减少了句级语料对齐所需的人力、物力和财力,同时在构建大规模语料上取得了较好的效果。 相似文献
4.
随着互联网的发展,双语网站逐渐增多,使得通过对网页双语资料的挖掘而建立双语语料库成为可能。双语语料库的建设涉及到对双语网站的获取,然后根据URL命名规律获取网页的双语材料,段落层次的对齐,句子的对齐等步骤。实验证实了双语语料库的研建的可操作性。 相似文献
5.
6.
词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对齐阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。 相似文献
7.
针对传统短语对齐方法依赖外部资源,且较少涉及平行句对内在特征的问题,提出了融入双语词向量的韩汉名词短语对齐方法.利用平行语料,分别训练单语词向量再进行跨语言映射得到双语词向量,并构建了基于短语构成规律的短语抽取和融入双语词向量、短语长度和词性相似度的短语对齐模型.实验结果证明,融入韩汉双语词向量,能更有效地提取短语特征从而实现短语对齐. 相似文献
8.
一种基于N-gram模型和机器学习的汉语分词算法 总被引:6,自引:0,他引:6
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。 相似文献
9.
针对现有方法利用机器翻译在双语新闻中抽取差异性摘要存在的语义转换偏差问题,提出一种基于图卷积网络的双语多文档差异性摘要抽取方法。首先,对已抽取的双语多文档摘要构建句子关系图,并将GRU模型获得的句向量和句子关系图作为图卷积网络的输入,以获得图卷积相关性聚合之后的句子节点表征;然后,计算句子节点表征和GRU模型获得中英文文档向量之间的显著性得分;最后,按照显著性得分高低进行降序排序,分别抽取出中英文的差异性摘要。实验结果表明,所提出的方法能够有效抽取双语多文档差异性摘要。 相似文献
10.
11.
12.
由于信息的高速发展,多语言语料库资源日益增长,促进了双语术语抽取的研究和应用。双语词典被广泛应用于跨语言信息检索、机器翻译等广泛领域,而双语词表的抽取也成为了语言学领域的重要问题。文章在研究了可比语料库双语词表构建的基础上,提出了基于依存上下文来构建中-英词表的方法,并通过对比验证依存上下文方法双语词表构建的优越性。 相似文献
13.
14.
蓝敏 《太赫兹科学与电子信息学报》2021,19(2):295-302
大姿态人脸对齐是人脸识别和三维人脸重构等很多重要视觉任务的先决条件。现有的对齐方法大多使用二维界标位置来进行对齐,且使用的界标数量有限,影响大姿态人脸对齐的准确性。提出一种采用三维形变模型(3DMM)来表示二维人脸图像,将具有任意姿态的人脸对齐问题建模为基于3DMM的拟合问题。采用基于卷积神经网络(CNN)的级联回归方法学习二维人脸图像及其表示之间的映射关系。提出2种新的姿态不变局部特征作为卷积神经网络学习的输入层,通过训练得到CNN用于大姿态人脸对齐。在2个经典的人脸图像数据集上的仿真实验结果表明,与目前最新的人脸对齐方法相比,该方法的效果较优。 相似文献
15.
干扰对齐IA(Interference Alignment)是一种新兴有效地干扰抑制技术,可以通过压缩干扰所占的信号维度,使系统获得最大自由度。文章搭建了3用户MIMO系统线性干扰对齐的应用模型,对经典干扰对齐算法、基于特征子信道的干扰对齐预编码矩阵优化方法以及分布式干扰对齐算法进行了性能分析。分析结果表明,基于特征子信道的干扰对齐预编码矩阵优化方法和经典干扰对齐算法适用于集中式通信环境,因利用了本信道信息,前者性能优于经典干扰对齐算法;分布式干扰对齐算法用于分布式环境,性能与经典干扰对齐算法逼近。 相似文献
16.
17.
庞伟 《信息技术与信息化》2015,(3):105-108
双语语料库作为基础资源,在机器翻译、跨语言信息检索、词典编纂等领域起着重要作用。早期的双语语料库主要靠人工挑选和整理,网络的快速传播和web挖掘技术的发展为双语语料库构建提供了新途径。双语语料库按照互译程度的差异可分为平行语料库和可比语料库。本文分别对平行语料库和可比语料库目前主要的构建方法进行了介绍。平行语料库构建主要面向同一网站内部不同网页间的平行语料资源,这些资源url地址相关且网页结构相似,利用这种特点构建的系统都获得了很好的效果。也有人利用网页内部结构特征挖掘双语混合网页内的平行语料。近几年,又出现了利用跨语言信息检索技术收集不同网站间的平行语料,这一技术同样适用于可比语料库的构建。相比平行语料库,可比语料库来源更加广泛,近年来研究逐渐增多。除了利用跨语言信息检索技术,学者们还研究了基于统计特征的方法。针对蕴含着大量多语资源的维基百科等特定网站,也有人专门进行了一些研究。文章最后对双语语料库未来发展前景进行了展望。 相似文献
18.
为满足下一代移动通信系统高速率传输的要求,LTE-A系统引入了无线中继技术,用户终端可通过中继节点接入网络以获得高质量的服务。但是随着中继节点及用户的增加会导致系统的同道干扰更加突出,成为限制LTE-A网络容量的主要因素。因此,需要研究有效的干扰抑制技术以增强网络性能。近年提出的干扰对齐技术能够获得干扰网络的最大自由度并可达其最优容量。研究了基于低秩干扰空间的多小区干扰对齐技术,然后将该算法推广到LTE-A中继网络,提出了基于协作中继的LTE-A干扰对齐方案。仿真结果表明,提出的干扰对齐技术能够有效提高LTE-A中继网络容量。 相似文献
19.
藏汉双语语料库是对藏汉双语进行自然语言处理的必不可少的语言资源,利用万维网上已经存在的大规模藏语和汉语的语言资源使用Spark大数据技术进行深度爬取,构建出藏汉双语语料库并提供基础数据支撑.本文设计出一种藏汉双语对URL进行深度爬虫的分布式算法,为藏汉双语语料库建设数据来源提供理论依据. 相似文献