期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

何彦青石崇德于薇张均胜王惠临《数字图书馆论坛》2011,(12):32-38

多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合,产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题。文章介绍了中国科学技术信息研究所（ISTIC）参加第七届全国机器翻译研讨会机器翻译评测的情况。本单位参加了英汉科技领域的机器翻译评测项目。文章阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现,最后对机器翻译系统融合方法目前的现状进行讨论,并对该系统融合方法进行总结和展望。相似文献

2.

2015全国机器翻译研讨会ISTIC评测报告

下载免费PDF全文

何彦青孟令恩丁亮石崇德李颖王莉军孙瑶《情报工程》2016,2(5):058-066

中国科学技术信息研究所（ISTIC）机器翻译研发工程历史悠久,几经变迁。本文在回顾ISTIC机器翻译发展历史的基础上,介绍了最近参加第十一届全国机器翻译研讨会机器翻译评测（简称CWMT’2015）系统的具体表现。CWMT’2015评比中, ISTIC 参加了维汉、藏汉、蒙汉三个机器翻译评测项目。本文阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现。相似文献

3.

基于机器翻译的专利术语翻译获取方法研究

何彦青刘建辉屈鹏李颖徐红姣《图书情报工作》2014,58(19):25-30

鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是：专利术语翻译对的准确率达到80%。相似文献

4.

一种基于短文本相似度计算的主观题自动阅卷方法

张均胜石崇德徐红姣高影繁何彦青《图书情报工作》2014,58(19):31-38

文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。相似文献

5.

子句对齐及其在专利统计机器翻译中的应用

何彦青张娟《中国科技资源导刊 (中国信息导报)》2014,(4):86-93

针对专利文献句子偏长的特点,将统计机器翻译中的训练语料进行子句切割获取双语的子句序列,再采用统计和规则相结合的策略来生成子句对齐,建立基于简单子句的双语语料来重新训练统计机器翻译系统,在一定程度上改善了原有双语训练语料中的短语对齐和词对齐,可以更为深入地利用平行语料中蕴含的翻译信息,应用于专利统计机器翻译中,在NTCIR-9的测试集上进行实验比较,获得较为满意的翻译效果。相似文献

6.

深度学习在统计机器翻译领域自适应中的应用研究

下载免费PDF全文

丁亮姚长青何彦青李辉《情报工程》2017,3(3):064-076

统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络 (Convolutional neural network, CNN）对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU 打分的翻译结果,证明了本研究的有效性和可行性。相似文献

7.

面向科技文献的中日机器翻译合作研究

下载免费PDF全文

赵志耘石崇德何彦青高影繁姚长青《情报工程》2017,3(3):004-009

本文以多语言科技信息服务为立足点,结合中日两国面向科技文献的机器翻译研究现状,介绍了两国近几年开展的机器翻译合作项目的情况,包括合作背景与基础、知识产权、具体合作内容与成果,以及在机器翻译实用化方面的一些思考。相似文献

8.

统计机器翻译领域自适应方法比较研究

下载免费PDF全文

丁亮李颖何彦青《情报工程》2016,2(4):080-088

统计机器翻译常常面临训练数据与待翻译文本领域不一的问题,从而影响了翻译的性能,因此领域自适应一直是研究者关注的课题。本文以传统自适应方法和现行的机器学习方法为框架,介绍了近年来统计机器翻译领域自适应研究的进展。分析了各类研究方法的优缺点并对未来研究做出展望。相似文献

9.

ASPEC: 亚洲科学论文摘录语料库

下载免费PDF全文

Toshiaki Nakazaw Manabu Yaguchi Kiyotaka Uchimoto Masao Utiyam Eiichiro Sumit Sadao Kurohashi Hitoshi Isahar 何彦青刘建辉《情报工程》2017,3(3):040-046

本文详细介绍了ASPEC（亚洲科学论文摘录语料库）。作为首个大规模的科学论文领域内的平行语料库,ASPEC 是由日- 中机器翻译项目于 2006 年至2010 年间利用科技促进专用协作基金构建起来的。它包含约300 万条平行语句的日- 英科学论文摘要语料库（ASPEC-JE）和约68万条平行语句的中- 日科学论文摘录语料库（ASPEC-JC）。ASPEC 被用作机器翻译评测研讨会WAT（亚洲翻译研讨会）的官方数据集。相似文献

10.

基于词与短语的多机器翻译系统融合方法研究

何彦青张均胜王惠临《情报学报》2011,30(12)

多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题.常用的多机器翻译系统融合技术可以分为句子级、短语级和词级融合.在对不同级别的系统融合技术进行分析的基础上,本文提出基于词和短语的多机器翻译系统融合方法.首先,采用词级的系统融合技术构建混淆网络,将混淆网络转化为短语表.然后,基于该短语表利用短语级的系统融合技术中的再解码方法进行混淆网络解码生成融合结果.该方法既保证了融合系统所构建的混淆网络的最大可能性,又可以利用更多的特征进行混淆网络解码.我们将基于词和短语的多机器翻译系统融合方法在两个测试集上分别实验并进行比较,获得了较为满意的翻译效果. 相似文献