首页 | 官方网站   微博 | 高级检索  
     

汉英篇章结构平行语料库的对齐标注评估
引用本文:冯文贺,李艳翠,任 函,周国栋. 汉英篇章结构平行语料库的对齐标注评估[J]. 中文信息学报, 2017, 31(3): 86-93
作者姓名:冯文贺  李艳翠  任 函  周国栋
作者单位:1. 广东外语外贸大学 语言工程与计算实验室,广东 广州 510006;
2. 河南科技学院 中文系,河南 新乡 453003;
3. 河南科技学院 信息工程学院,河南 新乡 453003;
4. 苏州大学 计算机学院,江苏 苏州 215006
基金项目:教育部人文社科项目(13YJC740022、15YJC740021);河南高校哲社基础研究重大项目(2015-JCZD-022);中国博士后基金(2013M540594);国家自然科学基金(61402341,61502149,61273320);广东外语外贸大学语言工程与计算实验室2016年招标课题(LEC2016ZBKT001,LEC2016ZBKT002)
摘    要:汉英篇章结构平行语料库是为汉英翻译文本标注对齐篇章结构信息的语料库,对齐标注是其核心工作,基本原则是“结构对齐、关系对齐”。该文基于所开发的对齐标注平台,进行人工对齐标注实验,提出切分对齐、结构对齐、关系对齐、连接词对齐、关系角色与中心对齐等对齐标注任务的评估方法,并给出评估分析。实验表明,对齐标注是构建汉英篇章结构平行语料库的合理、有效工作方式。

关 键 词:篇章结构  平行语料库  对齐标注  结构对齐  对齐评估  

Evaluation for Alignment Annotation of Chinese-English Discourse Treebank
FENG Wenhe,LI Yancui,REN Han,ZHOU Guodong. Evaluation for Alignment Annotation of Chinese-English Discourse Treebank[J]. Journal of Chinese Information Processing, 2017, 31(3): 86-93
Authors:FENG Wenhe  LI Yancui  REN Han  ZHOU Guodong
Affiliation:1. Laboratory of Language engineering and computing, Guangdong University of Foreign Studies,
Guangzhou, Guangdong 510006,China;
2. Department of Chinese Language and Literature,Henan Institute of Science and Technology,
Xinxiang ,Henan 453003, China;
3. School of Information Engineering, Henan Institute of Science and Technology, Xinxiang,Henan 453003,China;
4. Department of Computer Science and Technology, Soochow University, Suzhou,Jiangsu 215006,China
Abstract:Chinese-English discourse treebank (CEDT) is a parallel corpus annotated with alignment discourse structure information for Chinese and English. Its core task is alignment annotation supervised by the principle of structure and relation alignment. With the corresponding annotation platform, we manually annotate the corpus, propose the evaluation methods for the alignment annotation and give the evaluation analysis, including segmentation, structure, relation, connective, relation role and center alignment. Experimental results show that the alignment annotation strategy is a feasible and efficient method of building CEDT.
Keywords:discourse structure  parallel corpus   alignment annotation   structural alignment  alignment evaluation  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号