首页 | 官方网站   微博 | 高级检索  
     

中文句法异构蕴含语块标注和边界识别研究
引用本文:金天华,姜姗,于东,赵美倩,刘璐.中文句法异构蕴含语块标注和边界识别研究[J].中文信息学报,2019,33(2):17-25.
作者姓名:金天华  姜姗  于东  赵美倩  刘璐
作者单位:1.北京语言大学 信息科学学院,北京 100083;
2.北京语言大学 语言资源高精尖创新中心,北京 100083
基金项目:北京语言大学语言资源高精尖创新中心项目(TYR17001J);国家社会科学基金(16AYY007);中央高校基本科研业务费专项资金(北京语言大学梧桐创新项目:17PT05)
摘    要:文本蕴含是自然语言处理的难点,其形式、类型复杂,知识难以概括。早期多利用词汇蕴含和逻辑推理知识识别蕴含,但该方法反对特定类型的蕴含有效。近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段。该文研究文本蕴含成因形式,归纳为词汇、句法异构、常识和社会经验三类,并以句法异构蕴含为研究对象。针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务。该文制定句法异构蕴含语块标注规范,建立标注数据集。在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法。实验结果表明,该文提出的深度学习模型能有效发现蕴含语块,为下一步的研究提供可靠的基线方法。

关 键 词:文本蕴含  句法异构  语块标注  

Chinese Chunked-based Heterogeneous Entailment Parser and Boundary Identification
JIN Tianhua,JIANG Shan,YU Dong,ZHAO Meiqian,LIU Lu.Chinese Chunked-based Heterogeneous Entailment Parser and Boundary Identification[J].Journal of Chinese Information Processing,2019,33(2):17-25.
Authors:JIN Tianhua  JIANG Shan  YU Dong  ZHAO Meiqian  LIU Lu
Affiliation:1.College of Information Science, Beijing Language and Culture University, Beijing 100083, China;
2.Beijing Advanced Innovation Center for Language Resources, Beijing Language and Culture University, Beijing 100083, China
Abstract:Textual entailment(RTE) is a challenging issue for natural language processing. This paper proposes to categorize the textual entailment into three tyes: lexical entailment, chunked-based heterogeneous entailment and common-sense entailment. Focused on the concept of chunked-based heterogeneous, we further present a chunk annotation standard and a labeled dataset. Then we explore the rule-based model and the deep learning model respectively for the automatic detection of the chunk entailments. The experimental results show that the deep learning model adopted in this paper can discover the entailment fragments effectively.
Keywords:textual entailment  syntactic heterogeneous  chunks-labeling  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号