首页 | 官方网站   微博 | 高级检索  
     

BFS-CTC汉语句义结构标注语料库
引用本文:刘盈盈,罗森林,冯扬,韩磊,陈功,王倩.BFS-CTC汉语句义结构标注语料库[J].中文信息学报,2013,27(1):72-81.
作者姓名:刘盈盈  罗森林  冯扬  韩磊  陈功  王倩
作者单位:北京理工大学 信息与电子学院 信息安全与对抗技术实验室, 北京 100081
基金项目:国家242项目,北京理工大学科技创新计划重大项目培育专项计划资助
摘    要:句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。

关 键 词:自然语言处理  语义标注  句义结构  语料库  

BFS-CTC: A Chinese Corpus of Sentential Semantic Structure
LIU Yingying , LUO Senlin , FENG Yang , HAN Lei , CHEN Gong , WANG Qian.BFS-CTC: A Chinese Corpus of Sentential Semantic Structure[J].Journal of Chinese Information Processing,2013,27(1):72-81.
Authors:LIU Yingying  LUO Senlin  FENG Yang  HAN Lei  CHEN Gong  WANG Qian
Affiliation:Lab of Information Security & Countermeasures Technology, School of Information & Electronics,
Beijing Institute of Technology, Beijing 100081, China
Abstract:Sentential semantic structure analysis is an important issue in Chinese semantic analysis. Based on the Modern Chinese Semantics, this paper establishes a hierarchical Chinese sentential semantic structure model, defines the standard and the tagset, and thus constructs a Chinese corpus of sentential senmantic structureBFS-CTC (Beijing Forest Studio - Chinese Tagged Corpus). All sentences in this corpus are tagged on the lexical, the syntactic and the whole sentential semantic structure levels, and it is easy to analyze the relation between syntax and semantics. The core of BFS-CTC is consists of four banksthe original sentence bank (OSB), the lexical tagged bank (LTB), the syntax tagged bank (STB) and the semantic structure tagged bank (SSTB). The more than 10,000 sentences in current version come from news texts, covering six major sentence types in Chinese.
Key wordsnatural language processing; semantic analysis; sentential semantic structure; corpus
Keywords:natural language processing  semantic analysis  sentential semantic structure  corpus  
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号