首页 | 官方网站   微博 | 高级检索  
     

基于RNN的中文二分结构句法分析
引用本文:谷波,王瑞波,李济洪,李国臣. 基于RNN的中文二分结构句法分析[J]. 中文信息学报, 2019, 33(1): 35-45
作者姓名:谷波  王瑞波  李济洪  李国臣
作者单位:1.山西大学 计算机与信息技术学院,山西 太原 030006;
2.山西大学 软件学院,山西 太原 030006;
3.太原工业学院,山西 太原 030008
基金项目:国家社会科学基金(16BTJ34)
摘    要:为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1) 达到71.25%,在句子级别的准确率达到约43%。

关 键 词:层次句法分析  循环神经网络(RNN)  m×2CV序贯t-检验  

RNN Based Chinese Parsing for Binary Tree Structure
GU Bo,WANG Ruibo,LI Jihong,LI Guochen. RNN Based Chinese Parsing for Binary Tree Structure[J]. Journal of Chinese Information Processing, 2019, 33(1): 35-45
Authors:GU Bo  WANG Ruibo  LI Jihong  LI Guochen
Affiliation:1.School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China;
2.School of Software, Shanxi University, Taiyuan, Shanxi 030006, China;
3.Taiyuan Institute of Technology, Taiyuan, Shanxi 030008, China
Abstract:We construct a 30 000 sentences binary Chinese Treebank which is base on Chinese syntactic theory proposed by Zhu DeXi and Lu JianMin, in which each parse is a full binary tree and represented by Huffman coding for simplicity. To deal with its parsing, we propose a sequential labeling model (RNN-Interval, abbr RNN-INT) based on RNN(recurrent neural network) tagging the intervals between words. We compared our model RNN-INT with primary RNN, LSTM and CRF models, employing the m×2 cross-validated sequential t-test. The experiment results show that the proposed model achieves the best performance with window size 1according to constituency F1 and sentence accuracy, i.e. 71.25% and 43%, respectively.
Keywords:hierarchical syntactic parsing    RNN (recurrent neural network)    m×2 cross-validated sequential t-test  
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号