首页 | 官方网站   微博 | 高级检索  
     

基于深度学习的中文分词方法研究
引用本文:胡晓辉,朱志祥.基于深度学习的中文分词方法研究[J].计算机与数字工程,2020,48(3):627-632.
作者姓名:胡晓辉  朱志祥
作者单位:西安邮电大学物联网与两化融合研究院 西安 710061;陕西省信息化工程研究院 西安 710061
摘    要:作为中文自然语言处理中的基础任务中文分词,其分词的好坏直接影响之后的自然语言处理任务。当前中文分词大部分都是采用基于机器学习的方法,但是其需要人工构建大量特征。针对上述问题,论文提出一种基于深度学习的新分词模型,该模型基于BLSTM(双向长短期神经网络),CNN(卷积神经网络)和CRF(条件随机场),充分利用了BLSTM可以利用长距离信息和CNN提取局部信息的优点。并设计了实验,在三个数据集上验证论文提出的模型在中文分词上的正确性和优越性。

关 键 词:中文分词  自然语言处理  深度学习

Research on Chinese Word Segmentation Based on Deep Learning
HU Xiaohui,ZHU Zhixiang.Research on Chinese Word Segmentation Based on Deep Learning[J].Computer and Digital Engineering,2020,48(3):627-632.
Authors:HU Xiaohui  ZHU Zhixiang
Affiliation:(Institute of IOT and IT-based Industrialization,Xi'an University of Post and Telecommunications,Xi'an 710061;Shaanxi Information Engineering Research Institute,Xi'an 710061)
Abstract:As a basic task of Chinese word segmentation(CWS)in Chinese natural language processing,its segmentation directly determines the future of other natural language processing tasks. Most of the current Chinese word segmentation uses machine learning-based methods,but it requires manual construction of a large number of features. Aiming at the above problems,this paper proposes a new segmentation model based on deep learning. The model is based on BLSTM,CNN and CRF,making full use of BLSTM to make use of long distance information and the advantages of CNN extracting local information. Experiments are designed and the correctness and superiority of the proposed model in Chinese word segmentation are verified on three data sets.
Keywords:CWS  NLP  DL
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号