首页 | 官方网站   微博 | 高级检索  
     

基于字簇的多模型中文分词方法研究
引用本文:李对红,王裴岩,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359,374.
作者姓名:李对红  王裴岩  张桂平  张少阳
作者单位:沈阳航空航天大学 人机智能研究中心,沈阳110136;沈阳航空航天大学 人机智能研究中心,沈阳110136;沈阳航空航天大学 人机智能研究中心,沈阳110136;沈阳航空航天大学 人机智能研究中心,沈阳110136
基金项目:辽宁省自然科学基金;青年科学研究基金
摘    要:字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。

关 键 词:中文分词  构词规律  模型参数  聚类
收稿时间:2018/8/6 0:00:00
修稿时间:2020/1/2 0:00:00

Multi-model Chinese word segmentation method based on character clusters
Li Duihong,Wang Peiyan,Zhang Guipeng and Zhang ShaoYang.Multi-model Chinese word segmentation method based on character clusters[J].Application Research of Computers,2020,37(2):355-359,374.
Authors:Li Duihong  Wang Peiyan  Zhang Guipeng and Zhang ShaoYang
Affiliation:Human-computer Intelligence Research Center,Shenyang Aerospace University,,,
Abstract:Character-based tagging method is currently an effective method in Chinese word segmentation. However, the Chinese characters have their own semantic information, different characters have different meanings and functions in different contexts, which lead to different correlations with context, resulting in the difference of word-formation rules for each word. To solve this problem, this paper proposed a multi-model segmentation method based on character clusters. Firstly, the method separately constructed a model for each word, then clustered the model parameters to form character clusters, and finally retrained the model parameters based on the character clusters. Experimental results show that this method can effectively find character clusters with the same or similar word-formation rules, and distinguish the effect of similar features for different characters.
Keywords:Chinese word segmentation  word-formation rules  model parameters  clustering
本文献已被 万方数据 等数据库收录!
点击此处可从《计算机应用研究》浏览原始摘要信息
点击此处可从《计算机应用研究》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号