首页 | 官方网站   微博 | 高级检索  
     

利用汉字二元语法关系解决汉语自动分词中的交集型歧义
引用本文:孙茂松,黄昌宁.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339.
作者姓名:孙茂松  黄昌宁
作者单位:[1]清华大学计算机科学与技术系 [2]香港城市大学
摘    要:本文提出了一种利用句内相邻之间的互信息及t-测试差这两个统计量解决汉语自动分词中交集型歧义切分字段的方法。初步的实验结果显示,可以正确处理90.3%的交集字段。

关 键 词:汉语  自动分词  汉字二元语法  计算机语言学

USING CHARACTER BIGRAM FOR AMBIGUITY RESOLUTION IN CHINESE WORD SEGMENTATION
SUN Mao Song\ HUANG Chang Ning\ Benjamin K.Tsou,LU Fang\ SHEN Da Yang.USING CHARACTER BIGRAM FOR AMBIGUITY RESOLUTION IN CHINESE WORD SEGMENTATION[J].Journal of Computer Research and Development,1997,34(5):332-339.
Authors:SUN Mao Song\ HUANG Chang Ning\ Benjamin KTsou  LU Fang\ SHEN Da Yang
Affiliation:SUN Mao Song\ HUANG Chang Ning\ Benjamin K.Tsou * LU Fang\ SHEN Da Yang
Abstract:This paper presents a method of using two kinds of statistical measures,mutual information and difference of t test of adjacent characters in sentences,to deal with ambiguities in Chinese word segmentation.A Chinese character bigram matrix,derived automatically from the raw corpus,serves as a basis for the related calculations.Preliminary experiments show that 90 3% correct rate is achieved for overlapped ambiguities.
Keywords:Chinese word segmentation  bigram  mutual information  difference of t  test  
本文献已被 CNKI 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号