首页 | 官方网站   微博 | 高级检索  
     

一种中文分词词典新机制——双字哈希机制
引用本文:李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):14-19.
作者姓名:李庆虎  陈玉健  孙家广
作者单位:清华大学计算机系
基金项目:教育部专项基金资助项目(2001BA101A12-02);973计划资助(2002CB312006)
摘    要:汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。

关 键 词:计算机应用  中文信息处理  中文分词  双字哈希  
文章编号:1003-0077(2003)04-0013-06
修稿时间:2002年6月17日

A New Dictionary Mechanism for Chinese Word Segmentation
LI Qing-hu,CHEN Yu-jian,SUN Jia-guang.A New Dictionary Mechanism for Chinese Word Segmentation[J].Journal of Chinese Information Processing,2003,17(4):14-19.
Authors:LI Qing-hu  CHEN Yu-jian  SUN Jia-guang
Affiliation:Department of Computer Science and Technology , Tsinghua University
Abstract:Chinese word segmentation is the preparation for Chinese Information Processing. As one basic component of Chinese word segmentation systems, the dictionary mechanism influences the speed and efficiency of segmentation significantly. In this paper, we provide a new dictionary mechanism named double-character-hash-indexing (DCHI). Compared with existing typical dictionary mechanisms (i.e. binary-seek-by-word, TRIE indexing tree and binary-seek-by-characters), DCHI improves the speed and efficiency of segmentation without increasing the space and time complication and maintenance difficulty.
Keywords:computer application  Chinese information processing  Chinese word segmentation  dictionary mechanism  double character hash indexing
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号