首页 | 官方网站   微博 | 高级检索  
     

一种无词典快速抽词算法的设计和实现
引用本文:屈志毅,张星,廖绍雯.一种无词典快速抽词算法的设计和实现[J].微计算机信息,2008,24(27).
作者姓名:屈志毅  张星  廖绍雯
摘    要:中文抽词在中文自然语言处理中是最基础的工作.本文提出了一种无词典的t-score和二分相结合的抽词算法.它首先对原始文本进行预处理.利用噪音词的辅助信息来做初始切分.经过处理后一部分词被抽取出来,存入结果集.接着利用本文的抽词算法来进行二次抽词.本算法应用了N-GrRm的思想.经过实验证明,该算法不但抽词速度快.而且抽取出的词相对长度大,维护了中文语言的完整性.为进一步进行语义分析和索引构建打下了良好的基础.

关 键 词:无词典  二分法  快速抽词

Design and Implement of a Fast Extracting Words Algorithm without Using Dictionary
QU Zhi-yi,ZHANG Xing,LIAO Shao-wen.Design and Implement of a Fast Extracting Words Algorithm without Using Dictionary[J].Control & Automation,2008,24(27).
Authors:QU Zhi-yi  ZHANG Xing  LIAO Shao-wen
Abstract:
Keywords:t-score
本文献已被 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号