首页 | 官方网站   微博 | 高级检索  
     

基于语料库的中文姓名识别方法研究
引用本文:郑家恒,李鑫,谭红叶.基于语料库的中文姓名识别方法研究[J].中文信息学报,2000,14(1):7-12.
作者姓名:郑家恒  李鑫  谭红叶
作者单位:1.山西大学计算机科学系2.太原理工大学计算机科学与工程系
基金项目:本文受国家社科基金重大项目(97@yy001-2)和国家自然科学基金(69673011)资助
摘    要:本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。

关 键 词:中文姓名识别  姓氏使用频率  自动分词  

The Research of Chinese Names Recognition Method Based on Corpus
Zheng Jiahen Li Xin Tan Hongye Dept.of Computer Science,Shanxi University,Taiyuan Dept.of Computer Science and Engineering Taiyuan University of Technology,Taiyuan Email:kyliu@mail.sxu.edu.cn.The Research of Chinese Names Recognition Method Based on Corpus[J].Journal of Chinese Information Processing,2000,14(1):7-12.
Authors:Zheng Jiahen Li Xin Tan Hongye Deptof Computer Science  Shanxi University  Taiyuan Deptof Computer Science and Engineering Taiyuan University of Technology  Taiyuan Email:kyliu@mailsxueducn
Affiliation:1.Dept. of Computer Science , Shanxi University2.Dept. of Computer Science and Engineering , Taiyuan University of Technology
Abstract:This paper dynamically builds parameter table and threshold by extracting and analyzing usage frequency of characters of Chinese names based on large scale corpus and researches evaluation function for Chinese name recognition. And it presents the method of Chinese name recognition without text segmentation. After open test, the recall rate and precision rate are respectively 95.23% and 87.31%.
Keywords:Chinese name recognition  Usage frequency of characters of Chinese name  Chinese word segmentation
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号