首页 | 官方网站   微博 | 高级检索  
     

一种基于大规模语料的新词识别方法
引用本文:贺 敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159.
作者姓名:贺 敏  龚才春  张华平  程学旗
作者单位:[1]中国科学院计算技术研究所,北京100080 [2]中国科学院研究生院,北京100080
基金项目:国家重点基础研究发展计划(973计划) , 中国科学院知识创新工程项目
摘    要:提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。

关 键 词:新词  邻接类别  单字成词概率  双字耦合度
文章编号:1002-8331(2007)21-0157-03
修稿时间:2007-02

Method of new word identification based on lager-scale corpus
HE Min,GONG Cai-chun,ZHANG Hua-ping,CHENG Xue-qi.Method of new word identification based on lager-scale corpus[J].Computer Engineering and Applications,2007,43(21):157-159.
Authors:HE Min  GONG Cai-chun  ZHANG Hua-ping  CHENG Xue-qi
Affiliation:1.Institute of Computing Technology,Chinese Academy of Sciences, Beijing 100080,China; 2.Graduate University of Chinese Academy of Sciences,Beijing 100080,China
Abstract:The paper proposes a method for new word identification based on large scale corpus,which analyzes the outer lingual environment and inner structure of a string simultaneously.At first,find all the repetitive strings in the text collection,then decide whether a string should be filtrated or not,according to the context varieties,inside word probabilities and double character couplings.At last the remnant words are considered as new words.The experiments have done on corpus with different scale,and the results show that this method is practicable
Keywords:new words  context variety  inside word probability  double character coupling
本文献已被 CNKI 维普 万方数据 等数据库收录!
点击此处可从《计算机工程与应用》浏览原始摘要信息
点击此处可从《计算机工程与应用》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号