首页 | 官方网站   微博 | 高级检索  
     

基于混合策略的高精度长术语自动抽取
引用本文:梁颖红,张文静,周德富.基于混合策略的高精度长术语自动抽取[J].中文信息学报,2009,23(6):26-31.
作者姓名:梁颖红  张文静  周德富
作者单位:1. 江苏省现代企业信息化应用支撑软件工程技术研究开发中心,江苏 苏州 215104;
2. 东北林业大学 信息与计算机工程学院,黑龙江 哈尔滨 150040
基金项目:江苏省现代企业信息化应用支撑软件工程技术研究开发中心资助项目,黑龙江省博士后基金资助项目,苏州市职业大学基金资助项目,"青蓝"工程资助项目 
摘    要:在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。

关 键 词:计算机应用  中文信息处理  术语抽取  NC-value  互信息
  

A Hybrid Strategy for High Precision Long Term Extraction
LIANG Yinghong,ZHANG Wenjing,ZHOU Defu.A Hybrid Strategy for High Precision Long Term Extraction[J].Journal of Chinese Information Processing,2009,23(6):26-31.
Authors:LIANG Yinghong  ZHANG Wenjing  ZHOU Defu
Affiliation:1. The Research and Development Center Supporting Software Engineering Technology for Modern Industry
Informationization Application in Jiangsu Province, Suzhou, Jiangsu 215104,China;
2. School of Information and Computer Engineering in North East Forestry University,
Harbin, Heilongjiang 150040,China
Abstract:For term recognition, the current precision of doubleword term has achieved 90.36% while the precision of multiword term is only 66.63%. To address the issue of multiword term recognition, this paper proposes a method of higher precision, which integrates the predominance of NCvalue parameter in long term recognition with the mutual information. The experimental result shows the precision, recall and Fmeasure fo this method can reach 88.5%, 76.6% and 82.2%, respectively.
Keywords:NC-value
本文献已被 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号