首页 | 官方网站   微博 | 高级检索  
     

自动构建时间基元规则库的中文时间表达式识别
引用本文:邬桐,周雅倩,黄萱菁,吴立德.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010,24(4):3-11.
作者姓名:邬桐  周雅倩  黄萱菁  吴立德
作者单位:复旦大学 计算机科学技术学院, 上海 200433
基金项目:国家自然科学基金资助项目 
摘    要:该文提出一种基于正则文法的时间表达式识别算法 它基于“时间基元”进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。

关 键 词:计算机应用  中文信息处理  时间表达式识别  时间基元  Timex2  错误驱动  正则表达式  

Chinese Time Expression Recognition Based on Automatically Generated Basic-Time-Unit Rules
WU Tong,ZHOU Yaqian,HUANG Xuanjing,WU Lide.Chinese Time Expression Recognition Based on Automatically Generated Basic-Time-Unit Rules[J].Journal of Chinese Information Processing,2010,24(4):3-11.
Authors:WU Tong  ZHOU Yaqian  HUANG Xuanjing  WU Lide
Affiliation:School of Computer Science, Fudan University, Shanghai 200433, China
Abstract:This paper proposes a generic algorithm for Time Expression Recognition(TER) task based on regular expressions.The algorithm generates rules based on Basic Time Unit,which improves the recall value.And it prunes the rule collection through error driven method and reduces the noise taken from training corpus,which leads to a high precision.The two features jointlyimprove the overall efficiency of our method compared to the baseline system: with a significant better performance of up to 89.9% F-score on ACE07...
Keywords:Timex2
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号