首页 | 官方网站   微博 | 高级检索  
     

基于条件随机域CRF模型的文本信息抽取
引用本文:周晶,吴军华,陈佳,陈沈焰.基于条件随机域CRF模型的文本信息抽取[J].计算机工程与设计,2008,29(23).
作者姓名:周晶  吴军华  陈佳  陈沈焰
作者单位:南京工业大学,信息科学与工程学院,江苏,南京,210009
摘    要:为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法.该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取.实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率.

关 键 词:条件随机域  文本信息抽取  参数估计  L-BFGS迭代法  特征集

Using conditional random fields model for text information extraction
ZHOU Jing,WU Jun-hua,CHEN Jia,CHEN Shen-yan.Using conditional random fields model for text information extraction[J].Computer Engineering and Design,2008,29(23).
Authors:ZHOU Jing  WU Jun-hua  CHEN Jia  CHEN Shen-yan
Affiliation:ZHOU Jing,WU Jun-hua,CHEN Jia,CHEN Shen-yan(College of Computer Science , Engineering,Nanjing University of Technology,Nanjing 210009,China)
Abstract:In order to extract the information from the text, a method based on conditional random fields(CRF) statistical model is presented.In this method, the text is labeled to determine the features space and one of the limited memory quasi-Newton methods called L-BFGS algorithm is used to estimate the parameter of the CRF model.According to the trained CRF model, various common fields from the research paper headers are extracted.The experimental result indicated that the precision rate of using CRF model achiev...
Keywords:conditional random fields  text information extraction  parameter estimation  L-BFGS iterative method  features space  
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号