首页 | 官方网站   微博 | 高级检索  
     

表格文本图像中文字的提取算法
引用本文:王加俊,李艳玲,黄贤武,何振亚.表格文本图像中文字的提取算法[J].数据采集与处理,2004,19(4):381-385.
作者姓名:王加俊  李艳玲  黄贤武  何振亚
作者单位:1. 苏州大学电子信息学院,苏州,215021
2. 东南大学无线电系,南京,200096
基金项目:国家自然科学基金 (3 0 3 0 0 0 88)资助项目,江苏省教育厅自然科学基金 (L0 1 1 2 41 992 5 )资助项目。
摘    要:提出了一种从含有表格的文本图像的页面中提取文字的算法。该算法通过模板扫描形成包围图像前景像素的矩形框。从而提取出前景像素,进而组合矩形框形成模式链。利用模式的最大黑游程、长、宽三个统计特征实现对模式的分类。实验结果表明,该算法不仅对普通的表格有效,而且还可以从倾斜的表格及流程图中成功地提取出文字。本算法只适用于二值图像。

关 键 词:表格  文本图像  提取算法  页面  文字  二值图像  游程  矩形  中文  实验结果
文章编号:1004-9037(2004)04-0381-05
修稿时间:2003年5月12日

Text Extraction Algorithms for Document Images Including Forms
WANG Jia jun ,LI Yan ling ,HUANG Xian wu ,HE Zhen ya.Text Extraction Algorithms for Document Images Including Forms[J].Journal of Data Acquisition & Processing,2004,19(4):381-385.
Authors:WANG Jia jun  LI Yan ling  HUANG Xian wu  HE Zhen ya
Affiliation:WANG Jia jun 1,LI Yan ling 1,HUANG Xian wu 1,HE Zhen ya 2
Abstract:A text extraction algorithm is proposed for document images including forms in the page. The foreground pixels are extracted with bounding boxes by mask scanning, then, pattern lists are formed by grouping the neighbored boxes according to a certain criteria. Features such as the maximum black run length, the height, and the width of the patterns are employed for the pattern classification. Experimental results show that the proposed algorithm can successfully tackle normal forms and extract text from skewed forms and the flow chart. The algorithm is valid only for binary document images.
Keywords:document image  page segmentation  pattern  text extraction
本文献已被 CNKI 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号