共查询到18条相似文献,搜索用时 156 毫秒
1.
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点,为下一步的表格数据信息提取奠定了基础。 相似文献
2.
表格结构定位是文档图象版面结构分析中的重要研究内容.为了准确进行普通文档图象中表格结构的自动定位,提出了一种基于数据分隔符、线条连通区域的表格结构定位算法,并建立了系统的表格结构检查机制,该算法不仅能够有效克服表格结构多样性、不稳定性造成的定位错误,而且能保证表格结构定位的准确和完整.经包含101页实际文档图象的样本集进行测试,该方法的定位正确率达到97.72%. 相似文献
3.
一种基于直线提取和补全的通用表格分析方法 总被引:3,自引:0,他引:3
表格分析是表格自动处理过程中的第一步。本文充分利用表格的特点,给出一个基于直线提取和补全的通用表格分析方法。先使用一种矢量化的直线提取算法在游程连通图的基础上得到表格线,同时对表格进行倾斜校正。然后根据表格特性调整表格线,再从表格线得到表格特征点,最后建立规则通过对表格线的补全来求得表格结构的行单元描述。使用该方法对表格图象进行分析,能处理表格线断裂、文字表格线粘连等常见问题,正确得到表格结构。 相似文献
4.
一种新的表格框架生成算法及其实现 总被引:1,自引:0,他引:1
首先分析指出了现有两大类表格框架生成算法之缺点,提出了一种克服了其缺点,吸取其优,点的新的表格框架算法。同时,经分析归纳,提出五种表原,用此可拼接所有表格,提高表格生成效率数倍。该算法的另一特点即对栏格宽度、高度及表之大小无量的限制,仅有形的定义,动态性特强。整个过程呈动态线性过程,非静态循环过程。 相似文献
5.
6.
针对传统表格结构识别算法中,前期图像预处理工作量大、复杂表格结构识别率低、高分辨率和高复杂度表格时间开销过于大的问题,提出先对图像表格结构利用直线段检测器进行框线检测,再利用双阈值直线判断规则,对本应属于同一直线的多条线段进行合并细化,最后对横纵线交点处缺失或过长线段,采用表格结构整体框线对齐的快速识别算法.实验结果表明,该算法既可以对图像高分辨率下简单表格和复杂表格准确识别,也可以满足图像低分辨率中简单表格和复杂表格的识别需求,可以容忍一定倾斜角度,因此减少了图像预处理工作,缩短了检测时间,甚至可以对非严格定义表格结构进行精准识别,进一步推动图像表格结构通用识别算法的进程. 相似文献
7.
8.
基于字线分离的表格识别预处理算法 总被引:1,自引:1,他引:0
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构.提出了一种基于字线分离的预处理算法.该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离.实验结果表明,该算法能够滤除大部分文字像素,准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤. 相似文献
9.
非限定表格信息提取系统的研究 总被引:3,自引:0,他引:3
本文概要讨论了非限定一表格信息提取系统的结构和技术难点,提出了一种既有利于表格识别,又能进行表格定位的方法-四角定位点法,介绍了利用四角定位点法实现的非限定表格信息提取系统,实验结果表明,该系统具有通用、快速、准确的特点。 相似文献
10.
基于有向单连通链的表格框线检测算法 总被引:12,自引:0,他引:12
表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息.提出了一种基于所定义的图像结构基元"有向单连通链"的自底向上表格框线检测算法.在此算法中,有向单连通链是一种黑像素游程序列,作为非常合适的矢量基元,在引入一定表格框线约束信息的条件下合并单连通链,有效地去除伪框线,补全断裂的框线,提高了算法的鲁棒性,可以准确而快速地提取表格框线.通过滤除噪声单连通链,加快单连通链的合并速度,算法速度提高了3~10倍,满足了实用要求.实验证明,该算法具有速度 相似文献
11.
近几年来,国内外已提出了许多关于表格文件图象分析的方法,但其中关于表格逻辑结构提取物方法却很少,为此,提出了一种关于表格文件逻辑结构撮的方法,此方法主要分为整表的全局划分、局部的逻辑结构分析和整表的再次全局划分3个步骤,该方法强调对文件全局和局部布局结构的综合分析,与以往的仅仅从局部上对表格逻辑结构进行了确定的方法相比,它具有较高的识别正确率,并可以识别结构更为复杂的表格文件。 相似文献
12.
13.
G. Jäger 《Computing》2005,74(4):377-388
Smith normal form computations are important in group theory, module theory and number theory. We consider the transformation matrices for the Smith normal form over the integers and give a presentation of arbitrary transformation matrices for this normal form. Our main contribution is an algorithm that replaces already computed transformation matrices by others with small entries. We combine methods from lattice basis reduction with a procedure to reduce the sum of the squared entries of both transformation matrices. This algorithm performs well even for matrices of large dimensions. 相似文献
14.
表格型票据中框线检测与去除算法 总被引:1,自引:0,他引:1
字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去除算法,首先充分利用票据灰度图像的特点准确地检测出框线,再采用一种连通链结构描述叠加后的框线区域,然后对交叠进行判断和标记,根据标记保留字符笔划去除框线干扰.经过实际银行支票图像测试证明了算法的有效性和鲁棒性. 相似文献
15.
16.
G. Falkman 《Computer Languages, Systems and Structures》1997,23(2-4):179-206
We describe a program separation scheme based on the notions of form and content of an algorithm. The content of an algorithm consists of all local operations needed to compute the algorithm on the basis of a given definition. Separating an algorithm can thus be described as the process of finding definitions such that the algorithm is locally definable. The form of the algorithm then gives the global structure of the algorithm.
The scheme is given in a definitional context, and we show how this type of program separation can be used as a basis for definitional higher order programming. 相似文献
17.
18.
本文介绍了一个印刷表格文本分析识别系统。提出了表格特征点分析方法。在表格图象处理的基础上, 对表格线进行分析, 在考虑表格线和字符块粘连的情况下提取字符块, 判别汉字串和数英串后分别识别, 生成表格。实验表明本方法的有效性。 相似文献