首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
提出了一种新型的基于表格线搜索的表格结构提取算法。该算法充分分析了表格的结构特点,应用了大量的先验知识,制定了各种最佳阈值参数的选择规则,对不同的表格适应性很强。测试结果表明,该算法具有抗噪能力强,识别速度快,识别率高等特点,为下一步的表格数据信息提取奠定了基础。  相似文献   

2.
表格结构定位是文档图象版面结构分析中的重要研究内容.为了准确进行普通文档图象中表格结构的自动定位,提出了一种基于数据分隔符、线条连通区域的表格结构定位算法,并建立了系统的表格结构检查机制,该算法不仅能够有效克服表格结构多样性、不稳定性造成的定位错误,而且能保证表格结构定位的准确和完整.经包含101页实际文档图象的样本集进行测试,该方法的定位正确率达到97.72%.  相似文献   

3.
一种基于直线提取和补全的通用表格分析方法   总被引:3,自引:0,他引:3  
表格分析是表格自动处理过程中的第一步。本文充分利用表格的特点,给出一个基于直线提取和补全的通用表格分析方法。先使用一种矢量化的直线提取算法在游程连通图的基础上得到表格线,同时对表格进行倾斜校正。然后根据表格特性调整表格线,再从表格线得到表格特征点,最后建立规则通过对表格线的补全来求得表格结构的行单元描述。使用该方法对表格图象进行分析,能处理表格线断裂、文字表格线粘连等常见问题,正确得到表格结构。  相似文献   

4.
一种新的表格框架生成算法及其实现   总被引:1,自引:0,他引:1  
首先分析指出了现有两大类表格框架生成算法之缺点,提出了一种克服了其缺点,吸取其优,点的新的表格框架算法。同时,经分析归纳,提出五种表原,用此可拼接所有表格,提高表格生成效率数倍。该算法的另一特点即对栏格宽度、高度及表之大小无量的限制,仅有形的定义,动态性特强。整个过程呈动态线性过程,非静态循环过程。  相似文献   

5.
完善了工程CAD表格模板的定义,研究了表格模板的约束关系及其求解算法。提出表格模版可视化的概念和采用Agent技术生成虚拟模型数据闭包来仿真表格生成的算法。该表格模板技术能够更为灵活地制作出满足工程需求的各种工程CAD表格。  相似文献   

6.
刘云锴  彭程  边赟 《计算机应用》2021,41(z1):250-254
针对传统表格结构识别算法中,前期图像预处理工作量大、复杂表格结构识别率低、高分辨率和高复杂度表格时间开销过于大的问题,提出先对图像表格结构利用直线段检测器进行框线检测,再利用双阈值直线判断规则,对本应属于同一直线的多条线段进行合并细化,最后对横纵线交点处缺失或过长线段,采用表格结构整体框线对齐的快速识别算法.实验结果表明,该算法既可以对图像高分辨率下简单表格和复杂表格准确识别,也可以满足图像低分辨率中简单表格和复杂表格的识别需求,可以容忍一定倾斜角度,因此减少了图像预处理工作,缩短了检测时间,甚至可以对非严格定义表格结构进行精准识别,进一步推动图像表格结构通用识别算法的进程.  相似文献   

7.
《计算机工程》2017,(12):165-172
针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。  相似文献   

8.
基于字线分离的表格识别预处理算法   总被引:1,自引:1,他引:0  
表格文本图像版面中存在的大量的非表格框线对象,干扰正确提取表格框架结构.提出了一种基于字线分离的预处理算法.该算法在不提取表格框线的前提下,采用图像分块和连通域分析,实现字线分离.实验结果表明,该算法能够滤除大部分文字像素,准确有效突出表格文本图像中的框线信息,达到了预处理目的,是后续表格特征提取和识别的有效预备步骤.  相似文献   

9.
非限定表格信息提取系统的研究   总被引:3,自引:0,他引:3  
刘真  吴泉源 《计算机学报》1995,18(11):808-813
本文概要讨论了非限定一表格信息提取系统的结构和技术难点,提出了一种既有利于表格识别,又能进行表格定位的方法-四角定位点法,介绍了利用四角定位点法实现的非限定表格信息提取系统,实验结果表明,该系统具有通用、快速、准确的特点。  相似文献   

10.
基于有向单连通链的表格框线检测算法   总被引:12,自引:0,他引:12  
表格框线检测是表格识别的基础.现有的表格框线检测算法或者速度慢,或者鲁棒性差,而且没有充分利用表格框线之间的约束信息.提出了一种基于所定义的图像结构基元"有向单连通链"的自底向上表格框线检测算法.在此算法中,有向单连通链是一种黑像素游程序列,作为非常合适的矢量基元,在引入一定表格框线约束信息的条件下合并单连通链,有效地去除伪框线,补全断裂的框线,提高了算法的鲁棒性,可以准确而快速地提取表格框线.通过滤除噪声单连通链,加快单连通链的合并速度,算法速度提高了3~10倍,满足了实用要求.实验证明,该算法具有速度  相似文献   

11.
表格文件图象逻辑结构提取方法   总被引:3,自引:1,他引:2       下载免费PDF全文
近几年来,国内外已提出了许多关于表格文件图象分析的方法,但其中关于表格逻辑结构提取物方法却很少,为此,提出了一种关于表格文件逻辑结构撮的方法,此方法主要分为整表的全局划分、局部的逻辑结构分析和整表的再次全局划分3个步骤,该方法强调对文件全局和局部布局结构的综合分析,与以往的仅仅从局部上对表格逻辑结构进行了确定的方法相比,它具有较高的识别正确率,并可以识别结构更为复杂的表格文件。  相似文献   

12.
通过分析表格的框线特征与结构特征,提出一种基于投影特征与结构特征的表格文本图像识别算法。该方法通过投影计算提取表格的框线特征,通过击中或击不中变换提取表格的结构特征,根据所提特征重要性的不同,设定分类判决阈值。实验结果表明,该方法能准确高效地区分表格文本图像与非表格文本图像,具有很强的实用性。  相似文献   

13.
G. Jäger 《Computing》2005,74(4):377-388
Smith normal form computations are important in group theory, module theory and number theory. We consider the transformation matrices for the Smith normal form over the integers and give a presentation of arbitrary transformation matrices for this normal form. Our main contribution is an algorithm that replaces already computed transformation matrices by others with small entries. We combine methods from lattice basis reduction with a procedure to reduce the sum of the squared entries of both transformation matrices. This algorithm performs well even for matrices of large dimensions.  相似文献   

14.
表格型票据中框线检测与去除算法   总被引:1,自引:0,他引:1  
字符笔画与表格线的粘连或交叠是表格型票据中普遍存在的现象,严重影响了后期票据自动识别处理的性能.现有方法大多基于二值图像,未能充分利用灰度图中的框线特征.基于票据图像中的框线特征,提出一种表格型票据预处理中的框线检测与去除算法,首先充分利用票据灰度图像的特点准确地检测出框线,再采用一种连通链结构描述叠加后的框线区域,然后对交叠进行判断和标记,根据标记保留字符笔划去除框线干扰.经过实际银行支票图像测试证明了算法的有效性和鲁棒性.  相似文献   

15.
现有的表格识别算法速度较慢,且仅能容忍表格线的微小断线,文章给出了基于顶点链编码的表格单元格矩形识别算法,利用边界标定自动机,标定表格单元格内环边界并生成顶点链编码,利用顶点链编码特性,有效地去除表格框线上的锯齿,修复断裂的框线,通过搜索单元格矩形4个角的顶点链编码来获得表格单元格的矩形区域。实验证明本算法具有速度快、鲁棒性高、抗表格框线断裂等优点。  相似文献   

16.
We describe a program separation scheme based on the notions of form and content of an algorithm. The content of an algorithm consists of all local operations needed to compute the algorithm on the basis of a given definition. Separating an algorithm can thus be described as the process of finding definitions such that the algorithm is locally definable. The form of the algorithm then gives the global structure of the algorithm.

The scheme is given in a definitional context, and we show how this type of program separation can be used as a basis for definitional higher order programming.  相似文献   


17.
提出一种基于距离加权的自适应字线分离算法。应用一定的启发式规则,计算表格线上像素点的权值,将权值与阈值相比较来判断该点是否为字符上的点,其中权值和阈值根据具体表格自动确定。该算法与表格线检测方法无关,且易于实现。实验结果表明,可以很好地处理字线交叠问题,提高了表格识别的正确率。  相似文献   

18.
本文介绍了一个印刷表格文本分析识别系统。提出了表格特征点分析方法。在表格图象处理的基础上, 对表格线进行分析, 在考虑表格线和字符块粘连的情况下提取字符块, 判别汉字串和数英串后分别识别, 生成表格。实验表明本方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号