首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 250 毫秒
1.
在大数据和互联网的历史背景下,信息技术的发展伴随着大量文档的产生。作为数据关系直观体现的表格常见于文档中,表格的归档也是文档处理的重要任务之一。如何在海量的文档中快速地对表格进行自动化识别成为妨碍文档处理迈向智能化的关键因素。作为人工智能研究领域重要分支之一的表格识别,能实现表格对象和结构的自动化检测与识别,被广泛应用在文档智能化处理等场景。因此总结与综述表格识别领域的概念、技术、应用与挑战显得尤为重要。阐述表格识别的概念,指出表格识别任务可被分为表格检测和表格结构识别两大子任务。针对表格检测研究方向主流的anchor-based和anchor-free算法进行介绍和分析,总结不同算法的优缺点。分别阐述基于语义分割、基于双向割并、融合神经网络以及端到端等四大类别的主流的表格结构识别算法的原理和优缺点。同时分析并讨论目前常见的有机融合表格检测和表格结构识别的非端到端与端到端的表格识别算法。最后总结并指出表格识别的应用、挑战与展望。  相似文献   

2.
航天器材料及器件数据库需要海量国内外试验报告数据的支撑,其中表格作为最普遍的数据存储形式含有的数据量最为庞大,然而面对人工识别提取表格数据工作繁琐且易出错的难点,以PDF文档的表格为研究对象,提出基于OCR技术的航天器材料及器件试验数据识别系统;采用了B/S架构,基于EXT、JAVA、Python等技术语言进行开发,系统具备PDF文档转换、表格识别、数据提取、数据编辑等功能;依据系统设计采用版面分析和PDFPlumber表格检测的关键技术和方法以达导准确有效识别PDF文档表格的目的,采用EXT表格控件形式展现提取的数据经试验测试实现了对PDF文档内规整表格的批量识别和数据提取;验证了设计方案的可行性,满足了试验数据试别系统的高识别准确率、快速识别等特点;  相似文献   

3.
表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息。表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一。随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现。然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决。为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展。梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较。然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平。最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望。  相似文献   

4.
根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据.  相似文献   

5.
半结构化文档中非标记化表格的抽取   总被引:2,自引:0,他引:2  
宋强  徐鹏  李涓子 《计算机工程》2005,31(18):81-83,171
对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法.对非标记化表格进行行列划分,然后进行标题归纳和单元格合并.实验结果表明,论文提出的算法的正确性令人满意.  相似文献   

6.
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。  相似文献   

7.
为高效便捷地获取互联网上发布的真实事件信息,提出了一种无监督的互联网事件抽取框架.该框架利用DOM树模型的平行结构特性对表格页面进行事件抽取,并以表格页面抽取的事件作为种子采总结详情页面的对应模式,进一步使用总结的模式在详情页面中抽取.在大量网站页面中应用该框架,并将抽取结果与常用的包装器生成算法进行比较,结果表明了该...  相似文献   

8.
针对当前文档分析领域中表格分析的发展现状,整理了近年来领域内的相关文献,分别对表格检测和表格结构识别两个关键任务进行研究。针对表格检测任务,将其划分为基于目标检测、图神经网络、生成对抗网络、可变卷积网络的方法;针对表格结构识别任务,将其划分为基于目标检测、图神经网络、循环神经网络、可变卷积与扩张卷积网络的方法。总结了各类模型的方法路径和局限性,梳理了相关任务及其对应的数据集。更广泛地总结了表格分析领域常用的公开数据集,并对各数据集的来源、规模、适用范围及文件类型进行详细介绍。列举了表格分析领域常用的评价指标,并按照实验数据集的不同对现有模型的实验结果进行对比。总结了当前表格分析领域的发展状况,并对未来发展方向进行了展望。  相似文献   

9.
提出了一种基于树及索引结构的HTML解析与表格数据抽取的算法,并对各子算法复杂性进行了讨论,对HTML标签存贮模型及表格数据挖掘模型进行了详细的说明,对算法所涉及的二叉树、栈、容器、递归等算法及数据结构作了清晰阐述。  相似文献   

10.
提出了一种基于树及索引结构的HTML解析与表格数据抽取的算法,并对各子算法复杂性进行了讨论,对HTML标签存贮模型及表格数据挖掘模型进行了详细的说明,对算法所涉及的二叉树、栈、容器、递归等算法及数据结构作了清晰阐述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号