首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 46 毫秒
1.
李奋华  田学东 《微机发展》2004,14(12):13-15,88
数学公式识别是OCR技术的重要组成部分,目前相关的研究还很欠缺。文中在简要介绍数学公式识别发展状况的基础上,针对结构分析这一公式识别的关键环节,提出了一种将“自顶向下”和“自底向上”策略相结合的数学公式结构分析方法。实验表明,这种方法对公式结构具有较好的适应性。  相似文献   

2.
数学公式识别是OCR技术的重要组成部分,目前相关的研究还很欠缺.文中在简要介绍数学公式识别发展状况的基础上,针对结构分析这一公式识别的关键环节,提出了一种将"自顶向下"和"自底向上"策略相结合的数学公式结构分析方法.实验表明,这种方法对公式结构具有较好的适应性.  相似文献   

3.
田学东  李娜  徐丽娟 《计算机工程》2006,32(23):202-204
印刷体数学公式识别是OCR技术的重要组成部分,也是识别技术发展的瓶颈所在。在介绍公式识别技术发展现状的基础上,针对结构分析这一公式识别的关键环节,提出了一种基于基准线和字符间空白域特征的公式二维结构分析方法,并将语义和语境分析策略融入其中。实验表明,这种方法对公式结构分析具有较好的鲁棒性和应用前景。  相似文献   

4.
针对印刷体数学公式中的结构分析,提出将“自下而上”和“自上而下”相结合的策略。自上而下是针对特殊结构的分析,特殊结构包括根号、矩阵、上下标等。自上而下是对公式整体结构的分析,并且用递归的方式对各个子表达式采用同样的分析方法。结构分析成功后,用树形结构表示整个公式的二维空间布局。实验结果表明,此种分析策略有效地提高了印刷体数学公式的结构分析成功率。  相似文献   

5.
数学公式识别是OCR技术的重要组成部分,目前相关的研究还很欠缺。文章在简要介绍数学公式识别发展状况的基础上,针对结构分析这一公式识别的关键环节,提出了一种基于基准线、运算符作用域并结合语法分析数学公式结构的方法。实验表明,该方法对公式结构具有较好的适应性。  相似文献   

6.
印刷体文献中数学公式识别及描述系统研究   总被引:1,自引:0,他引:1  
印刷体数学公式识别系统的建立,需要对数学公式结构本身及其字符识别方法和识别后的描述方法进行研究。为此建立了数学公式识别及描述实验系统,实现了部分数学公式的结构本身及其字符的识别,能完成从图像到文本的转换,对识别的结果能用数学建模语言进行有效表示。  相似文献   

7.
基于神经网络的印刷体数学公式抽取方法*   总被引:1,自引:0,他引:1  
在分析中文印刷文档版式及字符特征的基础上,提出了一种将决策树与BP神经网络相结合的数学公式抽取方法。采用决策树方法将孤立公式从文档中抽取出来,采用BP神经网络方法定位内嵌公式。实验表明,该抽取方法对中文文档的公式抽取具有较高的正确率、容错率和速率。  相似文献   

8.
提出了一种基于基准线的多候选数学公式识别(Baseline Based Multi-candidate Mathematical Expression Recognition,BBMMER)方法。现代印刷体数学公式识别是模式识别的重要组成部分,而数学公式结构分析又是数学公式识别技术发展的瓶颈所在。提出了一种利用基准线定位公式嵌套结构,多候选分析公式符号间结构关系的方法,并使用LaTex格式表示数学公式的识别结果。在大量的公式图像组成的测试集上取得了良好的公式分析正确率。  相似文献   

9.
田学东  王文姣 《计算机工程与设计》2007,28(20):5039-5041,5044
目前印刷体数学公式识别系统的输出还存在着误识结果,进行必要的后处理是提高识别率的重要手段.介绍了一种将印刷体数学公式识别结果与公式的语义知识相结合的方法,对其误识结果进行系统的分析,给出了若干条共有的规则及基准转移等方法,进行综合纠错的后处理,从而进一步完善印刷体数学公式识别系统.实验结果表明,该方法能够有效地提高系统识别结果的正确率.  相似文献   

10.
田学东  郝楠 《计算机应用》2007,27(8):2036-2037
公式抽取是印刷体数学公式识别的基础性环节,现有的识别方法多以公式区域已知为前提,相关的研究还很欠缺。通过引入模糊分类理论,提出了一种孤立数学公式的抽取算法,通过对大量训练样张的数据统计与分析,选取了非规则度、宽高比、密度等6维特征,由此构建出对孤立公式行、文本行、标题行的模糊分类规则,实现了孤立公式行的抽取。实验结果表明,该方法有较高的准确性和鲁棒性。  相似文献   

11.
数学表达式识别方法综述   总被引:10,自引:1,他引:10  
数学表达式的识别是将科学和工程文献中的数学公式转变成电子文档的一种形式。数学表达式的识别由符号识别和结构分析组成,符号识别又分两大阶段,即符号的分割和识别。本文介绍了目前数学表达式识别的研究现状,给出了数学表达式识别的过程和已提出的符号识别方法和结构分析方法。  相似文献   

12.
数学公式中字符和符号间空间关系的识别   总被引:2,自引:0,他引:2  
文章根据笔写数学公式中字符或符号间空间关系的特点,提出了一种识别方法。首先,对数学公式中的字符和符号进行分类,对每一类提出了相应的正上和正下关系识别方法,然后应用模糊识别的方法对常见关系进行识别。因为根号的特殊性,它被作为一种特殊情况加以处理。实验表明,识别的正确率可达到93.4%。  相似文献   

13.
在印刷体数学公式识别中,不能很好地切分粘连字符是造成识别错误的主要原因。针对这种情况,提出了一种基于滑动窗口切分粘连字符的方法。通过特征值比较.提取出粘连字符,然后对粘连字符切分。实验表明,这种方法使识别率得到了提高。  相似文献   

14.
中文科技文档中的数学表达式定位   总被引:1,自引:0,他引:1  
数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS) 对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。  相似文献   

15.
In this paper, we propose an approach for understanding Mathematical Expressions (MEs) in a printed document. The system is divided into three main components: (i) detection of MEs in a document; (ii) recognition of the symbols present in each ME; and (iii) arrangement of the recognised symbols. The MEs printed in separate lines are detected without any character recognition whereas the embedded expressions (mixed with normal text) are detected by recognising the mathematical symbols in text. Some structural features of the MEs are used for both cases. The mathematical symbols are grouped into two classes for convenience. At first, the frequently occurring symbols are recognised by a stroke-feature analysis technique. Recognition of less frequent symbols involves a hybrid of feature-based and template-based technique. The bounding-box coordinates and the size information of the symbols help to determine the spatial relationships among the symbols. A set of predefined rules is used to form the meaningful symbol groups so that a logical arrangement of the mathematical expression can be obtained. Experiments conducted using this approach on a large number of documents show high accuracy.  相似文献   

16.
本文源于一个手写数学公式识别系统,该系统实现了手写数学公式到文本公式的自动转化。文中提出了一种基于分块树的数学公式结构分析方法,该方法首先根据其内部结构特征将数学表达式分解为若干子模块,并采用树型结构对每个子模块内部字符之间的结构关系进行表示,最终形成整个表达式的树型表示。该方法定义了一系列的字符结构属性,将字符及属性值作为结构分析的结果,这些属性值再现了公式的结构特征,并很容易被系统的公式文本显示部分所利用。另外,该方法对传统的字符空间关系类型进行了简化,减小了识别误差,而引入的分块处理方式更加适合具有根式和分式等多层嵌套结构公式的处理,并且具有较强的可扩展性。  相似文献   

17.
为了从中英文混排的中文文档中定位数学公式,提出了一种基于中文字符识别和公式符号识别的数学公式定位方法。该方法主要由中文字符提取、内嵌公式提取和独立公式定位三个部分组成。在中文字符提取中,首先提取字符块信息中文字符识别结果、公式符号识别结果和字符块的几何特征,然后使用决策树的方法区分中文字符和非中文字符。在内嵌公式提取中,使用公式符号的语义信息、符号间的角标关系和公式的语义信息等从非中文字符中定位内嵌公式。在独立数学公式定位中,对包含较多内嵌公式符号且不包含中文字符的文字行提取版式结构特征,并使用高斯混合模型区分独立公式和普通文字行。在148幅文档图像共包含3 690个公式组成的测试集上取得了91.19%的公式定位正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号