首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 328 毫秒
1.
为了从中英文混排的中文文档中定位数学公式,提出了一种基于中文字符识别和公式符号识别的数学公式定位方法。该方法主要由中文字符提取、内嵌公式提取和独立公式定位三个部分组成。在中文字符提取中,首先提取字符块信息中文字符识别结果、公式符号识别结果和字符块的几何特征,然后使用决策树的方法区分中文字符和非中文字符。在内嵌公式提取中,使用公式符号的语义信息、符号间的角标关系和公式的语义信息等从非中文字符中定位内嵌公式。在独立数学公式定位中,对包含较多内嵌公式符号且不包含中文字符的文字行提取版式结构特征,并使用高斯混合模型区分独立公式和普通文字行。在148幅文档图像共包含3 690个公式组成的测试集上取得了91.19%的公式定位正确率。  相似文献   

2.
传统的文本检索技术主要面向一维文本,难以用于对二维结构数学表达式的检索.针对该问题,通过引入公式描述结构,实现基于运算符信息的数学表达式检索.利用公式描述结构提取算法获取LaTeX数学表达式的节点信息,从而得到公式骨架存储结构.在此基础上,选择运算符值为1的节点及其相关文档建立索引,并通过数学表达式匹配算法得到与输入相似的表达式集合.实验结果表明,该方法能够从519 588个数学表达式中快速、准确地找到相似表达式,并且不受一般运算数的影响.  相似文献   

3.
数学表达式识别方法综述   总被引:10,自引:1,他引:10  
数学表达式的识别是将科学和工程文献中的数学公式转变成电子文档的一种形式。数学表达式的识别由符号识别和结构分析组成,符号识别又分两大阶段,即符号的分割和识别。本文介绍了目前数学表达式识别的研究现状,给出了数学表达式识别的过程和已提出的符号识别方法和结构分析方法。  相似文献   

4.
《计算机工程》2017,(6):129-135
数学表达式结构复杂多样,给检索带来困难。为此,提出一种数学表达式索引与检索方法。在索引阶段,通过对LaTeX数学表达式特点的分析与归纳,定义面向表达式二维结构特性的数学表达式特征表示方式,将互关联后继树索引模型应用于数学表达式索引的构建,以解决树结构表示表达式的层次增长问题。在匹配阶段,设计包括精确匹配、相容匹配、子式匹配、模糊匹配等查询模式的匹配算法。在浏览器/服务器模式下采用51 076条数学表达式进行索引与匹配。实验结果表明,提出的方法可加快查询速度,减小索引存储空间,能够适应数学表达式的结构特点,取得较好的检索效果。  相似文献   

5.
6.
周南  田学东 《计算机应用》2016,36(3):833-836
针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。  相似文献   

7.
数学表达式是现代计算机科学中必不可少的组成部分,数学教学软件中如果缺少数学表达式有效性的判定,将会严重影响软件的运行效率和用户体验。针对此问题提出了一种采用递归方法来判别数学表达式有效性的方法。首先对表达式进行规格化处理,然后遍历数学表达式,进行括号匹配、运算符优先级处理和数学基本初等函数识别,最后进行常量的识别。对其中遇到的问题进行了讨论,并提供了解决方案。该方法已经应用于数学软件、远程教育等应用领域的函数作图中,当用户输入表达式错误时,它能够及时提醒用户输入的错误位置,达到了很好的效果。实验表明:数学表达式的有效性判别可以显著提高教学软件、函数作图的效率,改善用户体验。  相似文献   

8.
句法错误是数学文本表达式输入技术中最基本的错误形式。提出一种基于模式识别的初等数学表达式的文本句法自动检测方法,它是通过检测表达式中相邻两基元的数学排列规则来检测表达式中的文本句法错误。相邻两基元是通过对表达式的一维扫描搜索来得到,相邻两基元的检测通过模板匹配的方法来实现。数学文本表达式采用计算机键盘输入,输入格式符合人的读写习惯和计算机处理的要求。实验结果表明,该检测方法简单,算法设计容易,仅用一次扫描即可完成对表达式的句法检测,且检测速度快,正确检测率为100%。  相似文献   

9.
数学表达式识别一般分为字符识别和结构分析两部分,而且大多数现有的方法是先进行字符识别然后将字符识别的结果作为结构分析的输入再进行结构分析,在这种分步识别的过程中,字符识别的错误会被继承到结构分析阶段,最终导致识别错误。关于数学表达式结构分析的问题,现有的方法大多是在假设所有的符号已经识别的基础上进行的。为了解决上述问题,提出了一种实时识别联机手写数学表达式的方法。该方法基于字符识别和结构分析的结合,动态地构建一棵数学表达式结构树来识别该数学表达式。在构建数学表达式树的过程中,采用了影响区域定位的方法,免去了其他不受影响区域的重复识别过程,因而提高了再次识别的效率,同时还弥补了现有实时识别方法不能乱序输入的缺陷。实验结果表明提出的方法可以得到比较满意的识别结果。  相似文献   

10.
XML技术在化学深层网数据提取中的应用   总被引:1,自引:1,他引:0  
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。  相似文献   

11.
数学公式识别系统:MatheReader   总被引:9,自引:0,他引:9  
靳简明  江红英  王庆人 《计算机学报》2006,29(11):2018-2026
数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.义章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定伉方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富.  相似文献   

12.
基于Parzen窗的印刷文档数学公式抽取的研究   总被引:3,自引:0,他引:3  
数学公式抽取是公式识别的首要步骤,目前相关的研究还很欠缺。针对印刷文档中数学公式的抽取展开了研究,提出了一种Parzen窗和启发式规则相结合的公式抽取方法。对于孤立式公式采用Parzen窗方法将其从文档中抽取出来,对于嵌入式公式采用启发式规则将其从文本行中抽取出来。实验表明,这两种抽取方法的结合取得了较好的效果。  相似文献   

13.
In this paper, we propose an approach for understanding Mathematical Expressions (MEs) in a printed document. The system is divided into three main components: (i) detection of MEs in a document; (ii) recognition of the symbols present in each ME; and (iii) arrangement of the recognised symbols. The MEs printed in separate lines are detected without any character recognition whereas the embedded expressions (mixed with normal text) are detected by recognising the mathematical symbols in text. Some structural features of the MEs are used for both cases. The mathematical symbols are grouped into two classes for convenience. At first, the frequently occurring symbols are recognised by a stroke-feature analysis technique. Recognition of less frequent symbols involves a hybrid of feature-based and template-based technique. The bounding-box coordinates and the size information of the symbols help to determine the spatial relationships among the symbols. A set of predefined rules is used to form the meaningful symbol groups so that a logical arrangement of the mathematical expression can be obtained. Experiments conducted using this approach on a large number of documents show high accuracy.  相似文献   

14.
基于神经网络的印刷体数学公式抽取方法*   总被引:1,自引:0,他引:1  
在分析中文印刷文档版式及字符特征的基础上,提出了一种将决策树与BP神经网络相结合的数学公式抽取方法。采用决策树方法将孤立公式从文档中抽取出来,采用BP神经网络方法定位内嵌公式。实验表明,该抽取方法对中文文档的公式抽取具有较高的正确率、容错率和速率。  相似文献   

15.
基于统计特征的数学公式抽取方法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
田学东  张立平  杨捧 《计算机工程》2006,32(19):211-213
在分析公式特征的基础上,提出了一种将Parezen窗和Bayes分类规则相结合的公式抽取方法。对于孤立式公式采用改进后的Parzen窗方法将其从文档中抽取出来,对于内嵌公式通过Bayes分类规则将其从文本行中抽取出来。实验表明,这种抽取方法对中文文档具有较好的适应性和较高的成功率。  相似文献   

16.
针对现有的句子层自然语言信息隐藏方法存在的问题,提出一种基于句子层移位变换规则的中文自然语言信息隐藏算法.首先利用汉字数学表达式对中文文本信号数字化;然后通过句子的移位变换改变句子词序以嵌入秘密信息.实验结果和分析表明,该算法实现简单、编码容量较大,同时秘密信息隐藏在自然语言文本句子层词序变换中,不改变文本语法、语义和风格,具有较好的隐蔽性.  相似文献   

17.
18.
田学东  郝楠 《计算机应用》2007,27(8):2036-2037
公式抽取是印刷体数学公式识别的基础性环节,现有的识别方法多以公式区域已知为前提,相关的研究还很欠缺。通过引入模糊分类理论,提出了一种孤立数学公式的抽取算法,通过对大量训练样张的数据统计与分析,选取了非规则度、宽高比、密度等6维特征,由此构建出对孤立公式行、文本行、标题行的模糊分类规则,实现了孤立公式行的抽取。实验结果表明,该方法有较高的准确性和鲁棒性。  相似文献   

19.
针对自然场景中中文文本的提取效率不足的问题,提出了一种基于ISODATA聚类和支持向量机(SVM)结合的自然场景中文文本提取算法。根据文本颜色和笔画的特征通过ISODATA聚类算法和局部分割的方法,分割出类文本区域;利用有效的几何特征,通过连通域分析去除部分非文本域;利用中心聚合方法使结构分离的中文文本合并后,将文本连接成行,提出行级特征用SVM分类出正确文本行及相应文本。实验结果表明,该算法对中文文本具有很好的提取效果和综合性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号