首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 233 毫秒
1.
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。  相似文献   

2.
联机手写体汉字识别后处理技术的研究   总被引:4,自引:1,他引:3  
文中提出了一种规则和统计相结合的计算语言模型应用于联机手写体汉字识别后处理的技术,把基于统计的大词表Markov语言模型与语言规则量化模型,通过词网格技术集成在一个语言解码器,这种后处理方法由3个阶段组成,词网格生成,语言解码,基于Cache的自学习机制,语言解码器采用Viterbi搜索算法求解最优语句候选,该项技术已应用于HPC(手持机)手写电脑的联机汉字手写体识别系统中,汉字识别率为91.3%  相似文献   

3.
陈光磊  罗林开 《福建电脑》2007,(10):103-104
OCR(Optical Character Recognition)光学字符识别技术已被广泛应用于企业与个人的信息化处理,而随着嵌入式系统的发展,特别是中文手写识别技术的成熟,对系统容量与识别速度提出了新的要求.为了便于在资源有限的嵌入式硬件设备上实现OCR系统,寻求一种能保持识别率基本不变,又有较好压缩比的OCR特征库压缩方法是很有理论意义与商业应用价值的.本文通过对矢量量化算法作相应修改,用C 语言实现OCR特征库的压缩,并在实验中取得了良好的性能.  相似文献   

4.
OCR技术回顾 我国从80年代开始研制中文OCR技术,在国家科委的支持下,OCR支持取得了很快的进步,特别是经过1993年的印刷体汉字识别集成后,我国印刷体汉字识别系统开始由研究阶段正式步入产品化阶段。识别率指标基本满足用户需求。 OCR技术在近几年发展非常迅速,从最初的多字体、多字号混排,到最近的中英文混排、自动版面分析、自动角度检测及倾斜校正、表格识别、智能识别、智能后处理等。OCR的产品化方面也很活跃,不但将上述  相似文献   

5.
针对日常应用的金融票据,我们使用计算机进行自动处理。在金融票据自动处理系统的多个环节,我们应用了OCR技术。在票据类型识别这一重要环节,我们对印刷体的表头信息进行OCR识别,进一步提高了对票据类型的识别率。我们还对表格中以中文大写数字,手写阿拉伯数字,勾选填写的信息项运用OCR技术进行处理,提高了票据自动处理系统的能力。  相似文献   

6.
西文OCR后处理中的有限自动机模型   总被引:1,自引:0,他引:1  
在西文OCR中,从候选结果中挑选最佳结果的后处理操作是必不可少的,并且利用单词拼写检查进行后处理是完全可行的。但是,以往的方法分别在不同程度上具有低可靠性和局限性。为此,该文提出将有限自动机模型应用于西文OCR后处理中,该方法有效地将拼写检查和识别结果信息结合起来,克服了以往方法中存在的低可靠性和局限性,并通过实验验证了该方法的有效性。以识别后处理辅助识别,错误率从0.79%降到0.59%;以识别后处理和系统后处理结合辅助识别,错误率降低到0.55%。  相似文献   

7.
万晨 《软件导刊》2010,(4):95-96
目前国内的女书文字大多采用手写的方式保存。介绍了女书OCR技术,讨论了女书OCR的整体流程,具体包括二值化,文字分割,特征提取和文字识别等方法,最终实现了对手写女书文字的识别和存储。  相似文献   

8.
 目前,无论是在研究或者是商业领域中,中文地址解析都没有一个成熟的模型结果。要素识别是地址解析的关键技术,传统的地址要素识别是基于特征词和字典匹配的方法,难以解决地址命名的多样性问题。利用自然语言处理技术,根据Trie树模型对行政区域寻址的方法和有限状态自动机模型对非规范地址的要素提取方法,本文提出T-FA模型对地址进行分级划分。其中,采用隐马尔可夫模型的切词方法和最长公共子序列算法,可以解决地址要素识别的模糊化搜索。T-FA模型具有良好的泛化能力,在批量处理地址时具有很好的通用效果,能比较有效地解决中文地址多样化的解析难题。  相似文献   

9.
信函分拣系统是OCR技术应用的一个字例。本文详细介绍了信函分拣系统软件以及在处理过程中所采用的方法,包括图像预处理、版面分析、单字分割和识别以及后处理等。针对信函分拣这一应用,我们在现有技术的基础上,提出一些有效的算法,如基于邮码框的倾斜校正、基于识别的动态规划分割方法、邮码与地址相结合的后处理等。系统在使用过程中取得了较好的效果。  相似文献   

10.
汉字识别技术是中文信息处理计算机化的关键技术,一直被国家列为重大科技攻关项目。自中汉王科技公司在国家863计划的支持下,经过广大科技人员多年的努力,在技术上取得了重大突破,较好地解决了手写汉字计算机自动输入问题,并首次开发出汉王全智能阅读器(手写和印刷OCR系统)。汉王全智能阅读器(OCR系统)是印刷体、手写汉字的扫描识别及联机手写汉字识别—汉王笔三合一软件,它通过扫描仪把印刷、手写文稿扫描成图像、然后识别出相应的汉字代码,对  相似文献   

11.
Despite several decades of research in document analysis, recognition of unconstrained handwritten documents is still considered a challenging task. Previous research in this area has shown that word recognizers perform adequately on constrained handwritten documents which typically use a restricted vocabulary (lexicon). But in the case of unconstrained handwritten documents, state-of-the-art word recognition accuracy is still below the acceptable limits. The objective of this research is to improve word recognition accuracy on unconstrained handwritten documents by applying a post-processing or OCR correction technique to the word recognition output. In this paper, we present two different methods for this purpose. First, we describe a lexicon reduction-based method by topic categorization of handwritten documents which is used to generate smaller topic-specific lexicons for improving the recognition accuracy. Second, we describe a method which uses topic-specific language models and a maximum-entropy based topic categorization model to refine the recognition output. We present the relative merits of each of these methods and report results on the publicly available IAM database.  相似文献   

12.
集成汉英OCR系统识别中文名片   总被引:1,自引:0,他引:1  
汉英双语混排识别是构造中文自动文档图像处理系统时常会遇到的一个问题。只有采用一种有效的方法集成现有汉英识别引擎,才可能高质量地识别混排文档。该文应用适当干预和多层次语言判断的汉英OCR系统集成原则,集成OCR系统识别中文名片。实验数据表明,利用该原则构造的系统确实能有效集成汉英识别引擎,在纯中文识别率为89.86%,纯英文识别率为91.20%的情况下,使名片最终总体识别率达到了93.45%,较好地解决了汉英混排名片的识别问题。  相似文献   

13.
The use of optical character recognition (OCR) has achieved considerable success in the sorting of machine-printed mail. The automatic reading of unconstrained handwritten addresses however, is less successful. This is due to the high error rate caused by the wide variability of handwriting styles and writing implements. This paper describes a strategy for automatic handwritten address reading which integrates a postcode recognition system with a hybrid verification stage. The hybrid verification system seeks to reduce the error rate by correlating the postcode against features extracted and words recognised from the remainder of the handwritten address. Novel use of syntactic features extracted from words has resulted in a significant reduction in the error rate while keeping the recognition rate high. Experimental results on a testset of 1,071 typical Singapore addresses showed a significant improvements from 24.0% error rate, 71.2% correct recognition rate, and 4.8% rejection rate using raw OCR postcode recognition to 0.4% error rate, 65.1% correct recognition rate, and 34.5% rejection rate using the hybrid verification approach. The performance of the approach compares favourably with the currently installed commercial system at Singapore Post, which achieved 0.7% error rate, 47.8% correct recognition rate, and 51.5% rejection rate for 6-digit postcode using the same test data.  相似文献   

14.
基于遗传算法的手写体汉字识别系统优化方法的研究   总被引:8,自引:0,他引:8  
为了改善手写体汉字识别系统的性能,提出了前端单字识别器(SCR)和后端语言解码器(post-processing system)有效结合的模型,并且利用遗传算法对系统参数进行优化。以联机手写体汉字识别系统作为SCR进行测试,首选准确率为69.46%,汉字识别的准确率达到87.59%,较优化前提高6.4%。实验结果表明,遗传算法(GA)是一种有效的优化系统参数的方法。  相似文献   

15.
用于脱机手写数字识别的隐马尔可夫模型   总被引:9,自引:0,他引:9  
将隐马尔可夫模型(HMM)用于脱机手写数字识别中,系统如何建模是一个值得研究的问题.在考虑手写数字自身特点及特征抽取的基础上,对HMM模型的训练方法及模型参数的选取进行了研究,以提高系统识别率.在银行票据OCR的应用中,与基于神经网络的方法结合使用,使得整张票据的拒识率降低了3%,明显提高了银行票据OCR系统的性能.  相似文献   

16.
鲁棒的多体印刷英文识别系统的实现   总被引:6,自引:1,他引:5  
文章讨论了设计一个实用的多体英文识别系统中解决的主要问题。该系统能识别多达260种字体,包括斜体和黑体等字体,对训练集的识别率达到99%,对实际文本测试的错误率比TH-OCR2000低56%。文章详细阐述了文本行字切分,特征提取和分类器设计,以及后处理所使用的常用技术,对各种技术的特点进行了分析和比较,并提出了一些新的技术。文章对于OCR系统的设计具有一定的指导意义。  相似文献   

17.
An omnifont open-vocabulary OCR system for English and Arabic   总被引:2,自引:0,他引:2  
We present an omnifont, unlimited-vocabulary OCR system for English and Arabic. The system is based on hidden Markov models (HMM), an approach that has proven to be very successful in the area of automatic speech recognition. We focus on two aspects of the OCR system. First, we address the issue of how to perform OCR on omnifont and multi-style data, such as plain and italic, without the need to have a separate model for each style. The amount of training data from each style, which is used to train a single model, becomes an important issue in the face of the conditional independence assumption inherent in the use of HMMs. We demonstrate mathematically and empirically how to allocate training data among the different styles to alleviate this problem. Second, we show how to use a word-based HMM system to perform character recognition with unlimited vocabulary. The method includes the use of a trigram language model on character sequences. Using all these techniques, we have achieved character error rates of 1.1 percent on data from the University of Washington English Document Image Database and 3.3 percent on data from the DARPA Arabic OCR Corpus  相似文献   

18.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号