首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 453 毫秒
1.
为了有效地进行手写体汉字的分割与识别,提出了一种基于假设-证实的离线手写体汉字分割与识别方法,即首先用一个假设分割边界的集合将手写汉字串图象分割成一个顺序排列的段序列;然后对顺序上连续的段被合并后,进行不相似度评价,其正确的分割由不相似度评价结果来证实.具体做法是,首先根据像素及笔划的分布特征,将汉字串分割成一个段序列,然后对分割与识别的决策由最优的相邻段合并后的不相似度评价结果得到.实验证明,该方法对于粘连、交叠、断裂和在书写方向上呈松散结构的汉字的分割与识别是非常有效的.  相似文献   

2.
一种无约束手写体数字串分割方法   总被引:11,自引:1,他引:11  
针对无约束手写体数字串中的连笔字符,本文提出以基于识别的分割方法为主,结合运用剖分方法和全局识别方法等多种分割策略的数字串分割方法。这种方法直接针对数字串分割,也可以运用到非数字字符串的分割中,其分割思想对连笔汉字的分割也具有一定指导意义。  相似文献   

3.
本文提出了基于轮廓结构特征分割粘连的手写体数字对的识别方法。选择四种类型的间断点取决于字符间断点的连接和分析后获取的字符轮廓以及六种粘连形式。最后,通过选择分割组合检验,将减少粘连手写体数字对的间断点。此方法的主要优点是,可在多种假设条件的识别中进行可靠的分割组合。通过分割组合检验,减少了基于传统分割识别方法产生的分割误差。根据本文提及的方法,我们采用NIST SDl9数据库中3500个粘连的数字对进行实验,取得了92.5%的识别率。  相似文献   

4.
利用汉字的部首层次结构有助于减小字符识别器的存储空间和提高泛化性、适应性,但部首分割一直是一个难点.提出一种新的基于部首的联机手写汉字识别方法,该方法把部首形状信息和几何信息集成到识别框架中,在组合搜索过程中利用字符-部首的层次结构字典引导部首的分割与识别,从而提高部首分割的准确率.为克服部首间的连笔,引入角点检测提取子笔划.部首识别采用统计分类器,模型参数通过自学习得到.在字符识别中,采用了2种不同的字典表示以及相应的不同搜索算法.该方法已用于左右与上下结构的字符集,实验结果表明了该方法的有效性.  相似文献   

5.
本文介绍了一种利用线段特征矩阵进行匹配的手写汉字识别方法。对输入文字图像测定其笔划宽度,抽取四个方向子图像。然后,利用文字图像重心分割图像成若干区域,按分割的区域,求各子图像区域的线段特征矩阵,与样本字库比较识别,进行手写汉字识别分类。实验表明本方法是有效的。  相似文献   

6.
针对古籍古文献中部分汉字易发生粘连现象,提出一种古籍手写汉字多步分割方法.该方法继承了以往粗分割和细分割相结合的思想,首先采用投影进行粗分割,将手写汉字分为粘连字符和非粘连字符两类;然后针对粘连字符串抛弃常用的串行模式,直接采用粗分割的统计信息,设置初始分割路径,并基于最短分割路径的思想,在初始分割路径的局部邻域内基于最小权值搜索并修改分割路径,从而获得最佳的加权分割路径.实验证明该方法解决了字符分割不足和多处粘连字符的分割问题,有效的提高了分割的准确率,且算法的时间复杂度较低,算法效率较高.  相似文献   

7.
手写票据识别是模式识别中的研究难点之一,手写体风格多样、票据背景复杂等原因导致手写票据识别的准确率不高。大写金额作为票据中最重要的部分,对其进行准确识别是手写票据自动识别的关键。对基于分割的手写体大写金额识别及处理问题进行研究,提出一种基于卷积神经网络(CNN)与有限状态自动机的手写体大写金额识别方法。在利用过分割和组合过分割项得到单字符后使用CNN对其进行识别。通过对字符进行分类、定义各类字符之间的逻辑关系构造用于语法检查的有限状态自动机,通过语法自动机在识别结果中选择符合语法规则的字符串,并在路径搜索中利用语法自动机优化搜索性能。在此基础上,运用语法自动机对模糊字符进行预测,以纠正CNN的识别错误。实验结果表明,该方法在对大写金额单字符和文本行进行识别时准确率分别高达98.2%与96.6%。  相似文献   

8.
基于组件合并的手写体汉字串分割   总被引:5,自引:0,他引:5  
吕岳  施鹏飞  张克华 《软件学报》2000,11(11):1554-1559
人们对孤立的手写体汉字字符的离线 识别做了大量的研究工作,而走向实用化的进展并不快.除了单字识别率不理想以外,从文本 中正确分割出单个汉字字符也是一个主要难题,因为字符的识别离不开正确分割.利用汉字的 基本结构特征,根据两个组件之间的上下、左右和包围关系,对组件进行合并形成完整的汉字 图像.对整个汉字字符串中组件的宽度和相邻组件的间距进行分析,有助于左右关系组件的合 并.实验结果表明,该方法对手写体汉字字符串具有理想的分割效果.  相似文献   

9.
介绍了一个实用的手写成绩单识别系统,它既可以识别手写的数字成绩单,也可以识别手写的汉字成绩单。对脱机手写汉字的识别,提出了一种基于隐马尔可夫模型的识别方法。  相似文献   

10.
本文在充分考察了手写汉字和中国大汉字集特点的基础上, 提出了一组用于手写印刷体汉字识利的分类特征, 它们是长笔划分布类型、各类笔划的数目、交叉点数目和折点数目。利用这组特征进行匹配就可直接识别出GB2312-80汉字集中的绝大部分汉字, 再通过一个基于知识的推理过程即可进一步识别出已被分成类组的少数剩余汉字, 这种将统计分类与基于知识的推理识别相结合的两级识别方法具有较高的效率。一个适应性较强的汉字笔划和特征点抽取方法也被设计, 它是SLSA方法的改进, 与机器学习功能相配合, 大大提高了特征抽取的正确率。我们根据上述思想建立了一个手写印刷体汉字识别实验系统, 并获得了较好的实验结果。  相似文献   

11.
设计了支票小写金额自动识别系统的前期处理模块,包括手写数字串的提取与分割。在数字串的提取过程中,首先采用动态阈值选取算法去除图像中的背景底纹,然后设计专门的线检测与去除过程去除定位格线;再利用检测到的框线位置将图像分块,根据目标的大小选取合适的阈值去除印章图像;最后采用连通区分析的方法提取数字串。在数字串的分剖过程中,结合了定位格的位置信息,简化了分割过程。该文提出的方法在现行支票图像上获得了较为满意的结果,基本达到了实用的水平。  相似文献   

12.
This paper describes a robust context integration model for on-line handwritten Japanese text recognition. Based on string class probability approximation, the proposed method evaluates the likelihood of candidate segmentation–recognition paths by combining the scores of character recognition, unary and binary geometric features, as well as linguistic context. The path evaluation criterion can flexibly combine the scores of various contexts and is insensitive to the variability in path length, and so, the optimal segmentation path with its string class can be effectively found by Viterbi search. Moreover, the model parameters are estimated by the genetic algorithm so as to optimize the holistic string recognition performance. In experiments on horizontal text lines extracted from the TUAT Kondate database, the proposed method achieves the segmentation rate of 0.9934 that corresponds to a f-measure and the character recognition rate of 92.80%.  相似文献   

13.
For the first time, a genetic framework using contextual knowledge is proposed for segmentation and recognition of unconstrained handwritten numeral strings. New algorithms have been developed to locate feature points on the string image, and to generate possible segmentation hypotheses. A genetic representation scheme is utilized to show the space of all segmentation hypotheses (chromosomes). For the evaluation of segmentation hypotheses, a novel evaluation scheme is introduced, in order to improve the outlier resistance of the system. Our genetic algorithm tries to search and evolve the population of segmentation hypotheses, and to find the one with the highest segmentation/recognition confidence. The NIST NSTRING SD19 and CENPARMI databases were used to evaluate the performance of our proposed method. Our experiments showed that proper use of contextual knowledge in segmentation, evaluation and search greatly improves the overall performance of the system. On average, our system was able to obtain correct recognition rates of 95.28% and 96.42% on handwritten numeral strings using neural network and support vector classifiers, respectively. These results compare favorably with the ones reported in the literature.  相似文献   

14.
Chinese words and phrases often appear in various types of form tables, and many of them have a small vocabulary. To segment and recognize Chinese words and phrases is a challenging task because they contain an uncertain number of characters and might be cursively written, and segmentation might produce crack or noise characters. In this paper, we propose to combine a holistic method and a segmentation-based method for recognizing the Chinese day and month item on Chinese checks. The holistic method takes all the characters as a single unit and recognizes the unit without segmentation. The segmentation-based method segments a word into the predicted number of characters and then recognizes them. First, it uses projection and structure analysis to find as many candidate segmentation lines as possible. Then, it exploits a predicted word length to reduce the segmentation lines. Finally, it uses recognition scores to select the optimal recognition result. The encouraging experimental results show that our method is feasible and powerful.  相似文献   

15.
一种手写体大写金额串的分割新方法   总被引:3,自引:0,他引:3  
手写体大写金额串的分割将直接影响识别的准确率。为了提高分割的准确率,同时保证较快的分割速度,本文采用了由粗分割和细分割组成的两步分割方法。重点介绍交叉字符和相连字符的分割方法。对于交叉的字符提出了加窗处理的中点连线分割方法,它较其它方法具有简单准确的优点;对于单笔相连的字符,先在细化字符图象上找到候选笔划的候选分割点,然后用本文提出的简明的评价准则来确定最优分割点,提高了粗分割的精度。上述方法应用于银行支票手写体大写金额的分割,取得了很好的分割效果。  相似文献   

16.
一种融合多种编辑距离的字符串相似度计算方法*   总被引:5,自引:0,他引:5  
针对中西文混合字符串,采用了将汉字作为西文字符的等价单位计算编辑距离的方法,并从输入法的角度提出了采用拼音编码和五笔编码计算编辑距离的方法,最后给出了融合三种编辑距离计算字符串相似度的算法。仿真结果表明,该方法在提高相似重复记录检测的查全率的同时,也能获得较高的查准率。  相似文献   

17.
The segmentation of touching characters is still a challenging task, posing a bottleneck for offline Chinese handwriting recognition. In this paper, we propose an effective over-segmentation method with learning-based filtering using geometric features for single-touching Chinese handwriting. First, we detect candidate cuts by skeleton and contour analysis to guarantee a high recall rate of character separation. A filter is designed by supervised learning and used to prune implausible cuts to improve the precision. Since the segmentation rules and features are independent of the string length, the proposed method can deal with touching strings with more than two characters. The proposed method is evaluated on both the character segmentation task and the text line recognition task. The results on two large databases demonstrate the superiority of the proposed method in dealing with single-touching Chinese handwriting.  相似文献   

18.
研究了一种有效的词典驱动的联机手写日文病名识别方法。病名词典以树结构存储,包含21 713个病名短语。在切分中,手写病名字符串通过分析相邻笔划之间的空间信息等特征被切分为原始的片段序列。连续的片段动态地合并为候选字符模式,不同的合并方式产生不同的候选字符序列,这样可构成一个切分候选网格。在识别过程中,结合病名词典匹配来限制候选字符模式的类别扩展,采用集束搜索策略来寻找到一条最优路径作为识别结果。用500个实际的手写病名样本做实验,平均每个病名的识别时间为0.87 s,识别正确率为83.16%。  相似文献   

19.
手写体数字字符串识别常用于邮件自动分拣、银行票据和财务报表的录入中,针对其分割识别算法复杂度较高、准确率较低的问题,提出一种多分类器下无分割手写数字字符串识别算法。该算法的核心是采用四个分类器实现粘连字符串的无分割识别;将残差结构应用于LeNet-5网络,以增加网络深度,提高识别准确率,加快收敛速度;使用动态选择策略,以避免长度分类器误分类对识别结果的影响。实验结果表明,在NIST SD19一位数字和Synthetic数据集训练网络下,使用NIST SD19上长度为2、3、4、5、6的字符串验证网络,其识别准确率分别为99.3%、98.5%、98.1%、96.6%和97.2%。  相似文献   

20.
Difficulties in Kanji (Chinese character) recognition stem from its large character set (about 5000 characters) and the large number of strokes (up to about sixty) in each character.

The paper describes a preliminary approach to this Kanji recognition problem. In the present method, a handprinted Kanji character is coded into a symbol string using the binary relation between stroke and reference zone. Two symbol string recognition methods are proposed and investigated; the direct matching recognition (DMR) method and the unit structure recognition (USR) method.

The DMR method worked efficiently for characters which have up to five strokes. The USR method represents Kanji characters with a structural unit combination. This method worked efficiently for multi-stroke characters and greatly reduced dictionary update labor.  相似文献   


设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号