首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 234 毫秒
1.
随着国内外对西夏研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献进行数字化、文本化则有着极其重要的意义。首先利用平滑和细化算法对西夏影印文献进行了预处理,然后利用Level set方法对影印文献中的西夏字进行了轮廓提取。Level Set演化函数在空间方向上采用了四阶紧致差分逼近式离散,计算过程中加入了窄带算法及全局优化方法。实验表明,算法在不增加计算时间的基础上可以得到较精确的西夏字轮廓。  相似文献   

2.
随着世界上西夏学研究的兴起,西夏文献作为西夏文物的重要组成部分越来越受到重视。本文介绍了西夏古籍文献的研究意义、图像处理、分割以及分类等问题。对比分析了西夏文字图像预处理的方法,设计实现了西夏文字图像版面的分割的算法,并分析了采用模版匹配的方式对分割后图像按一定特征分类的算法。分割后的西夏文字更易于辨认研究,且有利于计算机自动进行识别和理解图像,对西夏学的研究有着重要的意义。  相似文献   

3.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。在汉字、英文等文字的版面分析已有一些研究成果,古籍的版面分析也是一个研究热点。该文就西夏文的版面分析进行了系统的研究和实践。  相似文献   

4.
随着计算机技术的发展和在文字处理方面的应用,逐渐开展西夏文数字化的研究,西夏文的图像分割和识别对开展文物研究以及文献翻译具有非常重要的价值,但制约西夏文识别的关键技术在于西夏文数据库的建立.文章针对西夏文字的特点,设计了针对字符提取和样本数据库建立的具体流程,并讨论了数据库检索的组织和方法.依据连通域标识算法和边缘检测的原理进行字符提取,再将所提取的字符信息储存在我们指定的文本中.最终将所提取到的西夏文字与汉字进行匹配,保存后即完成一个包括西夏文字、汉字、以及它们多对应的序号等信息的样本数据库的创建,数据库的建立对西夏文字的识别提供了测试标准.  相似文献   

5.
西夏文字特征提取的研究   总被引:2,自引:0,他引:2  
字符的识别研究已取得了许多研究成果。西夏字的识别研究尚属一个待开发的新领域。西夏字识别的主要问题有:它属于表意文字,还是一个大字符集,具有极高的相似度(有许多结构相似的西夏字在西夏字符集中)。西夏文字的特征提取是整个西夏文字识别系统中最重要的一部分。该文针对西夏文字的特点,提出了能充分反映西夏文字特点的几种特征并加以提取;用这些特征可以有效地识别西夏字。  相似文献   

6.
针对目前的纵横弹性网格技术不能有效提取到汉字撇和捺笔划模糊特征的不足,结合双弹性网格技术和汉字的模糊特征提取方法,提出一种双弹性网格模糊特征提取方法.该方法首先利用双弹性网格技术对汉字图像进行网格划分,并对该图像进行横、竖、撇、捺笔划分解,得到4个方向子图像;然后采用双弹性网格技术及网格字块间的相关模糊性对子图像提取特征.通过实验证明,该方法在处理大类别手写体汉字识别时,因其稳定性高,识别效果好,从而明显优于很多其他的特征提取方法.  相似文献   

7.
为了提取影视视频图像中的字幕信息,提出一套鲁棒的方法:首先采用图像的边缘特征对字幕信息进行区域定位,并给出结合边缘信息的方法对图像文字进行二值化;其次,采用投影法和区域生成方法定位单个文字;最后,充分考虑到文字笔画的拓扑结构,进行相邻子网格笔画结构相关性的判定,并采用笔画模糊隶属度完成弹性网格特征的提取。该方法在复杂的背景图像中能够有效得到文字的二值图像,并保证了提取特征的稳定性、健壮性,对二值化后的影视字幕的识别率达到92.1%,实验结果表明了方法的有效性。  相似文献   

8.
西夏文字识别中的图像预处理   总被引:5,自引:0,他引:5  
西夏文字的预处理是其识别过程的第一步,它的好坏直接影响西夏文字识别的效果。文章用图像分析及处理技术研究西夏文字的预处理,就西夏文字识别预处理中的每个过程进行了详细的研究,提出的方法和处理技术在实验中收到了良好效果。  相似文献   

9.
基于双弹性网格的手写体汉字识别   总被引:5,自引:0,他引:5  
特征提取是手写体汉字识别的关键,目前四方向网格特征已被实验证实是一种较好的手写体汉字特征。针对通常的纵横弹性网格对汉字“撇、捺”笔画特征提取的不足,提出一种新的网格构造技术——对角弹性网格,它由45°和135°的对角直线构成,将汉字图像划分为多个菱形,能够很好地适应汉字在“撇、捺”方向的变化。将这两种网格单独,以及相互组合成双网格等情况分别进行手写体识别实验,实验结果验证了对角弹性网格的有效性和双弹性网格的高识别率性。  相似文献   

10.
手写汉字识别弹性网格Gabor特征提取方法的研究*   总被引:5,自引:0,他引:5  
结合弹性网格技术来对手写体汉字提取Gabor特征,并与基于非线性归一化的Gabor特征及传统的方向特征进行了比较研究,实验结果表明:提出的弹性网格Gabor特征优于非线性归一化Gabor特征,识别性能最稳定;弹性网格Gabor特征要明显优于传统的方向线数特征;不同的非线性归一化方法及归一化的图像尺寸对特征提取的性能有较大影响。  相似文献   

11.
一种基于数学形态学的手写汉字方向特征提取方法   总被引:6,自引:0,他引:6  
提出了一种新的基于数学形态学的手写体汉字方向特征提取的方法。该方法首先提出了一种利用数学形态学对手写汉字做笔划宽度归一化的方法,然后应用数学形态学的方向模板提取汉字在横、竖、撇、捺4个方向上的模式图像,最后,将弹性网格作用在4幅方向模式图像中,统计每个网格中的黑像素分布密度,得到汉字的方向特征。使用简单的距离分类器对120套3775个汉字手写体汉字进行识别实验,识别率达到8547%。  相似文献   

12.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。文章从西夏字的字形存储、曲线轮廓字的形成进行了系统的研究。在西夏字库和汉字库共处同一平台的问题的处理上有独到之处。  相似文献   

13.
一种基于LDA的潜在语义区划分及Web文档聚类算法   总被引:2,自引:0,他引:2  
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。  相似文献   

14.
15.
基于细化的西夏字笔划提取方法研究   总被引:1,自引:0,他引:1  
西夏文字字数多、字形复杂、形态相似的字多,受手工书写因素的影响,同一个字的模式变化很大。文章提出了一种西夏字笔划提取方法。  相似文献   

16.
Topic modeling is a powerful tool for discovering the underlying or hidden structure in text corpora. Typical algorithms for topic modeling include probabilistic latent semantic analysis (PLSA) and latent Dirichlet allocation (LDA). Despite their different inspirations, both approaches are instances of generative model, whereas the discriminative structure of the documents is ignored. In this paper, we propose locally discriminative topic model (LDTM), a novel topic modeling approach which considers both generative and discriminative structures of the data space. Different from PLSA and LDA in which the topic distribution of a document is dependent on all the other documents, LDTM takes a local perspective that the topic distribution of each document is strongly dependent on its neighbors. By modeling the local relationships of documents within each neighborhood via a local linear model, we learn topic distributions that vary smoothly along the geodesics of the data manifold, and can better capture the discriminative structure in the data. The experimental results on text clustering and web page categorization demonstrate the effectiveness of our proposed approach.  相似文献   

17.
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(down-stream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author & reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling 方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号