共查询到17条相似文献,搜索用时 234 毫秒
1.
随着国内外对西夏研究的不断深入,收藏于世界各地的大批西夏古籍文献通过影印方式陆续出版。如何将这些西夏古籍文献进行数字化、文本化则有着极其重要的意义。首先利用平滑和细化算法对西夏影印文献进行了预处理,然后利用Level set方法对影印文献中的西夏字进行了轮廓提取。Level Set演化函数在空间方向上采用了四阶紧致差分逼近式离散,计算过程中加入了窄带算法及全局优化方法。实验表明,算法在不增加计算时间的基础上可以得到较精确的西夏字轮廓。 相似文献
2.
随着世界上西夏学研究的兴起,西夏文献作为西夏文物的重要组成部分越来越受到重视。本文介绍了西夏古籍文献的研究意义、图像处理、分割以及分类等问题。对比分析了西夏文字图像预处理的方法,设计实现了西夏文字图像版面的分割的算法,并分析了采用模版匹配的方式对分割后图像按一定特征分类的算法。分割后的西夏文字更易于辨认研究,且有利于计算机自动进行识别和理解图像,对西夏学的研究有着重要的意义。 相似文献
3.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。在汉字、英文等文字的版面分析已有一些研究成果,古籍的版面分析也是一个研究热点。该文就西夏文的版面分析进行了系统的研究和实践。 相似文献
4.
随着计算机技术的发展和在文字处理方面的应用,逐渐开展西夏文数字化的研究,西夏文的图像分割和识别对开展文物研究以及文献翻译具有非常重要的价值,但制约西夏文识别的关键技术在于西夏文数据库的建立.文章针对西夏文字的特点,设计了针对字符提取和样本数据库建立的具体流程,并讨论了数据库检索的组织和方法.依据连通域标识算法和边缘检测的原理进行字符提取,再将所提取的字符信息储存在我们指定的文本中.最终将所提取到的西夏文字与汉字进行匹配,保存后即完成一个包括西夏文字、汉字、以及它们多对应的序号等信息的样本数据库的创建,数据库的建立对西夏文字的识别提供了测试标准. 相似文献
5.
西夏文字特征提取的研究 总被引:2,自引:0,他引:2
字符的识别研究已取得了许多研究成果。西夏字的识别研究尚属一个待开发的新领域。西夏字识别的主要问题有:它属于表意文字,还是一个大字符集,具有极高的相似度(有许多结构相似的西夏字在西夏字符集中)。西夏文字的特征提取是整个西夏文字识别系统中最重要的一部分。该文针对西夏文字的特点,提出了能充分反映西夏文字特点的几种特征并加以提取;用这些特征可以有效地识别西夏字。 相似文献
6.
针对目前的纵横弹性网格技术不能有效提取到汉字撇和捺笔划模糊特征的不足,结合双弹性网格技术和汉字的模糊特征提取方法,提出一种双弹性网格模糊特征提取方法.该方法首先利用双弹性网格技术对汉字图像进行网格划分,并对该图像进行横、竖、撇、捺笔划分解,得到4个方向子图像;然后采用双弹性网格技术及网格字块间的相关模糊性对子图像提取特征.通过实验证明,该方法在处理大类别手写体汉字识别时,因其稳定性高,识别效果好,从而明显优于很多其他的特征提取方法. 相似文献
7.
8.
西夏文字识别中的图像预处理 总被引:5,自引:0,他引:5
西夏文字的预处理是其识别过程的第一步,它的好坏直接影响西夏文字识别的效果。文章用图像分析及处理技术研究西夏文字的预处理,就西夏文字识别预处理中的每个过程进行了详细的研究,提出的方法和处理技术在实验中收到了良好效果。 相似文献
9.
10.
手写汉字识别弹性网格Gabor特征提取方法的研究* 总被引:5,自引:0,他引:5
结合弹性网格技术来对手写体汉字提取Gabor特征,并与基于非线性归一化的Gabor特征及传统的方向特征进行了比较研究,实验结果表明:提出的弹性网格Gabor特征优于非线性归一化Gabor特征,识别性能最稳定;弹性网格Gabor特征要明显优于传统的方向线数特征;不同的非线性归一化方法及归一化的图像尺寸对特征提取的性能有较大影响。 相似文献
11.
12.
基于汉字字形的西夏文字有6000字,西夏字的信息处理有利于西夏学的研究和西夏书籍的出版。文章从西夏字的字形存储、曲线轮廓字的形成进行了系统的研究。在西夏字库和汉字库共处同一平台的问题的处理上有独到之处。 相似文献
13.
一种基于LDA的潜在语义区划分及Web文档聚类算法 总被引:2,自引:0,他引:2
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中、高频语义区的语义作为文档特征进行文档聚类,采用文档类别与语义互作用机制对聚类结果进行修正。与相关工作比较,该文不仅应用LDA模型表示文档,而且进行了深入的语义分布区域划分,并将分析结果应用于Web文档聚类。实验表明,该文提出的基于LDA的文档类别与语义互作用聚类算法获得了更好的聚类结果。 相似文献
14.
15.
16.
Hao Wu Jiajun Bu Chun Chen Jianke Zhu Lijun Zhang Haifeng Liu Can Wang Deng Cai 《Pattern recognition》2012,45(1):617-625
Topic modeling is a powerful tool for discovering the underlying or hidden structure in text corpora. Typical algorithms for topic modeling include probabilistic latent semantic analysis (PLSA) and latent Dirichlet allocation (LDA). Despite their different inspirations, both approaches are instances of generative model, whereas the discriminative structure of the documents is ignored. In this paper, we propose locally discriminative topic model (LDTM), a novel topic modeling approach which considers both generative and discriminative structures of the data space. Different from PLSA and LDA in which the topic distribution of a document is dependent on all the other documents, LDTM takes a local perspective that the topic distribution of each document is strongly dependent on its neighbors. By modeling the local relationships of documents within each neighborhood via a local linear model, we learn topic distributions that vary smoothly along the geodesics of the data manifold, and can better capture the discriminative structure in the data. The experimental results on text clustering and web page categorization demonstrate the effectiveness of our proposed approach. 相似文献
17.
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(down-stream supervised topic model)或USTM(upstream supervised topic model)方式加入额外信息,使得模型具有较高的主题提取和数据降维能力,然而无法处理包含多种额外信息的学术文档数据。通过对LDA及其扩展模型的研究,提出了一种将DSTM和USTM结合的概率主题模型ART(author & reference topic)。ART模型分别以USTM和DSTM方式构建了文档作者和引用文献的生成过程,因此可以对既包含作者信息又包含引用文献信息的文档进行有效的分析处理。在实验过程中采用Stochastic EM Sampling 方法对模型参数进行了学习,并将实验结果与Labeled LDA和DMR模型进行了对比。实验结果表明,ART模型不仅拥有高效的文档主题提取和聚类能力,同时还拥有优良的文档作者判别和引用文献排序能力。 相似文献