共查询到20条相似文献,搜索用时 140 毫秒
1.
本文面向手写字符序列输入信号连续识别研究,分析了汉字及联机手写文本的特点,提出并构建了手写汉字部件集。基于该部件集,完成了GB2312-80的6,763个汉字的部件拆分编码和部件集的测试。统计编码数据发现,汉字依手写部件数的分布规律呈对数正态分布。本文从统计学和字符识别技术的角度对手写部件的构字能力作了分析和讨论,部件集的设计方案在部件选择和汉字拆分上均满足设计要求。实验表明,基于手写部件构造的部件识别器对手写汉字和连续汉字的部件识别率分别达到70.21%和58.49%。 相似文献
2.
3.
4.
《信息处理用GB 13000.1字符集汉字部件规范》和《现代常用字部件及部件名称规范》这两个文件对规范汉字部件具有重要意义。但在实践中,它们存在着部件过多以及没有可行的拆分规则这两个最突出的问题,其原因是规范的制定缺乏系统和深层次的思考。要从根本上解决这些问题,就必须重新审视其中的拆分规则,将拆分规则和部件制定融为一体,并立足于有利于汉字输入、汉字教学和汉字检索这三者统一的层面来完善汉字部件规范。实验证明,这样做行之有效。 相似文献
5.
6.
提出基于胶囊神经网络(CapsNet)的汉字字形表征模型,通过表征汉字字形中的部件实现汉字字形的表征.首先,对任一汉字字形生成所有部件类别的表征向量.然后,根据部件存在概率,利用基于欧氏距离的离群点检测,选取相应的部件表征向量.最后,由选出的部件表征向量组成该汉字的字形表征.实验表明,文中模型在仅经过部件字形训练的情况下,即可有效识别汉字部件,同时自动生成汉字字形的有效表征. 相似文献
7.
现有文本复制检测技术均基于相似度计算,针对其模型特征表示高维稀疏、算法设计复杂低效等问题,本文提出了一种新的基于汉字部件直方图的文本复制检测算法。其基本原理是根据汉字的数学表达式理论将文本中的所有汉字进行部件拆分,对部件频率进行统计,构造文本汉字部件直方图,以其作为文本的特征表示并将其间的相似度距离值作为复制检测评估依据。通过实验确定了巴氏距离为直方图相似度距离的计算公式。对比实验结果表明本算法查准率、召回率、F1值方面具有可取性。 相似文献
8.
9.
本文介绍用于识别手写印刷体汉字的二维扩展属性文法方法中文法归约阶段的工作。从四方位取出部件之后,按照部件组合属性和部件框位置关系对部件进行归约。由于利用了汉字部件组合关系中的信息冗余及扩展属性文法的语义处理能力,这种方法降低了对部件正确抽取的要求,但仍能识别畸变较大的汉字,并能有效地区分极相似字。 相似文献
10.
自动识别手写印刷体汉字系统中的部件分离问题 总被引:1,自引:0,他引:1
在用抽取笔划有序列法自动识别手写印刷体汉字的系统中,分离出汉字“部件”是很必要的,这里所说的“部件”是指汉字中一些能分离的笔划组合,主要是汉字的偏旁部首(或字根),由计算机自动识别汉字的需要而定。 在以笔划为基元,用句法结构法识别汉字的系统中分离部件是为了恢复部件的有序性,本文提出了一种适合于分离手写印刷体汉字部件的方法,给出这种分离部件方法的框图和在PDP-11/23计算机上进行模拟试验所得到的结果。 相似文献
11.
事件检测作为事件抽取的一个子任务,是当前信息抽取的研究热点之一。它在构建知识图谱、问答系统的意图识别和阅读理解等应用中有着重要的作用。与英文字母不同,中文中的字在很多场合作为单字词具有特定的语义信息,且中文词语内部也存在特定的结构形式。根据中文的这一特点,文中提出了一种基于字词联合表示的图卷积模型JRCW-GCN(Joint Representation of Characters and Words by Graph Convolution Neural Network),用于中文事件检测。JRCW-GCN首先通过最新的BERT预训练语言模型以及Transformer模型分别编码字和词的语义信息,然后利用词和字之间的关系构建对应的边,最后使用图卷积模型同时融合字词级别的语义信息进行事件句中触发词的检测。在ACE2005中文语料库上的实验结果表明,JRCW-GCN的性能明显优于目前性能最好的基准模型。 相似文献
12.
朝鲜语自动分写问题类似于中文分词问题,属于朝鲜语自然语言处理中的基本问题。首先,针对传统的朝鲜语自动分写方法中依赖人工特征的问题,该文提出一种朝鲜语分写增强字符向量训练模型KWSE,用于获取包含语义及分写倾向性信息的字符向量。其次,将朝鲜语分写增强字符向量与LSTM-CRF模型结合,完成朝鲜语自动分写任务。实验结果表明该方法的单词级分写F1值为92.86%,优于其他方法。 相似文献
13.
针对自然语言处理领域词义消歧这一难点,提出一种新的汉语词义消歧方法。该方法以《知网》为语义资源,充分利用词语之间的优先组合关系。根据优先组合库得到句中各个实词与歧义词之间的优先组合关系;将各实词按照优先组合关系大小进行排列;计算各实词概念与歧义词概念之间的相似度,以判断歧义词词义。实验结果表明该方法对于高频多义词消歧是有效的,可作为进一步结构消歧的基础。 相似文献
14.
一种基于词义向量模型的词语语义相似度算法 总被引:1,自引:0,他引:1
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 相似文献
15.
一种基于字词结合的汉字识别上下文处理新方法 总被引:6,自引:0,他引:6
根据字、词信息之间的互补性,提出一种字、词结合的上下文处理方法.在单字识别的基础上,首先利用前向一后向搜索算法在较大的候选集上进行基于字bigram模型的上下文处理,在提高文本识别率的同时可提高候选集的效率;然后在较小的候选集上进行基于词bigram模型的上下文处理.该方法在兼顾处理速度的同时,可有效地提高文本识别率.脱机手写体汉字文本(约6.6万字)识别中的实验表明:经字bigram模型处理,文本识别率由处理前的81.58%提高至94.50%,文本前10选累计正确率由94.33%提高到98.25%;再经词bigram模型处理,文本识别率进一步提高至95.75%。 相似文献
16.
中文分词技术是把没有分割标志的汉字串转换为符合语言应用特点的词串的过程,是构建石油领域本体的第一步。石油领域的文档有其独有的特点,分词更加困难,目前仍然没有有效的分词算法。通过引入术语集,在隐马尔可夫分词模型的基础上,提出了一种基于自适应隐马尔可夫模型的分词算法。该算法以自适应隐马尔可夫模型为基础,结合领域词典和互信息,以语义约束和词义约束校准分词,实现对石油领域专业术语和组合词的精确识别。通过与中科院的NLPIR汉语分词系统进行对比,证明了所提算法进行分词时的准确率和召回率有显著提高。 相似文献
17.
利用汉字数学表达式的思想,将汉字数学表达式库嵌入到开放式软件中,用来弥补汉字内码中包含信息量不足的缺点,使计算机能以比汉字更细粒度的汉字部件为基本单元来处理汉字,为中文信息处理提供了一种新思路。本文介绍了在开放式软件中,实现中文信息按汉字部件查找的设计方法。 相似文献
18.
19.
中文汉字在横向、纵向展开具有二维的复杂结构。现有的中文词向量研究大都止步于汉字字符,没有利用中文笔画序列生成字向量,且受限于统计模型本质,无法为低频、未登录字词生成高质量向量表示。为此,该文提出了一种依靠中文笔画序列生成字向量的模型Stroke2Vec,扩展Word2Vec模型CBOW结构,使用卷积神经网络替换上下文信息矩阵、词向量矩阵,引入注意力机制,旨在模拟笔画构造汉字的规律,通过笔画直接生成字向量。将Stroke2Vec模型与Word2Vec、GloVe模型在命名实体识别任务上进行评测对比。实验结果显示,Stroke2Vec模型F1值达到81.49%,优于Word2Vec 1.21%,略优于GloVe模型0.21%,而Stroke2Vec产生的字向量结合Word2Vec模型结果,在NER上F1值为81.55%。 相似文献
20.
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 相似文献