共查询到13条相似文献,搜索用时 31 毫秒
1.
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。 相似文献
2.
词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 相似文献
3.
维吾尔语作为一种典型的黏着语,通过丰富的功能词缀来表达各种语法和语气。该文探讨了“词干词性标注方法”与“词缀词性标注方法”在维吾尔语自然语言处理中的优缺点。在大规模语料库中,统计了常用词缀串的数量、频次和覆盖度,以此来判断词缀词性标注方法在自然语言处理中的可行性。以力提甫·托乎提教授的维吾尔语生成语法理论为指导,对词缀串的词性标注进行了相应的语法定义,并且在实际语料中进行了小规模词性标注实验。该文提出的基于词缀串的词性标注方法不仅适用于维吾尔语,也适用于有着大量相似词缀的突厥语族其他语言。 相似文献
4.
5.
6.
7.
8.
针对汉语统计参数语音合成中的上下文相关标注生成,设计了声韵母层、音节层、词层、韵律词层、韵律短语层和语句层6层上下文相关的标注格式。对输入的中文语句进行文本规范并利用语法分析获得语句的结构和分词信息;通过字音转换获得每个汉字的声韵母及声调;利用TBL(Transformation-Based error driven Learning)算法预测输入文本的韵律词边界和韵律短语边界。在此基础上,获得输入文本中每个汉字的声韵母信息及其上下文结构信息,从而产生统计参数语音合成所需的上下文相关标注。设计了一个以声韵母为合成基元的普通话的基于隐Markov模型(HMM)的统计参数语音合成系统,通过主、客观实验评测了不同标注信息对合成语音音质的影响,结果表明,上下文相关的标注信息越丰富,合成语音的音质越好。 相似文献
9.
维吾尔语双音节词韵律特征声学分析 总被引:3,自引:0,他引:3
该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的969个双音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语双音节词的韵律节奏模式与双音节词重音之间的关系问题,其目的是为了提高语音合成的自然度。我们相信本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。 相似文献
10.
11.
文本分析、特殊符号处理、韵律短语划分是语音合成系统前端处理模块的核心内容。根据维吾尔语的语言和语音特征,提出一套准确可行的前端文本处理策略,很好地分析与描述了维语语言层的信息,并将之映射到语音层上。研究的完成为进一步实现维吾尔语语音合成系统打下坚实的基础。 相似文献
12.
面向语音合成的维吾尔语音素自动切分算法研究 总被引:2,自引:0,他引:2
结合维吾尔语语音特征,以建立维吾尔音素语料库为目标,为了减少人工工作量,通过HTK工具实现了音素的自动切分算法:首先完成了文本设计、录音和手动标注等准备工作,设计了上下文属性集,通过训练获得了每个音素的HMM模型,随后对任意输入的语音句子进行了其音素构成部分的自动切分,最后分析了其切分准确度、存在的问题及对策等。实践表明,在语料库的建设中,该研究策略确实节省了大量的时间和人力成本,提高了语音语料库标注信息的一致性和准确性。 相似文献
13.
在深入研究英文和汉字手写识别的基础上,结合维吾尔文字母的特点,提出一种基于支持向量机机器学习算法的维吾尔文联机手写字母识别方法,系统研究了样本采集、预处理、特征提取和分类等模块。在预处理中,为了消除干扰和噪声及比较中的相似性,采用了平滑滤波和线性归一化处理;考虑到维吾尔文相似字母较多,为了有效提取特征,将结构特征和统计特征相结合,提取了字符的梯度方向特征;分类器采用支持向量机。实验表明,随着训练样本的增加,识别率可以从90.62%提高到96.09%。 相似文献