首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
蒙古语短语标注是蒙古语语料库语言学研究的进一步深化。它既要包含语言学需要深入研究的内容.又要解决形式化描述处理的一系列问题。从整体上讲,规则与统计方法相结合,是实现短语自动划分和标注的最佳途径。但是,蒙古语作为一种黏着性语言,其短语结构具有自己独特的一面。我们将立足蒙古语本身,建立适合于蒙古语短语规律的规则集,采取规则和统计相结合,循环渐进的策略。本项目的主要创新点是信息处理用蒙古语短语分类体系、形式化描述及其标记、边界划分规则和知识库。其中,知识库对解决短语歧义划分问题起到决定性的作用。  相似文献   

2.
针对蒙古语语音合成系统中合成出来的语音相对自然蒙古语音生硬、缓慢、机器味重等问题,建立了有效的整词音库和动词词缀语音库,即将动词词干词缀作为语音合成的基元.所选语音基元对合成高效的蒙古语语音合成系统起到决定性作用.应用该语音库可以合成出更自然、更流畅、发音更完整的语音,并且可以实现蒙古语中无限词全部组合发音的目标.  相似文献   

3.
通过本项研究,我们对100万词级现代蒙古语语料库做了短语标注,建立了现代蒙古语基本短语库。这一成果。对今后建立一个面向信息处理的、具有较强通用性的蒙古语语义分类和描述体系,提供了必要的前提条件。局部测试结果表明,标注软件对简单句子标注基本短语的召回率和准确率分别达到了92.93%和86.79%。今后有必要深入研究语义信息的获取、语法信息的细化以及蒙古语短语的歧义结构种类、产生歧义结构的原因等问题。  相似文献   

4.
韵律标注是藏语语音合成语料库建设的重要环节.文章参考汉语韵律标注的研究成果,结合藏语自身的语音特点以及韵律特征,进行了面向藏语语音合成语料库的韵律标注研究,并设计一套包含拉丁转写、声调类型、音节结构、重音类型以及停顿指数的标注规则,为藏语语音韵律特征的研究提供了直观的、科学的方法.  相似文献   

5.
介绍了一个基于PSOLA合成技术的蒙古语文语转换系统,系统针对蒙古语自身的特点,采用了语音合成领域比较成熟的波形编辑合成技术,也建立了实用的蒙古语语音合成音库,音库基元都进行了基音标记,在韵律修改中也做了尝试。  相似文献   

6.
规范的重音标注将对重音研究和语音合成技术产生积极影响。该文通过对大规模语料进行语流中词重音和句重音标注,总结出了重音标注的规则。重音标注包括标注训练、正式标注、语料库建立3个步骤。通过标注训练明确重音概念和标注方法,词重音采取词内对比法,所谓"重"主要指突显度和饱满度;句重音采取呼吸句群单位标注法,注重标注的层级性,不跨句群进行重音知觉对比。重音标注完成后,重音语料库也随之建立起来。这个大规模的重音语料库具备词重音和句重音信息,适用于语音合成领域,能较好地提高合成语音的自然度。  相似文献   

7.
藏语语音合成语料库的好坏对合成语音质量有很大的影响。本文介绍了藏语拉萨话语音合成语料库的设计过程,语料的设计考虑了内容上和语义上的完整性,利用Greed算法实现对语料的选取,同时严格按照标准的录音过程对语料进行录制,最后设计了一套韵律标注规则对语料库中的语音数据进行了音段特征和超音段特征的标注,基本完成了藏语拉萨话语音合成语料库的建立。  相似文献   

8.
蒙古语语料库的研究与建设   总被引:3,自引:0,他引:3  
论述了蒙古语语料库的建设所涉及的重要问题.详细讨论了语料库的结构,包括总体框架结构和实现的表结构,语料的加工及统计分析.简单介绍了蒙古语语料库在语音合成、形码到音码的转换、文字识别后处理方面的应用.  相似文献   

9.
协同发音是音素在语流中受前后音素的影响,而使2个以上音素的发音特征同时出现的现象.大语料库语音拼接算法获得的语音合成效果最好,但录制语料困难、算法复杂、耗费时间,需要占用很大的存储空间,在应用中存在困难.为此,针对小语料库语音合成,提出参数修改和波形拼接相结合的语音合成方法,通过参数修改方法合成协同发音段,再与自然语音进行波形拼接.实验表明,该算法合成的语音效果较好,而且对语料库内容要求较低.  相似文献   

10.
层次化蒙古语统计语言模型   总被引:1,自引:0,他引:1  
蒙古文具有典型的构词、构形词缀的特点,一个蒙古语单词往往可以切分成词干和词缀等若干个部分.根据蒙古语的特点,提出了一种层次化的蒙古语语言模型,将蒙古语语言模型分为词干和词干、词干和词缀、词缀和词缀三个层次.在这三个层次上分别计算出独立的语言模型.把这种层次化的蒙古语语言模型方案应用到了一个统计汉蒙机器翻译系统中,实验证明所构造的层次化的蒙古语语言模型能够有效地提高汉蒙机器翻译的效果.  相似文献   

11.
蒙古语电话语音的研究刚刚起步,建立规模较大的、通用的电话语音语料库成为了重要的基础工作.本次建立的蒙古语电话语音语料库是以自然口语的对话形式进行录制,并且体现了不同电话信道、不同方言、不同年龄段说话人的特点.本文详细讨论了语料库的录制整理、语音切分和语音标注等几个问题.本次建立的语料库为蒙古语电话语音的语音识别、语音检索、语音监控和说话人识别等技术的研究提供了真实的实验数据.  相似文献   

12.
介绍了蒙古语词性标注系统的设计思想、实现方法及标注系统的主要功能.该系统采用基于规则和统计相结合的方法对蒙古语句子进行分类,并对已分类的句子进行词性自动标注.  相似文献   

13.
针对几百小时粗标注大语料库, 提出一种新颖的语音合成系统构建方法。首先, 借助于语音识别、文本对齐和句法分析等技术实现大语料库的自动筛选与标注。 然后, 为了有效解决大语料库声学模型训练中存在的内存空间以及计算时间开销过大等问题, 优化了传统的训练流程, 在不损失声学模型准确性的前提下, 显著提高了模型的训练速度。主观实验表明, 与具有精标注的小语料库相比, 引入粗标注的大语料库可以带来0.5分左右的MOS提升。  相似文献   

14.
以《中国少数民族语言语音声学参数统一平台》的原理,用实验语音学的方法分析了保安语单音节短元音的声学特征,并将蒙古语、东乡语和保安语三种蒙古语族语进行了比较.得到以下结论:蒙古语族语言保安语单音节短元音有[а][][I][ε][o][υ]等6个短元音音位,但是不能代表该语言音位系统就只有6个元音音位.根据三个顶点元音([i]、[u]、[α])的位置和各个语言的元音的分布区域中得知蒙古语最宽,其他语言紧密相连.其中,保安语的[i]元音比蒙古语的舌位偏高且偏后;保安语[u]元音比蒙古语的舌位偏高且偏前;保安语[α]元音比蒙古语的舌位偏低且偏后.保安语的[i]元音比东乡语的舌位偏高且偏前;保安语[u]元音比蒙古语的舌位偏高;保安语[ɑ]元音与蒙古语的舌位有重叠现象.这也验证了前人对于蒙古语族语言之间的研究是有共性的,并且存在不同差别的结论 .  相似文献   

15.
英汉商务信函语料库中语块提取研究在借鉴语块理论研究的基础上,提出商务信函中英语和汉语语块的界定标准,对其进行了分类和形式化描述,提出了一种基于规则匹配的方案,通过自动在互联网上采集网页构筑动态语料库,利用英汉商务信函语块的结构、意义和功能等方面的特征制定英汉商务信函语块自动提取规则,从而实现从未经人工校对、自动分词以及词性标注的生语料中自动提取英汉商务信函语块的功能。该文依据语块理论来探讨英汉商务信函语料库中语块提取研究的研究目的,主要工作和研究成果。  相似文献   

16.
文章通过采用两种方法对藏语语音合成语料库中的语音进行音素切分:一种是基于单音素HMM模型的自动切分方法,一种是传统的人工切分方法,并通过实验分析了自动切分与人工切分方法的准确率程度.实验结果表明:在构建语料库时,前者有助于缩短建库周期,尤其对于大语料库的建立会有明显的优势.这种方法既节省了切分与标注的大量时间和人力成本,又提高了语音语料库标注信息的精确度和一致性.  相似文献   

17.
为了提高词性标注模型训练语料的质量,设计了一种利用FP-Growth算法从训练语料库中自动获取词性标注规则的方法,并将该方法与基于Apriori算法的词性标注规则获取方法进行了对比实验.实验结果显示,对于0.1万、0.2万和1万词级的小规模语料库,2种方法获取的词性标注规则条数均相同,但基于FP-Growth算法的时间耗费分别仅为基于Apriori算法的0.013 866%,0.010 399%,0.003 132%;对于10万、100万词级的训练语料库,基于Apriori算法无法获取任何规则,但基于FP-Growth算法依然可以在合理时间内获取有效的规则.这说明,基于FP-Growth算法的词性标注规则获取方法是可行且高效的,满足在优化训练语料库时能从不同规模的语料库中自动获取词性标注规则的实际需求.  相似文献   

18.
文章以中国社会科学院民族学与人类学研究所民族语言实验研究团队研制的"中国少数民族语言语音声学参数统一平台"和语音声学模型形成平台,对蒙古语族语言东乡语、保安语进行了系统的语音实验.并且结合现已发布的蒙古语、土族语、东部裕固语语音声学参数数据库进行了蒙古语族语言各亲属语言语音声学模型的验证.初步结论为:蒙古语族语言各亲属语言极有可能在元音声学模型方面存在语言发生学关系;在音段层面,蒙古语族语言各亲属语言呈现的相似性能更好地说明蒙古语族语言各亲属语言比较接近,并且具有同源关系的属性或性质.  相似文献   

19.
该文介绍了一个实用的汉语文语转换系统NLG-TTS.该系统的输入为自然汉语文本,对输入文本进行规格化处理和分词处理之后,根据汉语语言学规则对文本进行音位和韵律标注;系统选用汉语有调音节和常用词为语音合成基元,音元数据的压缩选用矢量和激励线性预测(VSELP)算法;NLG-TTS合成语音的实验试听效果良好.  相似文献   

20.
通过对三部单语词典和三部英汉词典前言与词条中语域标注的分析,就英汉词典语域标注使用的语言,标注种类、对象及如何确定标注的标准提出了一些看法,并建议使用语料库进行语域分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号