首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 333 毫秒
1.
目前,面向蒙古语的语音识别语音库资源相对稀缺,但存在较多的电视剧、广播等蒙古语音频和对应的文本。该文提出基于语音识别的蒙古语长音频语音文本自动对齐方法,实现蒙古语电视剧语音的自动标注,扩充了蒙古语语音库。在前端处理阶段,使用基于高斯混合模型的语音端点检测技术筛选并删除噪音段;在语音识别阶段,构建基于前向型序列记忆网络的蒙古语声学模型;最后基于向量空间模型,将语音识别得到的假设序列和参考音素序列进行句子级别的动态时间归整算法匹配。实验结果表明,与基于Needleman-Wunsch算法的语音对齐比较,该文提出的蒙古语长音频语音文本自动对齐方法的对齐正确率提升了31.09%。  相似文献   

2.
孙梦娜  李天昊 《测控技术》2020,39(11):73-79
连续语音声韵母边界的确定是分离声母段和韵母段的直接措施,为解决手工标注边界的高耗时与主观误差引入问题,提出一种新的基于支持向量机(Support Vector Machine,SVM)的声韵母自动分界算法。该算法选取标准语音语料库,基于训练集样本特征及标签训练两级支持向量机模型,识别测试集样本,确定初始声韵母边界;基于余弦相似度和欧氏距离两种相似度判据,获取频谱突变点,并设计规则边界融合策略,实现安静环境下静音、声母及韵母边界的自动准确切分。以Matlab为仿真平台,手工标注边界为基准,本文算法在测试集上所得声韵母切分边界的F值平均值为94.01%,表明能够准确分离出连续语音中的声母段和韵母段。  相似文献   

3.
广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。  相似文献   

4.
针对有声出版物语音分割系统,提出了一种阈值自适应加相似度判决的系统分割模型,基于脚本中的先验知识提出了能量阈值自适应分割算法.对于传统的端点检测算法无法排除的干扰,为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行分析判决的新方法.测试结果表明,无干扰时,系统分割的正确率100%,每个语音文件包含两个人为干扰信号时,系统分割正确率98.8%,能够满足有声出版物语音自动分割的需要.  相似文献   

5.
语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。  相似文献   

6.
为完成有声出版物中的语音自动分割,建立了一种时间阈值自适应加相似度判决的系统分割模型。时间阈值的确定是系统设计中的一个难点,为此基于脚本中的先验知识提出了时间阈值自适应分割算法。为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行结果验证的新方法。测试表明录音过程中不同语音单元间略作停顿时,机器分割率在95%以上,分割的正确率100%。  相似文献   

7.
柏财通  崔翛龙  郑会吉  李爱 《计算机应用》2022,42(10):3217-3223
针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。  相似文献   

8.
近年来,由于动态贝叶斯网络(DBN)相对于传统的隐马尔可夫模型(HMM)更具可解释性、可分解性以及可扩展性,基于DBN的语音识别引起学者们越来越多的关注.但是,目前关于基于DBN的语音识别的研究主要集中在孤立语音识别上,连续语音识别的框架和识别算法还远没有HMM成熟和灵活.为了解决基于DBN的连续语音识别的灵活性和可扩展性,将在基于HMM的连续语音识别中很好地解决了上述问题的Token传递模型加以修改,使之适用于DBN.在该模型基础上,为基于DBN的连续语音识别提出了一个基本框架,并在此框架下提出了一个新的独立于上层语言模型的识别算法.还介绍了作者开发的一套基于该框架的可用于连续语音识别及其他时序系统的工具包DTK.  相似文献   

9.
基于对话语音的与文本无关的说话人确认系统的研究   总被引:1,自引:2,他引:1  
本文建立了一个基于对话语音的与文本无关的说话人确认系统,它和传统的与文本无关的说话人确认系统的关键不同在于,训练及测试语音不再只包含一个人而都是对话语音,因此需要分割出属于不同说话人的语音段,以建立说话人模型和实现最终判决。文中详细介绍了高斯混合模型-背景模型(GMM-UBM)这种说话人确认系统的框架,重点讨论了基于GLR(Generalized Likelihood Ratio)距离测度的无监督语音分割算法。最终阐述的输出评分的规整方法即ZNORM(Zero Normalization)和持续时间修正,可以使确认系统的性能提高近10%。  相似文献   

10.
广播语音的音频分割   总被引:1,自引:2,他引:1  
本文的广播电视新闻的分割系统分为三部分:分割、分类和聚类。分割部分是采用本文提出的基于检测熵变化趋势的分割算法来检测连续语音音频信号的声学特征跳变点,从而实现不同性质的音频信号的分割。这种检测方法不同于传统的需要门限的跳变点检测方法,它是以检测一定窗长的信号内部的每一个可能的分割点所分割的两段信号的信号熵的变化趋势来检测音频信号声学特征跳变点的,可以避免由于门限的选择不当所带来的分割错误。分类部分是采用传统的基于高斯混合模型(GMM)的高斯分类器进行分类,聚类部分采用基于矢量量化(VQ)的说话人聚类算法进行说话人聚类。应用此系统分割三段30分钟的新闻,成功的实现了连续音频信号的分割,去除掉了所有的背景音乐,以较高的精度把属于同一个人的说话语音划归为一类,为广播语音的分类识别打下了良好的基础。  相似文献   

11.
为了促进语音识别技术在实际中的应用,利用文音相似度的概念,提出了基于文音相似度的语音查号系统的设计开发方法。实验表明,这种方法可以大幅提高语音查号系统的查询成功率。  相似文献   

12.
随着语音识别研究的深入,提高通用识别引擎的精度变得越来越困难。但对具体的语音识别任务,结合相应的背景,采取相应的措施,有可能达到很理想的识别精度。在已知语音输入为某有限集元素之一的情形,利用文本在发音上的相似度可以大大提高识别的精度。本文首先介绍了文音相似度的概念,然后给出了利用文音相似度设计开发语音查询系统的过程和例子。  相似文献   

13.
对于开放型办公室语音掩蔽系统性能的评价,语言可懂度是很重要的一个方面,目前通常采取的客观评价方法是STI。将语音信号按一定时间帧长反转后得到的信号我们称为时间反转语音,时间反转语音已被作为有效掩蔽信号之一。虽然对于由平稳噪声掩蔽的语音信号,STI与主观理解的语言可懂度相关性很好。但研究发现STI不适用于估计由时间反转语音掩蔽的语音信号的语言可懂度。文章分析了STI、PESQ及mNCM客观评价方法并进行了实验,实验结果表明,PESQ及mNCM对于由反转语音掩蔽的语音信号仍能较好估计语言可懂度。文章根据客观评价结果,进一步比较了反转语音掩蔽算法的不同参数(反转帧长与信噪比)对于语言可懂度的影响。发现反转帧长的增加和信噪比的降低会导致较低的语言可懂度。  相似文献   

14.
The Diplomat rapid-deployment speech-translation systemis intended to allow naï ve users to communicate across a languagebarrier, without strong domain restrictions, despite the error-pronenature of current speech and translation technologies. In addition,it should be deployable for new languages an order of magnitude morequickly than traditional technologies. Achieving this ambitious setof goals depends in large part on allowing the users to correct recognition and translation errors interactively. We present the Multi-Engine Machine Translation (MEMT) architecture, describing how it is well suited for such an application. We then discuss ourapproaches to rapid-deployment speech recognition and synthesis.Finally we describe our incorporation of interactive error correctionthroughout the system design. We have already developed workingbidirectional Croatian English and Spanish English systems, and have Haitian Creole English and Korean English versions under development.  相似文献   

15.
在分析回顾现有话音编码方案基础上提出话音编码系统的五层结构模型以及“在收端利用边信息获取激励码”的概念。  相似文献   

16.
通过研究语音残差信号的合成方法,给出了一种改进的波形内插(Waveform Interpolation,WI)编码器语音重建方案,去除了解码器中特征波形(Characteristic waveform,CW)的对齐运算。在该方案中当帧间的基音周期连续变化时,语音残差信号由幅度谱和相位轨迹直接合成,而当基音周期发生跳变时,则利用相位过渡过程合成语音残差信号。该方法大大降低了WI解码器的复杂度,同时保证了合成语音质量没有变化。  相似文献   

17.
This article presents an overview of different approaches for providing automatic speech recognition (ASR) technology to mobile users. Three principal system architectures with respect to the employment of a wireless communication link are analyzed: Embedded Speech Recognition Systems, Network Speech Recognition (NSR) and Distributed Speech Recognition (DSR). An overview of the solutions having been standardized so far as well as a critical analysis of the latest developments in the field of speech recognition in mobile environments is given. Open issues, pros and cons of the different methodologies and techniques are highlighted. Special emphasis is placed on the constraints and limitations ASR applications are confronted with under different architectures.  相似文献   

18.
基于语音识别和语速修改的语音复读系统   总被引:1,自引:1,他引:0       下载免费PDF全文
针对英语学习中的听力练习问题,利用语速修改算法和大词表连续语音识别算法,实现一个面向英语学习的语速可变、字幕同步的数字复读系统,根据字幕选择相应的语音进行复读,并实时调整语速。MOS评测结果表明,系统调节语速后的语音平均MOS得分为4.1,接近原始语音质量。语音识别结果显示,系统对英语听力材料中纯净语音的识别率达到70.8%,能够满足英语听力学习的需要。  相似文献   

19.
在科技高速发展的今天,计算机从多方面帮助人们拓宽视野,丰富知识,增加接触新事物的途径。因此,计算机在生活和工作中占有的地位越来越重要,它已经成为工作和学习中不可或缺的一部分。如今,为了国家实力的不断增强,各个国家都在计算机技术方面进行了大量的投入。为了计算机技术能够更好地造福人类,应该大力推动计算机语言识别技术的发展,让计算机能够更好地造福人类,造福社会。  相似文献   

20.
某型进口运输机语盲信息系统采用的电机卷带播放磁带存在语音录制更改困难、信息条目有限、音质逐渐变差、磁带磁头需定期清洁更换、故障率较高等突出问题;利用单片机控制技术和半导体语音存贮技术对语言信息系统进行重新设计,阐述了系统电路设计原理和软件流程,具有操纵控制自动化程度高,成本低等优点,并且达到了无转动部件和无机械触点,满足机载设备要求,具有电好的军事和经济效益。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号