期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙艳丰林仙平尹宝才贾熹滨《北京工业大学学报》2009,35(5):702-707

为了在可视语音合成中获得更具有真实感的口型动画,提出了一种基于双重学习模型的合成方法.通过隐马尔可夫模型和遗传算法相结合的方法,可以更好地学习出语音特征与可视特征间的映射关系.该模型能去除传统语音识别领域在对大样本语音空间提取语音特征时的冗余信息,达到更好的可视语音预测效果.另外,在口型特征的表示上提出了一种基于面部动画参数特征点的几何特征表示,不仅对在不一致的光照条件下获得的训练样本有较好的鲁棒性,能更好地表征口型本身变化,而且与传统的主成分分析特征相比,具有较小的向量维数,提高了训练和合成速度. 相似文献

2.

语音同步的可视语音合成技术研究 总被引：1，自引：0，他引：1

贾熹滨尹宝才李敬华《北京工业大学学报》2005,31(6):656-661

为了提出一种真实感较强的可视语音合成方案,对目前国内外主流研究方法进行了探讨．在基于对可视语音合成问题分析的基础上,提出了可视语音合成系统研究方法中首先要解决的2个问题:视觉语音特征模型的构建和声视频映射模型的构建．分析了目前国内外研究方法的主要解决方案,提出了在未来研究中本系统将采用的系统框架和重点研究内容．相似文献

3.

基于MPEG-4的融合多元素的三维人脸动画合成方法

尹宝才王恺王立春《北京工业大学学报》2011,37(2):266-271

为了实时合成真实感的可视语音,提出了一种融合口型、表情等多种运动元素的三维人脸动画合成方法.以MPEG-4人脸动画标准为基础,建立了汉语音节口型库和人脸基本表情库,通过在人脸动画参数上对共同影响面部运动的多种元素进行加权融合,合成出最终的动画序列.实验结果表明,该方法有效融合了面部运动的多种元素,同时具有真实感和实时性的优点. 相似文献

4.

浊声基频轮廓对汉语合成自然度提高的分析与综合 总被引：1，自引：0，他引：1

田岚陆小珊杨霓清《山东大学学报(工学版)》2003,33(4):413-416

连续语音浊声基频轮廓是影响合成语音自然度和表现力的一个重要因素 .本文采用序位调值分类统计法 ,对汉语连续语音音调动态特性作了系统分析 ,提出一种用于分析和分层产生汉语连续语音基频参数的数学模型 .模型充分考虑了汉语发音特点 ,归纳了语言表达中音调变化的各种可能 ,并相应设置了控制调整参量 ,相对完整而实用地表示了语言知识和基频参数之间的对应关系 .对一些典型自然语句进行了仿真实验 ,结果表明 ,该模型控制产生的合成基频轮廓和测试目标可达到满意的吻合 ,对有效改善TTS系统语音合成自然度作用明显 . 相似文献

5.

一种基于正弦模型的变码率低速率宽带语音编码算法 总被引：1，自引：1，他引：0

应娜赵晓晖《吉林大学学报(工学版)》2005,35(4):403-408

基于语音正弦模型,采用能量谱熵和子谐波谐波比率方法进行语音分析。根据最小二乘估计准则提取语音参数,引入多形态量化方法和幅度参数拟合量化模型,在对分裂矢量量化过程中采用动态时间归整的方法快速搜索码本,提出了一种变码率、低速率、宽带语音编码算法。仿真结果表明:在有效降低码率和算法复杂度的前提下,该算法具有语音参数分析精度高、实时性好和语音合成质量较高的特点,并能在汽车及音乐背景噪声下重建高质量语音。相似文献

6.

浊声基频轮廓对汉语合成自然度提高的分析与综合

田岚陆小珊杨霓清《山东工业大学学报》2003,33(4):413-416

连续语音浊声基频轮廓是影响合成语音自然度和表现力的一个重要因素，本文采用序位调值分类统计法，对汉语连续语音音调动态特性作了系统分析，提出一种用于分析和分层产生汉语连续语音基频参数的数学模型，模型充分考虑了汉语发音特点，归纳了语言表达中音调变化的各种可能，并相应设置了控制调整参量，相对完整而实用地表示了语言知识和基频参数之间的对应关系，对一些典型自然语句进行了仿真实验，结果表明，该模型控制产生的合成基频轮廓和测试目标可达到满意的吻合，对有效改善TTS系统语音合成自然度作用明显。相似文献

7.

语音合成库的建立与汉语数码语音识别途径

朴兴哲《石油化工高等学校学报》1997,10(1):45-48,52

利用语音合成芯片 TC8830 AF的 CPU控制方式下的 DMA功能 ,主控微机可共享语音数据存储器 SRAM资源 ,对语音数据直接操作 ,实现语音数据的快速处理 ,对语音合成库的建设机理进行了深入探讨 ,并提出了一种实用的汉语数码语音识别方法 .实践结果表明本系统适用于语音合成产品的开发相似文献

8.

感觉加权滤波器的设计及其在AMR-WB中的应用

李凤莲张雪英朱志明《杭州电子科技大学学报》2008,28(6):33-36

由于宽带语音编码低频到高频的谱动态范围加宽,频谱倾斜现象更加显著,为了解决宽带语音编码频谱倾斜问题,进一步提高宽带语音合成语音质量,该文提出了一种新的感觉加权滤波器,并将其应用到了自适应多速率宽带语音编码AMR-WB算法中,仿真实验结果表明,新设计的感觉加权滤波器不仅有效解决了宽带语音频谱倾斜问题,且使AMR-WB 9种语音编码模式的平均w-PESQ值得到了提高。相似文献

9.

一种SmartFusion FPGA的快速语音合成系统设计

林小平鲁青郭伟邓杰航王超《广东工学院学报》2014,(2):43-48

针对传统语音合成系统实时性差、硬件资源占用率高、大容量语音数据处理效率低等问题,采用高速并行运算能力的SmartFusion FPGA （Field Programmable Gate Array）为硬件开发平台,设计了一种FPGA的语音快速合成系统.首先通过移植FatFs文件系统到FPGA芯片集成的Cortex-M3硬核中,采用软硬件协同工作方式,利用Cortex-M3硬核与FatFs文件系统实现语音文件的查找和软件解析,应用FPGA硬件完成对文本文件内容读取及控制语音的播放,形成软硬件协同工作模式.实验结果表明,该语音合成系统具有语音文件处理效率高、文语转换时间短、语音播放清晰流畅,实现方便,稳定可靠. 相似文献

10.

基于TTS文语转换的Web语音浏览器

廖日坤纪越峰黄小迅《兰州工业高等专科学校学报》2006,13(2):10-13

提出一种基于文语转换TTS技术I、nternet应用的语音浏览器,从语音合成分析TTS系统特性,给出基于TTS的Web浏览器系统的设计与实现.它整合了Web技术、中文信息处理技术、人工智能以及关键的中文语音合成技术,让用户在阅读Web页面信息的同时能够听到同步朗读的声音.该语音浏览器能提高网络用户获得信息的准确度. 相似文献

11.

双模型语音识别中的听视觉合成和模型同步异步性实验研究 总被引：3，自引：0，他引：3

谢磊蒋冬梅 Ilse Ravyse 赵荣椿 Hichem Sahli Werner Verhelst Jan Cornelis 《西北工业大学学报》2004,22(2):171-175

研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法；同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下，后合成方法能够带来比较理想的识别效果；考虑听觉和视觉同步异步性的模型可以有效地提高识别率。相似文献

12.

Multimodal Expression—Synthesis of Facial Emotion,Mouth Movement and Voice

张晶高文陈熙霖《哈尔滨工业大学学报(英文版)》1997,(2)

ＭｕｌｔｉｍｏｄａｌＥｘｐｒｅｓｉｏｎ—ＳｙｎｔｈｅｓｉｓｏｆＦａｃｉａｌＥｍｏｔｉｏｎ，ＭｏｕｔｈＭｏｖｅｍｅｎｔａｎｄＶｏｉｃｅＺＨＡＮＧＪｉｎｇＧＡＯＷｅｎＣＨＥＮＸｉｌｉｎ（张晶）（高文）（陈熙霖）（Ｄｅｐｔ．ｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎ... 相似文献

13.

基于MATLAB GUI的语音信号特征提取系统设计 总被引：1，自引：0，他引：1

王光艳赵晓群王霞《河北工业大学学报》2010,(4)

语音信号的典型时频特性和核心处理算法是语音识别、合成和说话人识别等系统中的关键问题.结合线性预测分析技术(LPC)和美尔倒谱参数(MFCC)的算法原理,基于MATLAB GUI技术,设计完成了语音信号典型特征提取系统的界面平台,可实现语音信号的装载、播放和波形显示,LPC和MFCC的计算结果显示和数据存储等功能.界面的人机交互性好,操作简单方便,可提高对算法或数据处理效果的直观认识,对语音信号分析和处理等各个研究领域具有重要的现实意义. 相似文献

14.

Audiovisual bimodal mutual compensation of Chinese

周治杜利民徐彦居《中国科学E辑(英文版)》2001,44(1):19-26

The perception of human languages is inherently a multi-modal process, in which audio information can be compensated by visual information to improve the recognition performance. Such a phenomenon in English, German, Spanish and so on has been researched, but in Chinese it has not been reported yet. In our experiment, 14 syllables (/ba, bi, bian, biao, bin, de, di, dian, duo, dong, gai, gan, gen, gu/), extracted from Chinese audiovisual bimodal speech database CAVSR-1.0, were pronounced by 10 subjects. The audio-only stimuli, audiovisual stimuli, and visual-only stimuli were recognized by 20 observers. The audio-only stimuli and audiovisual stimuli both were presented under 5 conditions: no noise, SNR 0 dB, - 8 dB, - 12 dB, and - 16 dB. The experimental result is studied and the following conclusions for Chinese speech are reached. Human beings can recognize visual-only stimuli rather well. The place of articulation determines the visual distinction. In noisy environment, audio information can remarkably 相似文献

15.

基于基音频能值的端点检测算法

相征朗朗王静《安徽机电学院学报》2008,(3):50-53

根据语音的发声特点,基于分析语音信号中的基音频率和语音之间的关系,提出一种在强噪声环境下实现提高语音识别率的方法,并对基于基音频能值的端点检测算法和传统语音端点检测算法进行比较.实验结果表明该方法不仅能够有效提高语音段的检测率,同时还具有计算量小、实时性高、不受噪声影响即鲁棒性好等特点. 相似文献

16.

车载语音系统降噪处理算法对比研究

周杰沈勇《佳木斯工学院学报》2012,(1):19-22

由于车内噪声的干扰,车载语音系统通讯质量较低,研究车载语音系统降噪技术非常必要．语音降噪技术的方法有很多,本文选取一般谱减法、自适应降噪法和小波降噪法进行仿真对比实验,分析比较它们的优缺点,得出小波降噪在语音信号降噪方面具有优越性．相似文献

17.

多媒体声霸卡语音信号处理功能的开发利用

梁雯刘松林《安徽工学院学报》1997,16(3):56-60

介绍了声霸卡音频文件的存储格式和音频文件波形恢复方法。介绍基于多媒体声霸卡功能而建立的语音信号处理系统的开发与利用。相似文献