首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
在正弦激励模型的线性预测(LP)残差转换的基础上,提出了一种改进语音特征转换性能的语音转换方法.基于线性预测分析和综合的构架,该方法一方面通过谱包络估计声码器提取源说话人的线性预测编码(LPC)倒谱包络,并使用双线性变换函数实现倒谱包络的转换;另一方面由谐波正弦模型对线性预测残差信号建模和分解,采用基音频率变换将源说话人的残差信号转换为近似目标说话人的残差信号.最后由修正后的残差信号激励时变滤波器得到转换语音,滤波器参数通过转换得到的LPC倒谱包络实时更新.实验结果表明,该方法在主观和客观测试中都具有良好的结果,能有效地转换说话人声音特征,获得高相似度的转换语音.  相似文献   

2.
语音驱动口型动画是人脸表情动画中非常关键的部分。在研究语音与口型动画同步问题的基础上.提出一种真实、自然的语音口型动画实现方法。该方法首先对输入语音进行大段分割;再通过SAPI识别出具体的汉语序列信息;然后将汉语序列转换为音节序列;最后通过音节序列到口型序列的转换得到舍有口型时间信息的口型序列。在动画模块中利用该口型序列驱动3D人脸模型口型动画。取得了真实、自然的语音动画同步效果。  相似文献   

3.
智能机器人作为机器人的研究热点,为机器人的交互提供一种方便有效的接口很重要。语音交互是一种最熟悉最自然的交互方式。在我们的个人计算机上具有丰富的软硬件资源易于语音识别技术的实现,但这也会限制了机器人的应用场合。而基于ARM的嵌入式语音识别系统可以嵌入到机器人对象内部,更适合机器人的应用需求。本文详细介绍了语音识别技术的原理,嵌入式语音识别技术的实现,机器人的语音控制技术,实验结果表明采用该方法实现机器人的语音控制可以达到方便,有效的控制效果。  相似文献   

4.
基于情感交互的仿人头部机器人   总被引:4,自引:0,他引:4  
本研究的目的是设计一台机器人,使它可以与人互动,并在日常生活中和常见的地方协助人类.为了 完成这些任务,机器人必须友好地显示出一些情感,表现出友好的特点和个性.依据仿生学,研制了一台仿人头部 机器人,建立了机器人的行为决策模型.该机器人具有人类的6 种基本面部表情,以及人脸检测、语音情感识别与 合成、情感行为决策等能力,能够通过机器视觉、语音交互、情感表达等方式与人进行有效的情感交互.  相似文献   

5.
本文设计并实现了一种服务机器人系统,采用嵌入式系统,传感器阵列,语音识别与语音合成技术、无线数据通信技术,能够完成人脸跟踪、语音交互、自主移动、动作响应、远程遥控.实际实验表明,该机器人能够和人进行自然的交互,可以为人类提供一定的机器人服务功能.  相似文献   

6.
卓越  周敬利 《计算机仿真》2004,21(11):110-113
G.728语音压缩标准的算法延迟只有0.625毫秒,对于绝大多数应用来说是非常令人满意的。但是,其占用的带宽似乎稍微高了一点。为了能够降低G.728算法使用的码率,人们尝试了很多的方法,比如只采用前32个波形码字,采用奇数号的码字,等等。根据前人的研究,该文提出了一种新的12.8kbit/s编码器。该编码器利用人与人之间对码字使用的统计差异,自动地为每一个人生成一个独特的码书。这种编码器的计算复杂度与其它同码率编码器相当,内存使用有少量的增加,而音质则有比较明显的提高。  相似文献   

7.
为了在语音转换过程中充分考虑语音的帧间相关性,提出了一种基于卷积非负矩阵分解的语音转换方法.卷积非负矩阵分解得到的时频基可较好地保存语音信号中的个人特征信息及帧间相关性.利用这一特性,在训练阶段,通过卷积非负矩阵分解从训练数据中提取源说话人和目标说话人相匹配的时频基.在转换阶段,通过时频基替换实现对源说话人语音的转换.相对于传统方法,本方法能够更好地保存和转换语音帧间相关性.实验仿真及主、客观评价结果表明,与基于高斯混合模型、状态空间模型的语音转换方法相比,该方法具有更好的转换语音质量和转换相似度.  相似文献   

8.
李燕萍  曹盼  左宇涛  张燕  钱博 《自动化学报》2022,48(7):1824-1833
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.  相似文献   

9.
声纹认证系统作为一种生物认证或识别机制,在人们的日常生活中得已经到了广泛应用。但目前该系统在实际应用中容易受到欺骗攻击,还存在一定的风险。语音转换通常是指将一个人的声音个性化特征参数通过“修改变换”,使之听起来像另外一个人的声音,同时保持说话内容信息不变的技术,用语音转换可生成特定目标说话人的语音,并在听觉感知上难以区分转换语音和目标语音。但是对于声纹认证系统来说,听觉上感知的相似有时还不足以欺骗认证系统。本文通过分析语音转换和声纹认证过程中所提取共同特征向量——梅尔倒谱,通过采用改进深度残差的双向长短时记忆网络对联合动态特征的梅尔倒谱实现更准确转换,同时改变损失函数优化转换网络性能并引入全局均值滤波滤除转换过程中产生的倒谱杂波,进而整体提升转换语音的质量。在提升语音转换相似度的同时保证主观感知不下降,并将转换后的语音用于欺骗两个广为采用的声纹认证系统,欺骗实验表明,该系统能够成功地欺骗这些认证系统,并且具有很高的成功率。  相似文献   

10.
文章介绍的机器人的实现了GSM短信息远程控制技术和基于GPS的自主定位技术。机器人能够模仿人类的动作行为是机器人学的一个研究重点,本文提出了一种多舵机控制方法,实现了机器人学习并模仿人类的动作。通过语音识别和语音合成技术实现机器人和人自然和谐交互。  相似文献   

11.
情感识别依靠分析生理信号、行为特征等分析情感类别,是人工智能重要研究领域之一。为提高情感识别的准确性和实时性,提出基于语音与视频图像的多模态情感识别方法。视频图像模态基于局部二值直方图法(LBPH)+稀疏自动编码器(SAE)+改进卷积神经网络(CNN)实现;语音模态基于改进深度受限波尔兹曼机(DBM)和改进长短时间记忆网络(LSTM)实现;使用SAE获得更多图像的细节特征,用DBM获得声音特征的深层表达;使用反向传播算法(BP)优化DBM和LSTM的非线性映射能力,使用全局均值池化(GAP)提升CNN和LSTM的响应速度并防止过拟合。单模态识别后,两个模态的识别结果基于权值准则在决策层融合,给出所属情感分类及概率。实验结果表明,融合识别策略提升了识别准确率,在中文自然视听情感数据库(cheavd)2.0的测试集达到74.9%的识别率,且可以对使用者的情感进行实时分析。  相似文献   

12.
对说话人语音个性特征信息的表征和提取进行了深入研究,提出了一种基于深度信念网络(Deep Belief Nets,DBN)的语音转换方法。分别用提取出的源说话人和目标说话人语音频谱参数来训练DBN,分别得到其在高阶空间的语音个性特征表征;通过人工神经网络(Artificial Neural Networks,ANN)来连接这两个高阶空间并进行特征转换;使用基于目标说话人数据训练出的DBN来对转换后的特征信息进行逆处理得到转换后语音频谱参数,合成转换语音。实验结果表明,与传统的基于GMM方法相比,该方法效果更好,转换语音音质和相似度同目标语音更接近。  相似文献   

13.
依据异类文种之间、同类文种不同语音之间存在音素数据关联的特性,提出多文种语音数据融合编码方法。将不同文种存在的相同音素数据段块按段块模板截取语音样本序列,小波变换,提取特征矢量,生成共享模板集;任意字音或语句音串均按共享模板集提供的元素进行编码与解码;以模板音素串构成的语音记录库按(音节、音素)索引。实验结果表明,单字语音数据压缩比、语音数据存储量、语音还原分段信噪比、主观评价得分等参数均明显优于已有方法,语音还原质量良好。  相似文献   

14.
通过对语音转换的研究,提出了一种把源说话人特征转换为目标说话人特征的方法。语音转换特征参数分为两类:(1)频谱特征参数;(2)基音和声调模式。分别描述信号模型和转换方法。频谱特征用基于音素的2维HMMS建模,F0轨迹用来表示基音和音调。用基音同步叠加法对基音厨期、声调和语速进行变换。  相似文献   

15.
基于SVM模型的自然环境声音的分类   总被引:1,自引:0,他引:1  
提出了一种基于支持向量机(SVM)模型对自然环境声音进行分类的方法。首先,提取Mel频率倒谱系数(MFCCs)来分析声音信号;其次,对自然环境的声音基于MFCC特征集建立SVM模型;最后,使用交叉验证的测试方法得到基于SVM算法的分类结果。使用SVM模型对50类自然环境中的声音进行分类的正确率可达99.5704%,分类效果明显优于K最近邻(KNN)和二分嵌套整合(END)这两种算法。  相似文献   

16.
To support disabled people to use remote controllers, several biological signals are used. The tooth-touch is one of desirable biological signals. This is because it is the simple and natural human behavior. However, a sophisticated signal processing to extract only the tooth-touch sound is needed since the tooth-touch sound is mixed with the voice sound. This paper proposes a lightweight sensing method extracting the tooth-touch without a sophisticated signal processing to eliminate only voice sound from the sound wave in which tooth-touch and voice are mixed. Instead of the audible sound wave, proposal uses a shock wave (i.e., ultrasonic wave) which is generated when the upper tooth and the lower tooth hit each other. Using the shock wave generated to detect the tooth-touch, a trivial high-pass filter can eliminate only voice sound in the lower frequency domain than in the ultrasonic domain including the tooth-touch. Through a preliminary experiment that uses a conventional microphone and well-known digital high-pass filter, we show that the used electret microphone can sense the tooth-touch as ultrasonic wave and the high-pass filter can extract only tooth-touch. Then, we show some robustness of our method by using the sound waves including the voice and tooth-touch. In addition, we design the filtering hardware to implement a small and cheap system-on-chip achieving a real-time operation. Through the implementation of Field Programmable Gate Array, and the simulation, we show that our hardware is small and performs well for a real-time operation.  相似文献   

17.
程靖云  王布宏  罗鹏 《计算机应用》2022,42(10):3170-3176
随着计算机软件规模和复杂度的不断增加,软件中存在的代码缺陷对公共安全形成了严重威胁。针对静态分析工具拓展性差,以及现有方法检测粒度粗、检测效果不够理想的问题,提出了一种基于程序切片和语义特征融合的代码缺陷静态检测方法。首先,对源代码中的关键点进行数据流和控制流分析,并采用基于过程间有限分布子集(IFDS)的切片方法,以获取由多行与代码缺陷相关的语句组成的代码片段;然后,通过词嵌入法获取代码片段语义相关的向量表示,从而在保证准确率的同时选择合适的代码片段长度;最后,利用文本卷积神经网络(TextCNN)和双向门控循环单元(BiGRU)分别提取代码片段中的局部关键特征和上下文序列特征,并将所提方法用于检测切片级别的代码缺陷。实验结果表明,所提方法能够有效检测不同类型的代码缺陷,并且检测效果显著优于静态分析工具Flawfinder;在细粒度的前提下,IFDS切片方法能进一步提高F1值和准确率,分别达到了89.64%和92.08%;与现有的基于程序切片的方法相比,在关键点为应用程序编程接口(API)或变量时,所提方法的F1值分别达到89.69%、89.74%,准确率分别达到92.15%、91....  相似文献   

18.
基于语音识别和语速修改的语音复读系统   总被引:1,自引:1,他引:0       下载免费PDF全文
针对英语学习中的听力练习问题,利用语速修改算法和大词表连续语音识别算法,实现一个面向英语学习的语速可变、字幕同步的数字复读系统,根据字幕选择相应的语音进行复读,并实时调整语速。MOS评测结果表明,系统调节语速后的语音平均MOS得分为4.1,接近原始语音质量。语音识别结果显示,系统对英语听力材料中纯净语音的识别率达到70.8%,能够满足英语听力学习的需要。  相似文献   

19.
现代科学技术的发展,计算机运用的普及,其各项智能技术渗透到了各个领域。计算机技术也在实践中得到了较大的提升,其中语音合成技术是现属于语音领域中相关技术人员正在研究的重要课题。人们生活质量的提升,对于计算机的功能要求也在不断提升,人机交流则是其中呼声较高的方面。语音合成的主要目标是使得计算机能够实现语言交流,语音合成系统即为文语转换系统(Text-To-Speech,简称TTS),其是将文字转变为语音的复杂系统,并要求经过合成的语音较为清晰自然,易懂,且具备一定的表现力,但是现代的技术与人们的期待还存在一定的差距,需要继续深入研究。本文简单的分析了几项计算机的语音合成技术,如参数合成法、录音编辑法、波形合成法、基音同步叠加法等,并分析了其的主要发展方向,包括各种文本的语音阅读功能、语音风格、发音形象构建及可视语音、情感语音等,为相关的技术人员提供一定的参考与借鉴。  相似文献   

20.
为改善现有船用甚高频(VHF)语音通信模拟器功能单一、数据传输效率低的缺点,设计一种跨平台船、岸两用VHF模拟器。利用计算机声卡芯片实现对语音信号的采集/播放,通过小波算法完成对语音数据的压缩处理,以计算机网络及端口代替无线电通信频道,完成数据的收发;软件基于Qt平台开发完成,实现软件在不同的操作系统平台上跨平台运行。系统在软硬件部分整体设计上,实现了船岸两用VHF的功能复用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号