共查询到20条相似文献,搜索用时 156 毫秒
1.
共振峰声码器因其在理论上具有最低码率而一直是参数语音编码算法研究的重点。共振峰编码器的关键算法是基频和共振峰等语音参数的提取。在高分辨率语谱图基础上,利用语音信号的频域特性设计了一种简单有效的基频和共振峰提取算法。通过评价重建语音信号的音质,证明了参数提取算法的准确性。根据语音实验确定编码参数包含基频和前4个共振峰,并在保证语音质量的前提下制定各参数的量化指标。应用实际语音信号对算法的性能进行测试,试验结果证明算法在码率为1 400 b/s时具有良好的语音质量。 相似文献
2.
《现代电子技术》2017,(16):13-18
以语音信号的语谱图作为处理对象,提出一种基于宽窄带语谱图傅里叶变换频域图像二进宽度分带投影特征融合的二字汉语词汇语音识别算法。首先,对宽窄语谱图傅里叶变换频域图的图像意义以及相应的语音特性进行分析;然后,分别对宽窄带语谱图频域图像进行二进宽度分带列投影和行投影,将投影值作为语音识别的第一个特征参数集合和第二个特征参数集合,将以上两个特征集进行特征融合作为二字词汇语音识别的特征量,以支持向量机为分类器实现二字汉语词汇语音识别。实验结果表明,该方法对特定人二字汉语词汇语音的识别率可达96.8%,对非特定人二字汉语词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别提供了一种新的思路。 相似文献
3.
为了提高说话人识别系统的性能,提出基于改进语谱图的深度学习说话人识别算法。语谱图当中包含了语音的内容、情绪、语种以及说话人身份等多种信息,在以往的说话人识别算法中,往往没有考虑到说话人身份特性,采用直接提取语音中的语谱图作为网络输入,而说话人识别系统中需要提取语谱图中表征身份的信息,因此需要在原始语谱图的基础上进行改进。在语谱图中,基音频率以及共振峰等信息最能表现说话人的身份特征,从而提出根据语音信号中每一帧的基音频率进行自适应梳状滤波,得到改进后的语谱图,再通过卷积神经网络提取说话人特征,从而达到提升识别准确率的效果。网络模型采用MobileNetv2神经网络,该网络模型具有模型参数少、收敛速度快、识别速度快等优点,有利于实际应用。在对照实验结果中,该方法相对于原始语谱图的准确率分别提高了2.3%、5.2%、3%。 相似文献
4.
5.
语谱图主要用于研究语音信号不同频段的信号强度随时间变化的关系。分析语谱图时,需要利用Python语言和相关库进行仿真,得到语音信号的伪彩色映射并将结果直观地显示出来,便于进一步分析、研究语音信号的特征。本文讨论语音信号的声学基础和有关特征,分析语音信号处理的发展及应用,用声卡采集湖南三个地方的方言语音信号,利用Python语言对方言语音信号语谱图进行显示,分析不同汉语方言之间的差异。该方法具有编程简单、相关功能库丰富、对设备要求低、显示结果直观等特点,为分析处理不同地区的方言语音信号提供了一种简洁高效的方法。调用Python进行仿真,能清晰地分辨出宽带信号与窄带信号的不同特性,因此可通过对频谱图的分析来识别不同地方的方言。 相似文献
6.
耳语音的声学特征是研究其语音识别和说话人识别的重要组成部分.介绍了耳语音的特点并讨论了其声学特征.由于耳语音没有基频,所以共振峰与音长特性可以作为重要的声学参数用于识别.对汉语6个耳语音元音进行了分析研究,证明共振峰频率和音长可以作为耳语音识别的特征参数. 相似文献
7.
8.
为了得到汉语语音关键频率的大体分布情况,提出了应用时频分布的方法来研究。采用了两种途径来分析语音信号:Adobe Audition3.0软件和自制MATLAB软件。两种途径分别得到语音信号的语谱图,通过比较分析,得出结论:绝大部分的汉语语音频率分布范围是0~5 000 Hz。本方法有需要改进的地方,如:能否得到更加细化、更加准确的频率分布情况。 相似文献
9.
基音频率和共振峰频率的提取在语音编码、语音合成和语音识别中有着广泛的应用。通过深入分析语音信号的时域和频域性质,针对语音信号幅度谱的特征设计了一种有效的基频和共振峰提取算法。并对实际语音信号进行参数提取测试,实验结果证明了这种算法能够准确提取不同讲话者和录音条件下的语音信号的基频与共振峰频率。 相似文献
10.
汉语语音合成系统中激励源和声调模型研究 总被引:1,自引:0,他引:1
在语音合成器中激励源对合成语音的质量有极为重要的作用,本文对几种浊音激励源及其合成的结果进行了分析比较,同时对激励源细动态变化特性进行了研究。汉语的声调对合成语音质量影响很大,本文通过对语音基频、音长、音强的变化分析研究,建立了汉语的声调模型。在此基础上开发了一种并联型共振峰模型,该合成器能合成出具有较好清晰度和自然度的语音 相似文献
11.
跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合是目前的技术难点。本文利用深度学习领域的深度信念模型,提出了基于深度信念网络的特征层融合方法。将语音频谱图中隐含的情感信息作为图像特征,与传统情感特征融合。研究解决了跨数据库语音情感识别中,将不同尺度上提取的情感特征进行融合的技术难点。利用STB/Itti模型对语谱图进行分析,从颜色、亮度、方向三个角度出发,提取了新的语谱图特征;然后研究改进的DBN网络模型并对传统声学特征与新提取的语谱图特征进行了特征层融合,增强了特征子集的尺度,提升了情感表征能力。通过在ABC数据库和多个中文数据库上的实验验证,特征融合后的新特征子集相比传统的语音情感特征,其跨数据库识别结果获得了明显提升。 相似文献
12.
13.
在基于FPGA的语谱分析研究与设计中,需要将语音时域波形和语谱分析结果同时显示在VGA屏幕上,而采用一般方法只能在有限的VGA显示区域内显示局部波形,无法将完整的一段语音信号波形显示出来。针对这一问题,提出了一种适合FPGA实现的语音信号波形VGA显示方法。该方法通过分析语音信号的波形特点,以及显示中存在的波形放大、波形缩小两个问题,提出线性插值和保留极值的解决方法,并详细探讨了这两种方法的FPGA硬件实现结构。实验结果表明,该方法能够有效地对语音信号进行正确显示。 相似文献
14.
一种高精度改进型SHR基音检测算法 总被引:2,自引:0,他引:2
利用正弦语音模型中浊音存在的谐波与子谐波,在SHR(subharninctoharmonicratio)算法的基础上,提出了一种改进型高精度基音检测算法ISHR(improvingsubharninctoharmonicratio)。根据幅度调制和频率调制在语音分析中的特性、频域中幅度值和自相关频率比值,该方法采用基于正弦模型的均方误差对语音进行检测,提取出准确基音。仿真结果表明此种算法在基音提取中具有高精度及高可靠性。 相似文献
15.
16.
17.
针对基于局部二值模式的伪装语音检测方法的合成语音检测准确度较低的情况,提出了一种基于中心对称局部二值模式的伪装语音检测方法。该方法通过短时傅里叶变换得到语音信号的语谱图,再利用中心对称局部二值模式提取语谱图的纹理特征,并用该纹理特征训练随机森林分类器,从而实现真伪语音的判别。该方法综合考虑语谱图中像素点的数值大小和位置关系,包含了更加全面的纹理信息,并将特征维度降低至16维,有利于减少计算量。实验结果表明,在ASVspoof 2019数据集上,与传统的基于局部二值模式的伪装语音检测方法相比,所提方法将合成伪装语音的串联检测代价函数(t-DCF)降低了16.98%,检测速度提高了89.73%。 相似文献
18.
提出了一种谱扩展算法,先对窄带语音进行线性预测编码(LPC)分析和多带激励(MBE)分析,得到窄带语音的线性谱频率(LSF)参数和清/浊音(U/V)判决信息;利用高斯混合模型(GMM)由窄带语音的LSF参数扩展得到高带语音的包络谱信息;对于激励信号,由窄带语音的U/V判决信息通过码本匹配得到高带的U/V判决,然后根据U/V判决信患由正弦模型合成出高带激励信号,并进而由LPC方法生成高带语音。最终的宽带语音由原始窄带语音和扩展得到的高带语音经子带合成得到.实验结果表明该算法扩展得到的宽带语音能有效提高语音信号的清晰度和可懂度。 相似文献
19.
In this letter, we propose an unsupervised framework for speech noise reduction based on the recent development of low‐rank and sparse matrix decomposition. The proposed framework directly separates the speech signal from noisy speech by decomposing the noisy speech spectrogram into three submatrices: the noise structure matrix, the clean speech structure matrix, and the residual noise matrix. Evaluations on the Noisex‐92 dataset show that the proposed method achieves a signal‐to‐distortion ratio approximately 2.48 dB and 3.23 dB higher than that of the robust principal component analysis method and the non‐negative matrix factorization method, respectively, when the input SNR is ?5 dB. 相似文献
20.
People with hearing loss of cochlear origin experience difficulties perceiving speech in noise. This fact is due, in part, to reduced frequency selectivity. The authors present a sharpening processing algorithm based on a sinusoidal speech model and its implementation in real-time 相似文献