首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 421 毫秒
1.
由于传统特征波形内插语音编码算法对特征波形相位信息的忽略,以及对特征波形的整体对齐,往往造成语音高频谐波分量丢失,从而导致语音的噪声感。为了提高合成语音的质量,该文引入语音多带清浊音标志,并以此为依据对波形内插编码模型中的慢渐变波形和快渐变波形的相位谱进行估计,在语音合成时则对特征波形采取部分对齐的方法,最后提出了一种基于多带的2.4 kbit/s特征波形内插算法。与传统算法相比,新算法明显提高了语音的清晰度。与标准2.4 kbit/sMELP算法相比,该算法合成语音质量亦略显优势。  相似文献   

2.
基于离散余弦变换的波形内插语音编码算法   总被引:2,自引:0,他引:2       下载免费PDF全文
刘靖宇  鲍长春  李如玮 《电子学报》2009,37(7):1599-1605
 针对波形内插(Waveform Interpolation,WI)语音编码的特征波形分解问题,本文首先提出了基于离散余弦变换(Discrete Cosine Transform,DCT)的特征波形分解方法,避免了复杂的特征波形对齐运算;其次,针对WI的相位重建问题,提出了清/浊音相位判决和浊音相位分类的方法,提高了重建语音质量;最后,分别构建了速率为2.0kbps和1.6kbps的DCT-WI声码器.主观MOS分表明,2.0kbps的DCT-WI声码器质量优于2.4kbps MELP声码器,1.6kbps的DCT-WI声码器亦取得了良好的听觉效果.  相似文献   

3.
薛二娟  鲍长春  李如玮 《电子学报》2010,38(7):1574-1579
 本文针对波形内插(WI)语音编码模型和参数量化等技术进行了研究,并最终提出了一种基于二维非负矩阵分解的1kb/s波形内插(2DNMF-WI)语音编码算法. 文中采用二维非负矩阵分解(2D-NMF)方法来分解语音特征波形(CW),该分解方法在行和列两个方向上同时压缩CW幅度谱矩阵的维数,使得CW幅度谱矩阵降维后得到的编码矩阵维数较小,易于量化. 此外,在甚低速率语音编码中,由于没有足够的比特数来描述编码参数,往往很难得到高质量的合成语音. 本算法采用两帧联合编码、帧间后向预测三级矢量量化、离散余弦变换(DCT)和分裂式矩阵量化等技术来降低编码速率和改善音质. 非正式主观听觉测试显示,1kb/s 2DNMF-WI编码器合成语音的质量稍差于2kb/s的NMF-WI语音编码算法.  相似文献   

4.
朱娜娜  鲍长春  李靓 《通信学报》2004,25(11):70-76
基于传统的波形内插语音编码模型,提出了一种新的2kbit/s语音编码方案。该方案在编码端去除了传统方法中复杂的对齐运算,在译码端用三次B样条插值取代传统的线性插值。慢渐变波形只量化低频分量,而快渐变波形用正交多项式拟合,并采用合成-分析技术对其进行矢量量化。DRT测试结果表明,该2kbit/s语音编码方法能获得高可懂度的重建语音。  相似文献   

5.
基于贝叶斯阴阳机的2kb/s NMF-WI语音编码算法   总被引:3,自引:1,他引:2       下载免费PDF全文
郭莉莉  鲍长春 《电子学报》2009,37(5):1146-1153
 本文提出了一种改进型的基于非负矩阵分解(Nonnegative Matrix Factorization,NMF)的特征波形(Characteristic Waveform,CW)分解算法,一方面应用惩罚次胜者竞争学习算法(Rival Penalized Competitive Learning,RPCL)和贝叶斯阴阳机(Bayesian Ying-Yang,BYY)和谐学习算法,来计算NMF分解阶数,在没有明显降低语音质量的前提下,降低了编码器的复杂度;另一方面根据CW 的能量与编码矩阵的能量间的变化关系,提出了相位谱的混合自回归合成方法,提高了语音的自然度.最后,开发出一套改进型2kb/s NMF-WI低复杂度语音编码方法,采用基于K-L散度的NMF迭代算法和收敛速度更快的基矢量Mel刻度分带初始化方法,按照基音周期的统计分布将特征波形分为6类,在CW分解模块,复杂度下降了10MOPS,语音质量提高,与采用4bit散布矢量量化相位谱的2.16kb/s NMF-WI语音编码器的语音质量相当.  相似文献   

6.
基于奇异值分解的低速率波形内插语音编码算法   总被引:8,自引:7,他引:1       下载免费PDF全文
王贵平  鲍长春  张鹏 《电子学报》2006,34(1):135-140
波形内插(WI)语音编码模型作为当今最具潜力的低速率语音编码方案之一,因其良好的性能,越来越受到人们的重视.本文基于一种奇异值分解(SVD)的特征波形分解方法,利用语音信号的感知特性,将二维特征波形的幅度谱分成基本矩阵、过渡矩阵和补充矩阵,并采用了不同的量化方法,有效地降低了运算复杂度;另外,本文根据语音信号时变特性,将三个矩阵分为三种组合模式表示特征波形幅度谱,并引入周期因子和能量熵来衡量矩阵周期程度,解决了奇异值分解后参数难于量化的问题,提高了编码效率.主观A/B测试表明,本文提出的2.4kbps SVD-WI编码器的重建语音质量略好于2.4kbps MELP编码器.  相似文献   

7.
提出了基于正弦激励的4.0Kb/s低复杂度语音编码算法。该算法对线谱对参数采用带帧间预测技术的全局最优标量量化,在保证语音质量和编码速率的同时,降低了算法所需的存储量和运算量。同时,分子帧的能量参数和清浊音参数提取,更精确地描述了语音变化的特征。分数基音周期的提出对精确刻画语音声调有很大益处。最后激励谱参数的多级矢量量化很好地弥补了正弦激励算法在语音自然度上的缺失。测试结果表明,此算法的非正式主观MOS分达到了3.5,语音质量与AMR4.75Kb/s相当.同时其存储量和运算量大大低于基于CELP的4.0Kb/s左右速率语音编码算法。  相似文献   

8.
浊音语音可以看作是慢变化的基音周期波形的连接。文中介绍的原波形内插算法利用了浊音语音的周期性,每隔20-30ms提取一单个的基音周期波形,然后在更新点处进行内插重建语音信号。用此方法进行语音编码可大大降低编码率。  相似文献   

9.
WI语音编码中相位信息的量化与重建   总被引:1,自引:0,他引:1  
陈悦  鲍长春 《信号处理》2005,21(1):164-167
在低比特率语音编码中,人们往往认为人耳对相位信息不敏感而忽略了相位对语音质量的影响,导致语音粗糙、刺耳甚至音调发生改变.为了获得高质量的声码器,语音的相位信息是不能不考虑的.本文分析了一种利用感觉加权的相位谱分析合成(A-b-S)矢量量化方法,并在波形内插编码器中对SEW的相位信息进行量化,在合成端采用相位的三次多项式插值方法进行重建.实验发现,该方法大大改善了重建语音效果,明显提高了语音的自然度和清晰度.主观A/B测试结果显示,该方法相比采用老年男子的固定相位法和基于最小相位模型的由幅度谱通过倒谱法重建相位谱的方法,经4~6个比特的相位量化可使合成语音质量得到显著的改善,尤其对女声,改善更为明显.  相似文献   

10.
为了满足数字通信及其他商业应用的需求,语音压缩编码技术得到迅速发展。近年来主流的低速率语音编码方案主要基于LPC-10,混合激励线性预测(MELP),多带激励编码(MBE),正弦变换编码(SCI),波形内插编码(WI)。大多都工作在2.4kb/s速率下。作为一种重要的低速率语音编码算法。MELP算法对LPC-10编码方案进行大量改进,引入混合激励,非周期脉冲,残差付氏幅度谱,脉冲散布和自适应谱滤波5个特征。实验结果表明,该混合激励线性预测编码在2.4kb/s上得到了更好的合成语音,并使得合成语音能更好地拟合自然语音。  相似文献   

11.
N. Moreau  P. Dymarski 《电信纪事》2000,55(9-10):493-506
A low delay coder for speech and music signals sampled at 32kHz is described. Its algorithmic delay does not exceed 25 ms which enables audioconferencing applications without echo cancellation. Its bit rate is scalable between 64 and 32 kbit/s by steps of 8 kbit/s. The transmitter issues the binary code at 64 kbit/s with lower bit rate codes embedded in it. The receiver may operate at lower bit rates with gradual loss of quality. The proposed coder is based on a mixed scheme : the adopted solution contains elements from the CELP speech coder and frequency domain music coders. The perceptual signal is obtained in the time domain, then transformed to the frequency domain where bit allocation is calculated and transform coefficients are quantized. A first solution based on the dft is discussed, then a second solution based on a mdct with small overlap is applied. The quantization of these coefficients is done in the following way. First, a prediction of the whole spectrum is applied. Then, a mean- removed gain- shape split vq is used for amplitude spectrum quantization and a hierarchical 2- dimensional vq is used for phase spectrum quantization with amplitude correction. At the phase quantization stage, each codeword describing the selected vector index is split into parts corresponding to different bit rates. Due to the hierarchical codebook structure, truncated indices may be used, without much affecting the signal quality. Simulation results are presented and the robustness of the proposed coder is examined.  相似文献   

12.
基于局部余弦变换的低比特变速率语音编码算法研究   总被引:1,自引:0,他引:1  
提出将局部余弦变换(LCT)算法应用于语音编码中,系统设计了一个平均比特率近1.6kbit/s的低比特变速率语音编码器。在变比特率编码器设计中采用SVM算法进行VAD检测。激活语音帧的语音模式采用GSM半速率编码中的划分方法,但将其中的强浊音模式和中浊音模式合并为一个中强浊音模式。对各类语音模式和无声帧(背景噪声)的局部余弦变换系数采用分维矢量量化算法进行量化,码书设计采用LGB算法。编码中的码书搜索采用树形快速搜索算法。通过主观非正式听力测试表明设计的变比特率编码器编码的重建语音MOS约为3.15,与比特率为2.4kbit/s美国联邦声码器标准MELP的重建语音相当,具有较强的顽健性,适合于对存在各种环境噪声的语音进行编码。  相似文献   

13.
该文提出了一种特征波形提取速率自适应于输入语音帧特性的波形内插编码方案。基于双加权长时预测增益最大原则并利用前向基音判决实现了较为可靠的基音周期估计算法,用基音周期、浊音度和波表面平坦度决定波形提取速率以及SEW(Slowly Evolving Waveform)和REW(Rapidly Evolving Waveform)的更新速率。实验证明,该文提出的波形内插(WI)编码算法相比固定波形提取速率的WI算法在平均码率和计算复杂度上均有一定程度的降低,且合成语音质量明显优于4.8kbps的CELP语音编码算法。  相似文献   

14.
一种谐波正弦语音模型的最佳相位估计算法   总被引:1,自引:0,他引:1  
应娜  赵晓晖  董婧  方昕 《电子学报》2009,37(4):860-863
 基于谐波正弦语音模型(HSSM),利用最小二乘方法估计语音模型的最佳相位参数,给出了一种估计相位的批处理方法和迭代算法.把利用该算法得到的相位参数用于宽带语音编解码算法进行仿真,其结果与G.722.2标准宽带编码算法中的两种编码速率8.85kbit/s及6.60kbit/s的语音进行了比较,语音波形的比较和主客观测试结果表明该最佳相位估计算法相位参数估计准确有效,可由此建立的语音模型获得较高质量的合成语音.  相似文献   

15.
徐志军  王晓军 《数字通信》1998,25(3):15-16,27
设计了一种可变速率的低时延、码激励线性预测编码(LD-CELP)的方案,它是通过修改码本来实现的。该方案工作在11.2kbit/s。对其做了计算机仿真,并与16kbit/s的LD-CELP算法在信经(SNR)、波形等方面进行了对比,仿真结果表明效果良好。  相似文献   

16.
In this paper, implementation of a compact and efficient multirate speech digitizer with variable transmission rates of 2.4, 4.8, 9.6, and 14.96 kbits/s is presented. The multirate algorithm has been made based on the residual-excited linear prediction (RELP) vocoder with a transmission rate of 9.6 kbits/s. The residual encoder employed in the RELP vocoder uses hybrid companding delta modulation (HCDM). This HCDM is also used as a 14.96 kbit/s coder. If the residual in the RELP system is down-sampled before encoding, a 4.8 kbit/s coder can be realized. If the residual encoder is not used, a 2.4 kbit/s linear predictive coder (LPC) can be realized by incorporating a pitch extractor. In the 4.8 and 9.6 kbit/s coders the pitch-implanted residual excitation method has been used to generate the excitation signal to the synthesis filter. The multirate speech digitizer algorithm has been implemented using 2900 series bit-slice microprocessors. The external memory is composed of 2K RAM's and 2K ROM's. The system design is a two-bus structure with a 204 ns cycle time. With efficient hardware and software design, the multirate speech digitizer requires almost the same hardware complexity as compared with the conventional 2.4 kblt/s LPC vocoder.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号