期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

语音谱参数的增强双预测多级矢量量化的码本设计方法 总被引：1，自引：0，他引：1

高戈胡瑞敏李德仁《计算机工程与应用》2002,38(10):23-26

表征语音谱参数的线性预测编码(LPC)参数被广泛用于各种语音编码算法。甚低位率语音编码算法要求使用尽可能少的位率编码语音谱参数。文章提出了语音谱参数的增强双预测多级矢量量化算法(EDPMSVQ)的码本设计方法。这种改进的多级矢量量化方法充分利用语音谱参数的短时相关和长时相关特性,采用了有记忆的多级矢量量化算法(MSVQ),对语音谱参数的每一维分别使用不同的预测系数;并且通过利用相邻语音帧间语音谱参数的强相关和弱相关的不同特点,采用了分别对应于强相关和弱相关的两个预测值集合,进一步减小了语音谱参数编码位率。增强双预测多级矢量量化方法能够实现20位的语音谱参数近似“透明”量化,同时能够使语音谱参数量化时的计算复杂度略有减少,所需的存储空间大为减少。相似文献

2.

线谱对参数预测多级矢量量化联合优化算法 总被引：1，自引：0，他引：1

邹霞张雄伟《数据采集与处理》2008,23(2):186-190

提出了一种线谱对参数预测多级矢量量化联合优化算法.该算法对预测系数和多级矢量量化采用渐进闭环设计,通过迭代实现预测系数和多级矢量量化设计的联合优化.在多级矢量量化设计过程中,采用迭代优化实现多级码本的联合优化.采用语音线谱对参数对量化算法进行测试.测试结果表明,与传统算法相比,该量化算法可以减小线谱对参数量化失真.提高编码语音质量. 相似文献

3.

基于高斯格型矢量量化的导谱频率参数量化方法

张勇王晓晨周成胡瑞敏《数据采集与处理》2009,24(5)

为了降低宽带导抗谱频率(ISF)参数矢量量化器的运算复杂度和存储空间,提出了一种随机矢量-高斯格型矢量两级矢量量化模型,研究了量化模型的联合量化算法和码本训练算法.基于上述量化模型设计了一种宽带ISF参数预测式两级矢量量化器,量化算法的第一级使用随机矢量量化第二级采用高斯格型矢量量化.实验结果表明,ISF参数预测式两级矢量量化器在45比特/帧可以达到透明量化,相比于ITU-T G.722.2中的分裂-多级矢量量化(S-MSVQ)方法,该方法降低了41.7%的存储空间和3..1%的运算复杂度. 相似文献

4.

语音识别中基于神经网络的矢量量化方法

孙杰李晶皎《小型微型计算机系统》1999,20(12):941-944

本文对神经网络语音识别中的语音特征提取、网络结构以及学习算法进行了初步的研究,提出了一种用于时特征矢量量化的简化和改进的自组织神经网络模型ＶＱＮＮ。ＶＱＮＮ中引入了动态规划法估计语音样本矢量的码本类中心初值并确定网络的初始权矩阵,可构造出２５６个量化等级的码本矢量。该方法具有较强的鲁棒性且矢量量化过程简单迅速。对２８个地名的语音量化识别实验结果表明了这种量化方法对时识别的有性。相似文献

5.

基于SOFM神经网络的IP电话语音压缩编码设计

谭建豪章兢《计算机与现代化》2006,(1):1-4

对自组织特征映射（SOFM）神经网络学习算法作了简单介绍。从SOFM神经网络学习算法的基本思想出发，通过研究SOFM学习算法在设计矢量码书中存在的问题，提出了一种改进算法。最后把这种算法应用在口电话语音压缩编码的参数矢量量化上。计算机仿真结果表明，SOFM神经网络是一种训练语音码书的好工具，改进的SOFM学习算法能够大大减少训练时间，提高整个系统的性能。相似文献

6.

基于DSP的甚低速率语音编码算法及其实现

下载免费PDF全文

赵继勇曹芳梁妙元刘亚峰《计算机工程》2011,37(21):261-263

在混合激励线性预测(MELP)算法的基础上,设计一种1 120 b/s MELP甚低速率语音编码算法。该算法通过增加帧长、动态比特分配和多帧联合矢量量化、及参数内插等方法降低语音的编码速率,并已在TMS320VC5416DSP芯片上实时实现。采用美国GL公司的语音质量评估系统VQT,对编解码的实时语音质量进行评估,语音质量感知评价高于3分。实验结果表明,该算法能够满足实际通信要求。相似文献

7.

语音倒谱特征的研究 总被引：24，自引：1，他引：24

王让定柴佩琪《计算机工程》2003,29(13):31-33

语音倒谱特征是语音识别中最常用的特征参数，它表征了人类的听觉特征。该文在研究基于线性预测倒谱和非线性MEL刻度倒谱特征的基础上，研究了LPCC和MFCC参数提取的算法原理及提取算法，提出了一级、二级差分倒谱特征参数的提取算法。识别实验验证了MFCC参数的鲁棒性优于LPCC参数。相似文献

8.

LSF参数量化方法及其优化

阮玲英《电脑与信息技术》2009,17(4):39-40

文章提出了一种多级量化LSF参数的方法,并进一步提出了优化量化的方法以及性能分析。优化算法减少了矢量量化算法的运算量和运算时间。加快了矢量量化的编码速度,且对矢量量化的失真情况没有影响。相似文献

9.

一种采用混合激励的超低速率分段声码器

闵刚张雄伟杨吉斌安云峰《数据采集与处理》2009,24(5)

为满足通信和多媒体存储对超低速语音编码的要求,提出了一种平均编码速率为200和300 bps的超低速率声码器算法.结合分段声码器和MELP算法的优点,该算法对语音建立了混合激励分段编码模型.提出了线谱对参数的变雏矩阵量化和激励参数的变雏矢量量化方案,在超低速率条件下获得了较好的量化效果,同时有效地降低了码本存储量.非正式主观听力测试表明:编码速率为300 bps时,重建语音保持了较高的可懂度和一定的自然度;编码速率为200 bps时,语音质量仍可以接受. 相似文献

10.

Symlets小波和子空间联合增强下的语音识别

下载免费PDF全文

吴昊鲁周迅《计算机工程与应用》2011,47(5):141-145

针对小波阈值选择的多样性,主要研究了小波自适应阈值消噪联合子空间增强对特定人汉语孤立词识别系统的鲁棒性提升。采用Mel倒谱系数,在基于矢量量化（VQ）和高斯混合模型（GMM）的两个系统上,检验采用联合Symlets小波多阈值消噪和子空间增强算法在互为先后顺序作用下系统的识别率,给出一个先Symlets小波阈值消噪再子空间增强的语音增强方法。人耳感官和Matlab实验证实该方法结合了两者的优点,不但平衡了语音失真和噪声抑制,亦可提高VQ系统的顽健性,而对于GMM系统作用有限。相似文献

11.

基于多码本矢量量化的非限定文本的联机话者辨认方法

马继涌高文姚鸿勋《计算机研究与发展》1999,36(6):712-716

传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定．为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本．这些码本是采用逐渐减小误识率的优化过程得到的．为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法．同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了４４％的识别计算量．这些方法大大增加了系统的识别速度和鲁棒性．文中比较了用ＰＬＰ分析和ＬＰＣ倒谱分析进行话者辨认的识别结果．相似文献

12.

一个基于语音识别的盲人上网辅助系统的设计

蒲晓杨勇《微计算机信息》2010,(4)

针对目前一部分残障人士(如盲人等)面临的上网困难问题,本文通过语音识别和文本-语音转换两个部分的设计及运用,设计一个基于语音识别的盲人上网辅助系统。系统的语音识别部分,采用了线性预测(LPC)及矢量量化的距离(VQ)方法,过滤和识别人的语音信号;文本-语音转换部分,通过对每个动态打开的网页,采用文字转化成语音(text-to-speech,TTS)技术及语音合成平台完成语音合成,将其网页文本内容朗读出来,同时也可对用户进行语音提示。相似文献

13.

G．729语音编码算法线谱频率量化的研究

下载免费PDF全文

欧阳毅郭立唐建许令凡《计算机工程与科学》2006,28(1):68-70

在G．729的语音编码算法中，线谱频率量化是采用预测式矢量量化。当语音传送中出现帧丢失时，采用该方法在译码端会产生误差积累，从而导致语音质量下降。为了降低误差积累的影响，本文提出了一种新型的矢量量化方法。实验结果表明，该方法在防止误差积累方面与G．729相比，性能有明显的提高。相似文献

14.

Speaker identification based on the frame linear predictive coding spectrum technique

Jian-Da Wu Bing-Fu Lin 《Expert systems with applications》2009,36(4):8056-8063

In this paper, a frame linear predictive coding spectrum (FLPCS) technique for speaker identification is presented. Traditionally, linear predictive coding (LPC) was applied in many speech recognition applications, nevertheless, the modification of LPC termed FLPCS is proposed in this study for speaker identification. The analysis procedure consists of feature extraction and voice classification. In the stage of feature extraction, the representative characteristics were extracted using the FLPCS technique. Through the approach, the size of the feature vector of a speaker can be reduced within an acceptable recognition rate. In the stage of classification, general regression neural network (GRNN) and Gaussian mixture model (GMM) were applied because of their rapid response and simplicity in implementation. In the experimental investigation, performances of different order FLPCS coefficients which were induced from the LPC spectrum were compared with one another. Further, the capability analysis on GRNN and GMM was also described. The experimental results showed GMM can achieve a better recognition rate with feature extraction using the FLPCS method. It is also suggested the GMM can complete training and identification in a very short time. 相似文献

15.

基于线谱区域量化技术的低语音编码

王卫锋张秀彬王世新刘旭涛汤亮《微型电脑应用》2001,17(4):50-51

本文将线谱对（Linear Spectrum Pair,LSP )参数用于语音编码,同时分析比较了LSP与常用的线性预测系数（LPC）和格滤波发射系统（PARCOR）的特征分别,并由此引入更能有效量化线谱对参数的区域量化技术。因此在保证编码后语音MOS指标的同时可以达到进一步降低码率的目的。相似文献

16.

基于隐马尔可夫模型的能量参数预测量化算法

魏旋计哲崔慧娟唐昆《数据采集与处理》2011,26(2)

为了充分利用能量与线性预测编码(Linear prediction coding,LPC)系数之间的相关性,提高能量参数量化效率,提出了一种基于隐马尔可夫模型(Hidden Markov model,HMM)的能量参数预测量化算法.通过适当假设,使用HMM模拟能量参数和LPC系数之间的相关性,其中离散化后的能量参数组成隐状态序列,量化后的LPC系数组成可现测序列.然后利用HMM预测每一超帧中的能量参数的变化轨迹,并根据预测出的能量轨迹对预测残差进行分模式矢量量化(Mode-based vector quantization,MBQ).仿真实验中能量参数量化后的平均失真为2.668 dB,与线性预测量化算法相比下降了14.O%,表明本文算法通过利用能量参数与LPC系数的相关性,能够有效地提高能量参数量化效率. 相似文献

17.

线谱频率及差分线谱频率参数相关性分析

韩笑蕾赵晓群方腾龙贾晓光《计算机应用》2011,31(2):548-552

根据英语/汉语男女声线谱频率（LSF）参数及差分LSF参数帧内相关性统计结果，提出适合于LSF参数及差分LSF参数的分裂矢量量化（SVQ）分组方案。实验表明，在不考虑码书大小的情况下使用SVQ量化10阶LSF参数时，(4,6)分组的量化效果较优，否则(4,2,4)或(4,4,2)分组的量化效果较优。通过相关程度分布表清晰表明，至少68%的差分LSF参数在帧内呈微相关，有效减少了LSF参数的帧内冗余信息。随后采用DSQ和多种分组的EEDSVQ对差分LSF参数进行量化，结果表明差分LSF的量化性能优于LSF参数的量化性能。在语音编码中，采用差分LSF参数代替LSF参数作为模型参数，可在保持相同语音质量的情况下进一步降低编码速率。相似文献

18.

Statistical Approach for Voice Personality Transformation 总被引：1，自引：0，他引：1

Lee K.-S. 《IEEE transactions on audio, speech, and language processing》2007,15(2):641-651

A voice transformation method which changes the source speaker's utterances so as to sound similar to those of a target speaker is described. Speaker individuality transformation is achieved by altering the LPC cepstrum, average pitch period and average speaking rate. The main objective of the work involves building a nonlinear relationship between the parameters for the acoustical features of two speakers, based on a probabilistic model. The conversion rules involve the probabilistic classification and a cross correlation probability between the acoustic features of the two speakers. The parameters of the conversion rules are estimated by estimating the maximum likelihood of the training data. To obtain transformed speech signals which are perceptually closer to the target speaker's voice, prosody modification is also involved. Prosody modification is achieved by scaling excitation spectrum and time scale modification with appropriate modification factors. An evaluation by objective tests and informal listening tests clearly indicated the effectiveness of the proposed transformation method. We also confirmed that the proposed method leads to smoothly evolving spectral contours over time, which, from a perceptual standpoint, produced results that were superior to conventional vector quantization (VQ)-based methods 相似文献

19.

Steganography in vector quantization process of linear predictive coding for low-bit-rate speech codec

Peng?Liu Songbin?Li Email author Haiqiang?Wang 《Multimedia Systems》2017,23(4):485-497

In this paper, we focus on quantization-index-modulation (QIM) steganography in low-bit-rate speech codec and contribute to improve its steganalysis resistance. A novel QIM steganography is proposed based on the replacement of quantization index set in linear predictive coding (LPC). In this method, each quantization index set is seen as a point in quantization index space. Steganography is conducted in such space. Comparing with other methods, our algorithm significantly improves the embedding efficiency. One quantization index needs to be changed at most when three binary bits are hidden. The number of alterations introduced by the proposed approach is much lower than that of the current methods with the same embedding rate. Due to the fewer cover changes, the proposed steganography is less detectable. Moreover, a division strategy based on the genetic algorithm is proposed to reduce the additional distortion introduced by replacements. In our experiment, ITU-T G.723.1 is selected as the codec, and the experimental results show that the proposed approach outperforms the state-of-the-art LPC-based approach in low-bit-rate speech codec with respect to both steganographic capacity and steganalysis resistance. 相似文献