首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
讨论了在语音编码中,应用神经网络技术进行矢量量化的算法。神经网络矢量量化算法可以压缩码本维数,提高码本搜索速度,从而优化矢量量化的效果。将这种优化的矢量量化算法应用于语音编码中,能降低运算复杂度,提高编码质量。  相似文献   

2.
语音识别中基于SFCM模糊聚类的矢量量化方法   总被引:4,自引:1,他引:3  
模糊聚类分析算法用隶属度确定样本所属类别,因其良好的效果而被广泛用于语音识别领域。文中提出了一种模糊聚类分析算法SFCM,并将其用于语音特征的矢量量化,最终形成码本尺寸为128的码本,用SFCM算法得到的码本分布合理,没有空类。采用此码本的误音识别实验表明了这种量化方法对语音识别的有效性。  相似文献   

3.
华婷婷  肖铁军 《微计算机应用》2007,28(11):1164-1168
提出了一种基于模糊C-means聚类法的矢量量化,并将其用于语音特征的矢量量化。从语音信号中提取12阶MFCC倒谱系数作为待分群样本的矢量数据,有效地降低数据量及计算量,并可以避免杂信的不良影响。且实验得到的码本分布合理,没有空类,表明了该量化方法对语音识别很有效。  相似文献   

4.
提出了语音谱参数的切换双预测多级矢量量化算法(DPMSVQ) 的码本设计方法。这种改进的多级矢量量化方法充分利用语音谱参数的短时相关和长时相关特性,采用了有记忆的多级矢量量化算法(MSVQ);并且通过利用相邻语音帧间语音谱参数的强相关和弱相关的不同特点,采用了分别对应于强相关和弱相关的两个预测值,进一步减小了语音谱参数编码位率。切换双预测多级矢量量化方法能够实现21位的语音谱参数近似“透明”量化,同时能够使语音谱参数量化时的计算复杂度略有减少,所需的存储空间大为减少。  相似文献   

5.
为解决采用矢量量化的方法进行说话人识别时出现的失真问题,根据汉语语音的发音特性,提出了将矢量量化与语音特征的聚类技术相结合的方法,在进行矢量量化码书训练之前,先对特征矢量进行聚类筛选。实验结果表明,当测试语音片段长度为4 s时,在保持95%左右识别率下,采用普通矢量量化方法需64码本数,而采用该文方法只需8码本数,降低了8倍。结果说明该方法不但在一定程度上解决了因训练样本不足而引起的失真问题,而且通过方法的改进,实现了采用较低码字数产生较好的识别结果,从而提高识别效率。  相似文献   

6.
设计了一种文本相关语音锁。提取语音的梅尔频谱倒谱系数(MFCC)及其一阶差分特征,利用矢量量化算法,训练说话者的语音特征模型。通过设计实验,分析了在不同的码本数量、语音样本信噪比水平、语音特征类别组合的情况下,系统的识别效果。实验结果表明:在一定的信噪比下,码本数量N=48时,识别准确率达到95%以上。移植到嵌入式平台后可正常运行,说明算法能够满足工程实用性要求。  相似文献   

7.
语音谱参数的增强双预测多级矢量量化的码本设计方法   总被引:1,自引:0,他引:1  
表征语音谱参数的线性预测编码(LPC)参数被广泛用于各种语音编码算法。甚低位率语音编码算法要求使用尽可能少的位率编码语音谱参数。文章提出了语音谱参数的增强双预测多级矢量量化算法(EDPMSVQ)的码本设计方法。这种改进的多级矢量量化方法充分利用语音谱参数的短时相关和长时相关特性,采用了有记忆的多级矢量量化算法(MSVQ),对语音谱参数的每一维分别使用不同的预测系数;并且通过利用相邻语音帧间语音谱参数的强相关和弱相关的不同特点,采用了分别对应于强相关和弱相关的两个预测值集合,进一步减小了语音谱参数编码位率。增强双预测多级矢量量化方法能够实现20位的语音谱参数近似“透明”量化,同时能够使语音谱参数量化时的计算复杂度略有减少,所需的存储空间大为减少。  相似文献   

8.
在矢量量化(VQ)的码本设计过程中,经典的LBG算法收敛速度快,但极易陷入局部最优,且初始码本的生成对最佳码本的设计影响很大。考虑到遗传算法(GA)是一种具有全局优化搜索能力的算法,提出了GA和LBG算法相结合的GA-L算法来优化码本,改善了码本质量,并将其应用于汉语连续数字语音识别中,实验结果表明了GA-L算法的有效性。  相似文献   

9.
VQ/HMM二级音节识别的研究   总被引:1,自引:0,他引:1  
HMM技术在语音识别是得到较为成功的应用,然而VQ/HMM对在词表的识别速度及识别率仍不理想,文中根据系统实现中的实时性和识别率的要求,提出了初始码本均匀法,对参加训练的各音先对其求平均,然后用各音的平均值组成初始矢量的空间,并采用码本快速迭代法以及标号直方图法与HMM识别相结合的二级识别方法,提高了系统的识别率和识别速度,此方法简单,易于实时化。  相似文献   

10.
为了在远程教育环境中满足多媒体课件的关键词检索需求,描述了一种基于矢量量化(VQ)及连续语音识别(CSR)的关键词检索系统的设计与实现。该系统首先利用矢量量化算法对声学特征空间进行聚类并生成码本;接着利用该码本对语音文件逐帧进行处理并保存若干与该帧特征最相似的码表向量所对应的码值做成特征矩阵;然后利用改进的快速符号查找算法从特征矩阵中找出若干候选结果段;使用经简化的连续语音识别算法对候选段进行验证筛选,从而得到最终的结果。在此基础上利用一些测试数据给出其性能表现并做出分析。  相似文献   

11.
针对当前关键词识别少资源或零资源场景下的要求, 提出一种基于音频自动分割技术和深度神经网络的关键词识别算法. 首先采用一种基于度量距离的改进型语音分割算法, 将连续语音流分割成孤立音节, 再将音节细分成和音素状态联系的短时音频片段, 分割后的音频片段具有段间特征差异大, 段内特征方差小的特点. 接着利用一种改进的矢量量化方法对音频片段的状态特征进行编码, 实现了关键词集内词的高精度量化编码和集外词的低精度量化编码. 最后以音节为识别单位, 采用压缩的状态转移矩阵作为音节的整体特征, 送入深度神经网络进行语音识别. 仿真结果表明, 该算法能从自然语音流中较为准确地识别出多个特定关键词, 算法易于理解、训练简便, 且具有较好的鲁棒性.  相似文献   

12.
The `neural' phonetic typewriter   总被引:1,自引:0,他引:1  
Kohonen  T. 《Computer》1988,21(3):11-22
The factors that make speech recognition difficult are examined, and the potential of neural computers for this purpose is discussed. A speaker-adaptive system that transcribes dictation using an unlimited vocabulary is presented that is based on a neural network processor for the recognition of phonetic units of speech. The acoustic preprocessing, vector quantization, neural network model, and shortcut learning algorithm used are described. The utilization of phonotopic maps and of postprocessing in symbolic forms are discussed. Hardware implementations and performance of the neural networks are considered  相似文献   

13.
基于MFCC和加权矢量量化的说话人识别系统   总被引:14,自引:4,他引:14  
文章介绍的说话人识别系统,采用能够反映人对语音的感知特性的Mel频率倒谱系数(Mel-FrequencyCeptralCoefficients,MFCC)作为特征参数,同时考虑到特征参数各维分量对于不同说话人的区分程度,采用加权的办法进行矢量量化。取得了很好的结果,系统训练和识别计算量和存储量都比较低。  相似文献   

14.
This paper presents an artificial neural network (ANN) for speaker-independent isolated word speech recognition. The network consists of three subnets in concatenation. The static information within one frame of speech signal is processed in the probabilistic mapping subnet that converts an input vector of acoustic features into a probability vector whose components are estimated probabilities of the feature vector belonging to the phonetic classes that constitute the words in the vocabulary. The dynamics capturing subnet computes the first-order cross correlation between the components of the probability vectors to serve as the discriminative feature derived from the interframe temporal information of the speech signal. These dynamic features are passed for decision-making to the classification subnet, which is a multilayer perceptron (MLP). The architecture of these three subnets are described, and the associated adaptive learning algorithms are derived. The recognition results for a subset of the DARPA TIMIT speech database are reported. The correct recognition rate of the proposed ANN system is 95.5%, whereas that of the best of continuous hidden Markov model (HMM)-based systems is only 91.0%  相似文献   

15.
设计了一套基于LabVIEW的语音身份认证系统,以LabVIEW2009为开发平台,采用改进的美尔倒频谱系数法进行语音信号特征提取,采用矢量量化模型进行语音识别,实现了与文本、性别无关的声纹识别.实验结果表明该系统能够有效克服环境噪声、说话人声音变异带来的影响.  相似文献   

16.
针对自组织特征映射(SOFM)神经网络应用于矢量量化具有收敛速度慢、计算量大等缺点,本文提出了一种基于PCA/SOFM混合神经网络的矢量量化的算法,先用主元分析(PCA)线性神经网络对输入矢量进行降维处理,再用SOFM神经网络进行矢量量化。通过调整SOFM神经网络的学习函数、邻域权值及初始码书对网络进行优化。实验表明,改进算法缩短了图像压缩的时间,提高了码书的性能。  相似文献   

17.
一种基于HMM和ANN的语音情感识别分类器   总被引:2,自引:0,他引:2  
罗毅 《微计算机信息》2007,23(34):218-219,296
针对在语音情感识别中孤立使用隐马尔科夫模型(HMM)固有的分类特性较差的缺点,本文提出了利用隐马尔科夫模型和径向基函数神经网络(RBF)对惊奇,愤怒,喜悦,悲伤,厌恶5种语音情感进行识别的方法。该方法借助HMM规整语音情感特征向量,并用RBF作为最终的决策分类器。实验结果表明在本文的实验条件下此方法和孤立HMM相比具有更好的性能,厌恶的识别率有了较大改进。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号