首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 655 毫秒
1.
秦楚雄  张连海 《计算机应用》2016,36(9):2609-2615
针对卷积神经网络(CNN)声学建模参数在低资源训练数据条件下的语音识别任务中存在训练不充分的问题,提出一种利用多流特征提升低资源卷积神经网络声学模型性能的方法。首先,为了在低资源声学建模过程中充分利用有限训练数据中更多数量的声学特征,先对训练数据提取几类不同的特征;其次,对每一类类特征分别构建卷积子网络,形成一个并行结构,使得多特征数据在概率分布上得以规整;然后通过在并行卷积子网络之上加入全连接层进行融合,从而得到一种新的卷积神经网络声学模型;最后,基于该声学模型搭建低资源语音识别系统。实验结果表明,并行卷积层子网络可以将不同特征空间规整得更为相似,且该方法相对传统多特征拼接方法和单特征CNN建模方法分别提升了3.27%和2.08%的识别率;当引入多语言训练时,该方法依然适用,且识别率分别相对提升了5.73%和4.57%。  相似文献   

2.
端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。  相似文献   

3.
针对前馈神经网络难以处理时序数据的问题,提出将双向循环神经网络(BiRNN)应用在自动语音识别声学建模中。首先,应用梅尔频率倒谱系数进行特征提取;其次,采用双向循环神经网络作为声学模型;最后,测试不同参数对系统性能的影响。在TIMIT数据集上的实验结果表明,与基于卷积神经网络和深度神经网络的声学模型相比,识别率分别提升了1.3%和4.0%,说明基于双向循环神经网络的声学模型具有更好的性能。  相似文献   

4.
主流神经网络训练的交叉熵准则是对声学数据的每个帧进行分类优化,而连续语音识别是以序列级转录准确性为性能度量。针对这个不同,构建基于序列级转录的端到端语音识别系统。针对低资源语料条件下系统性能不佳的问题,其中模型使用卷积神经网络对输入特征进行处理,选取最佳的网络结构,在时域和频域进行二维卷积,从而改善输入空间中因不同环境和说话人产生的小扰动影响。同时神经网络使用批量归一化技术来减少泛化误差,加速训练。基于大型的语言模型,优化解码过程中的超参数,提高模型建模效果。实验结果表明系统性能提升约24%,优于主流语音识别系统。  相似文献   

5.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

6.
针对误差反馈循环卷积神经网络在运用到短时交通流预测时存在仅仅能接收时序误差序列,忽略交通流误差数据中隐含的空间拓扑特征,且在模型初始化时其采用的通用卷积神经网络初始化方法降低了模型训练效率的问题,本文提出一种优化的误差反馈循环卷积神经网络模型,在误差反馈循环卷积神经网络模型基础上根据预测误差数据的时空特性对误差反馈层进行结构强化,能够处理包含简单空间关系的误差序列。同时通过在模型训练的过程中分离模型产生的历史预测误差和训练误差,使得模型构建过程更加高效,加速了模型收敛速度。通过北京市四环道路交通数据的实验表明,优化的误差反馈循环卷积神经网络预测模型在预测精度、构建效率及鲁棒性上均得到有效提高。  相似文献   

7.
为实现中英文民航陆空通话语音识别,提出一种基于深度学习的跨语种民航陆空通话语音识别方法.基于共享隐层的卷积深度神经网络(CDNN)建立一个跨语种声学模型;将中文音素和英文音素(CMU)融合用于构建混合语言模型;在此基础上将CMU标准英文音素映射为TIMIT标准英文音素重构语言模型用于识别;为了缩短训练和解码的时间,在提取特征阶段加入低帧率.实验结果表明,卷积深度神经网络声学模型可较好地应用于民航陆空通话领域;音素映射方法能够进一步提高识别性能;加入低帧率后有效缩短了训练时间且使词错误率下降到4.28%.  相似文献   

8.
姚煜  RYAD Chellali 《计算机应用》2018,38(9):2495-2499
针对隐马尔可夫模型(HMM)在语音识别中存在的不合理条件假设,进一步研究循环神经网络的序列建模能力,提出了基于双向长短时记忆神经网络的声学模型构建方法,并将联结时序分类(CTC)训练准则成功地应用于该声学模型训练中,搭建出不依赖于隐马尔可夫模型的端到端中文语音识别系统;同时设计了基于加权有限状态转换器(WFST)的语音解码方法,有效解决了发音词典和语言模型难以融入解码过程的问题。与传统GMM-HMM系统和混合DNN-HMM系统对比,实验结果显示该端到端系统不仅明显降低了识别错误率,而且大幅提高了语音解码速度,表明了该声学模型可以有效地增强模型区分度和优化系统结构。  相似文献   

9.
主流神经网络训练的交叉熵准则针对声学数据的每个帧进行分类优化,而连续语音识别需以序列级的转录准确性为性能度量指标。针对这一差异,构建一种基于序列级转录的端到端语音识别系统。以音素为基本单元建模,并采用连接时序分类(CTC)的目标函数改进长短时记忆网络的结构。在解码过程中引入词典和语言模型,并在前端增加音调特征以丰富声学特征。利用序列区分度训练技术提升CTC模型的建模效果。实验结果表明,该系统的识别效率和识别准确率得到提高,词错误率最低可降至19.09%±0.16%。  相似文献   

10.
针对卷积神经网络(CNN)在语音识别中处理时序能力不足和循环神经网络(RNN)在语音识别中模型复杂度较高、训练慢的问题,提出一种新的基于准循环神经网络和连接时序主义(QRNN-CTC)的声学模型。该模型既降低了参数量,又保证了一定的时序间循环能力,利用CTC来实现输入序列和标签自动对齐,在训练时引入dropout防止过拟合。在Thchs-30数据集上的实验结果表明,QRNN-CTC比CNN-CTC相对错误率降低9.8%,最终词错误率为23.8%,训练时间为LSTM-CTC的一半。  相似文献   

11.
给出了一种基于LeNet-5改进的人脸识别方法,以其能适用于资源及计算能力有限的嵌入式系统.把典型卷积神经网络LeNet-5的结构,设计为由两个卷积采样层、一个全连接隐藏层和一个分类输出层,降低了网络结构复杂度.而且减少了卷积核的个数、改进了池化方式以及分类输出方式,降低了计算复杂度.实验证明,在保证训练和测试精度的同时,该方法提高了在嵌入式平台上进行单人脸识别的速度.  相似文献   

12.
语音识别是人机交互的重要方式,针对传统语音识别系统对含噪语音识别性能较差、特征选择不恰当的问题,提出一种基于迁移学习的深度自编码器循环神经网络模型。该模型由编码器、解码器以及声学模型组成,其中,声学模型由堆栈双向循环神经网络构成,用于提升识别性能;编码器和解码器均由全连接层构成,用于特征提取。将编码器结构及参数迁移至声学模型进行联合训练,在含噪Google Commands数据集上的实验表明本文模型有效增强了含噪语音的识别性能,并且具有较好的鲁棒性和泛化性。  相似文献   

13.
基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network, HMM-DNN)的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN, MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学DNN(Single-task learning DNN, STL-DNN)建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。  相似文献   

14.
为进一步提高卷积神经网络的训练速度,减少训练成本,建立了量子门组卷积神经网络模型(Quantum Gate Convolutional Neural Network,QGCNN)。为了构建QGCNN网络结构,依据传统CNN结构的特点,给出卷积算术线路(Convolutional Arithmetic Circuit,ConvAC)的定义。用张量分解来说明ConvAC的权值系数之间的关系,为构建QGCNN提供理论依据。将QGCNN分为输入表示层、隐藏层和输出层,在此基础上实现对数据进行量子编码,利用量子门组完成数据初始化,网络参数更新等操作。将QGCNN应用到数字手写体识别中,实验结果表明,该方法在手写体识别的准确率和收敛速度上有不错的效果。  相似文献   

15.
针对深度卷积神经网络随着卷积层数增加而导致网络模型难以训练和性能退化等问题,提出了一种基于深度残差网络的人脸表情识别方法。该方法利用残差学习单元来改善深度卷积神经网络模型训练寻优的过程,减少模型收敛的时间开销。此外,为了提高网络模型的泛化能力,从KDEF和CK+两种表情数据集上选取表情图像样本组成混合数据集用以训练网络。在混合数据集上采用十折(10-fold)交叉验证方法进行了实验,比较了不同深度的带有残差学习单元的残差网络与不带残差学习单元的常规卷积神经网络的表情识别准确率。当采用74层的深度残差网络时,可以获得90.79%的平均识别准确率。实验结果表明采用残差学习单元构建的深度残差网络可以解决网络深度和模型收敛性之间的矛盾,并能提升表情识别的准确率。  相似文献   

16.
徐访  黄俊  陈权 《计算机工程》2021,47(11):283-291
在不带有标志帧的手势视频上进行动态手势识别,容易导致识别准确率下降。提出一种具有分级网络结构的动态手势识别模型。以手势检测模型为第1级网络,手势分类模型为第2级网络,分步完成识别任务。同时,将三维卷积核拆分为时间域和空间域卷积分阶段完成任务,解决三维卷积神经网络中因参数过多造成模型训练或运行时间过长的问题。实验结果表明,在保证实时性的前提下,该模型在EgoGesture数据集上的识别准确率高达93.35%,优于C3D、ResNeXt101、MTUT等模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号