期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

柏财通崔翛龙郑会吉李爱《计算机应用》2022,42(10):3217-3223

针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。相似文献

2.

基于深度收缩稀疏自编码网络的飞行员疲劳状态识别

吴奇储银雪陈曦林金星任和《控制与决策》2018,33(12):2263-2269

飞行员的疲劳状态识别具有重要的研究意义和应用价值.针对飞行员疲劳状态识别的复杂性和准确性,提出一种新的基于脑电信号的飞行员疲劳状态识别深度学习模型.在对飞行员的脑电信号进行滤波分解的基础上,提取delta波(0.5sim4Hz)、theta波(5sim8Hz)、alpha波(7sim14Hz)和beta波(14sim30Hz),将其重组信号作为深度收缩稀疏自编码网络-Softmax模型的输入向量,用以对飞行员疲劳状态的识别,所得到的实验结果与深度自编码网络-Softmax模型和传统方法PCA-Softmax模型识别结果进行比较,结果表明所建立的深度学习模型具有很好的分类效果,分类准确率可达91.67%,且学习所得的特征稳定性好,验证了所提模型具有稳定性和重复验证性. 相似文献

3.

基于Gabor滤波的语音识别鲁棒性研究

缑新科  徐高鹏 《计算机与现代化》2018,(5):20

为了提高语音识别系统的鲁棒性,提出一种基于GBFB（spectro-temporal Gabor filter bank）的声学特征提取方法,并通过分块PCA算法对高维的GBFB特征进行降维处理,最后在多个相同噪音环境对GBFB特征以及常用的GFCC,MFCC,LPCC等特征进行抗噪性能对比,与GFCC相比GBFB特征的识别率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9个分贝。实验结果表明,在噪音环境下与传统的GFCC、MFCC以及LPCC等特征相比GBFB特征有更优越的鲁棒性。相似文献

4.

基于深度自编码网络的异质人脸识别

《计算机应用与软件》2016,(10)

针对异质人脸识别中对不同模态数据间关系建模的问题,提出一种基于深度自编码网络的异质人脸特征提取和识别方法。首先用一个深度降噪自编码网络从两类异质人脸图像中提取人脸的高阶特征,并通过类别监督信号产生的目标函数来对网络进行微调,最后利用最近邻分类器对已提取特征分类,完成异质图像间的匹配。在CUHK、AR、CASIA HFB、SVHN与MNIST数据集上的实验结果表明,与目前基于子空间学习的异质人脸识别方法相比,该方法取得了更高的识别率,并且在基于异质图像的数字识别上表现出一定优势。相似文献

5.

基于多任务学习的轻量级语音情感识别模型

宋羽凯谢江《计算机工程》2023,(5):122-128

现有的语音情感识别（SER）模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数（MFCC）特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10～1/2,且处理速度更快、准确率更高。相似文献

6.

深度稀疏自编码网络识别飞行员疲劳状态

储银雪陆智俊裘旭益吴奇《控制理论与应用》2019,36(6):850-857

针对飞行员疲劳状态识别的复杂性和准确性,提出一种基于脑电信号的深度学习模型.首先对飞行员脑电信号进行滤波分解,提取delta波(0.5~4 Hz)、theta波(5~8 Hz)、alpha波(7~14 Hz)、beta波(14~30 Hz),提取基于脑电节律波的频域特征,作为识别模型的输入向量.其次,将一种基于深度稀疏自编码网络–Softmax模型用于飞行员疲劳状态识别,并与单层的稀疏自编码网络–Softmax和传统方法主成分分析(PCA)–Softmax模型识别结果进行比较.最后,实验结果显示,针对飞行员疲劳状态识别问题,所建立的学习模型具有很好的分类识别效果,具有较好的工程推广价值. 相似文献

7.

基于深度自编码网络的软件缺陷预测方法

周末徐玲杨梦宁廖胜平鄢萌《计算机工程与科学》2018,40(10):1796-1804

软件缺陷预测是提升软件质量的有效方法,而软件缺陷预测方法的预测效果与数据集自身的特点有着密切的相关性。针对软件缺陷预测中数据集特征信息冗余、维度过大的问题,结合深度学习对数据特征强大的学习能力,提出了一种基于深度自编码网络的软件缺陷预测方法。该方法首先使用一种基于无监督学习的采样方法对6个开源项目数据集进行采样,解决了数据集中类不平衡问题;然后训练出一个深度自编码网络模型。该模型能对数据集进行特征降维,模型的最后使用了三种分类器进行连接,该模型使用降维后的训练集训练分类器,最后用测试集进行预测。实验结果表明,该方法在维数较大、特征信息冗余的数据集上的预测性能要优于基准的软件缺陷预测模型和基于现有的特征提取方法的软件缺陷预测模型,并且适用于不同分类算法。相似文献

8.

语音识别前端鲁棒性问题综述

刘放军王仁华《计算机科学》2006,33(4):168-173

随着手持设备的日益小型化以及一些特殊场合的限制,使用语音识别这种自然的人机接口技术愈发显得迫切。基于HMM架构的语音识别技术经过几十年的发展,在实验室环境下已经取得了很高的识别率。当前已经取得的技术要想走向实用化,所面临的最大障碍来自于语音识别前端的鲁棒性问题。本文对语音识别的前端鲁棒性问题做了比较深入细致的分析,并在此基础上比较全面地介绍了解决这些棘手问题所采取的一些措施。文章最后对语音识别前端鲁棒性问题给出了一定的讨论和展望。相似文献

9.

基于深度信念网络的语音情感识别的研究

黄晨晨巩微伏文龙冯东煜《计算机研究与发展》2014,(Z1)

针对语音情感识别中的特征提取的问题,提出了一种新的特征提取方式,利用深度神经网络(DNN)中的深度信念网络(DBNs)自动提取语音信号中情感特征.通过训练一个5层的深度信念网络提取语音情感特征,把连续多帧的语音并在一起,构成一个高维的特征,把深度信念网络训练完的特征作为非线性支持向量机(SVM)分类器的输入端,最终建立一个语音情感识别多分类器系统.其识别率为86.5%比传统的基于提取句子的时间构造、振幅构造、基频构造等特征的方法提高7%. 相似文献

10.

基于深度卷积自编码神经网络的手写数字识别研究

曾文献孟庆林郭兆坤《计算机应用研究》2020,37(4):1239-1243

针对提高不同笔体下的手写识别准确率进行了研究,将深度卷积神经网络与自动编码器相结合,设计卷积自编码器网络层数,形成深度卷积自编码神经网络。首先采用双线性插值方法分别对MNIST数据集与一万幅自制中国大学生手写数字图片进行图像预处理,然后先使用单一MNIST数据集对深度卷积自编码神经网络进行训练与测试;最后使用MNIST与自制数据集中5 000幅混合,再次训练该网络,对另外5 000幅进行测试。实验数据表明,所提深度卷积自编码神经网络在MNIST测试集正确率达到99.37%,有效提高了准确率;且5 000幅自制数据集模型测试正确率达99.33%,表明该算法实用性较强,在不同笔体数字上得到了较高的识别准确率,模型准确有效。相似文献

11.

结合MFCC分析和仿生模式识别的语音识别研究

下载免费PDF全文

王宪保陈勇汤丽平《计算机工程与应用》2011,47(12):20-22

提出了一种基于MFCC系数分析和仿生模式识别的语音识别方法,该方法对训练样本MFCC相同分量在各类语音间距离进行了分析,并通过与传统选取方法的比较实验,说明在小词汇量的语音识别中,选取合适的MFCC系数,不仅能减小计算量,正确识别率也会得到一定程度的提高。运用仿生模式识别理论中同类样本连续的观点,通过在特征空间中对训练样本进行有效的覆盖,大大提高了识别结果。相似文献

12.

多类型语音特征进化选择算法

下载免费PDF全文

张小恒谢文宾李勇明《计算机工程与应用》2016,52(14):150-155

基于特征选择的语音特征获取用于说话人识别是目前较为有效的方式。但是,最优语音特征随着具体应用环境的变化而不同。因此,提出了基于四类型语音特征封装式遗传特征选择算法（FSF-WrGAF）,该算法提取了四种类型的语音特征参数,通过链式智能体遗传算法和GMM-UBM进行封装式动态特征选择,获取高精度的识别准确率。采用了多种指标完成该算法的性能测试。实验结果表明,该算法具体实现过程简便,改进效果明显,较同类算法在多项指标（识别率,EER,DET曲线）上都有显著提高。相似文献

13.

基于轻量级深度神经网络的环境声音识别

杨磊赵红东《计算机应用》2020,40(11):3172-3177

针对传统卷积神经网络（CNN）模型存在大量冗余参数的问题,提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点,在Fnet2模型基础上,依据Dempster-Shafer（D-S）证据理论将Fnet2与深度神经网络（DNN）融合,提出新的网络模型FnetDNN。首先,建立一个具有四层卷积层的神经网络Cent作为基准,以梅尔倒谱系数（MFCC）作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率,结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率;然后,将MFCC与全局特征向量输入到FnetDNN模型中,使得该模型的识别准确率提高到了94.4%。实验结果表明,Fnet网络模型不仅可以压缩冗余参数,还可以与其他网络相融合,具备模型扩展能力。相似文献

14.

基于轻量级深度神经网络的环境声音识别

杨磊赵红东《计算机应用》2005,40(11):3172-3177

针对传统卷积神经网络（CNN）模型存在大量冗余参数的问题，提出了两个基于SqueezeNet核心结构Fire模块的轻量级网络模型Fnet1和Fnet2。之后结合移动端分布式数据采集和处理的特点，在Fnet2模型基础上，依据Dempster-Shafer（D-S）证据理论将Fnet2与深度神经网络（DNN）融合，提出新的网络模型FnetDNN。首先，建立一个具有四层卷积层的神经网络Cent作为基准，以梅尔倒谱系数（MFCC）作为特征输入来对比分析Fnet1、Fnet2和Cent的网络结构特点、计算量、卷积核参数数量及识别准确率，结论是Fnet1仅使用Cnet参数数量的10.3%就可达到86.7%的分类准确率；然后，将MFCC与全局特征向量输入到FnetDNN模型中，使得该模型的识别准确率提高到了94.4%。实验结果表明，Fnet网络模型不仅可以压缩冗余参数，还可以与其他网络相融合，具备模型扩展能力。相似文献

15.

小波包变换与Teager能量算子结合的说话人识别

下载免费PDF全文

祝鹏王成儒《计算机工程与应用》2013,49(9):187-189

在说话人识别系统中,语音特征参数的提取是影响系统性能的关键因素之一。在研究了MFCC参数的基础上,结合MFCC参数在信号的低频部分具有高频率分辨率以及小波包变换可以对信号的高频部分进行分解以提高高频部分的频率分辨率的优点,将二者结合,将Teager能量算子引入到信号高频部分的能量参数求解,构造了一种新的混合特征参数,采用支持向量机实现说话人的分类识别。实验结果表明,该特征参数有效提高了说话人辨识系统的识别率。相似文献

16.

复杂环境下基于自适应深度神经网络的鲁棒语音识别

张开生赵小芬《计算机工程与科学》2022,44(6):1105-1113

在连续语音识别系统中,针对复杂环境(包括说话人及环境噪声的多变性)造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。相似文献

17.

基于卷积神经网络的面罩语音识别

王霞杜桂明王光艳张艳《传感器与微系统》2017,36(10)

针对带噪面罩语音识别率低的问题,结合语音增强算法,对面罩语音进行噪声抑制处理,提高信噪比,在语音增强中提出了一种改进的维纳滤波法,通过谱熵法检测有话帧和无话帧来更新噪声功率谱,同时引入参数控制增益函数;提取面罩语音信号的Mel频率倒谱系数(MFCC)作为特征参数;通过卷积神经网络(CNN)进行训练和识别,并在每个池化层后经局部响应归一化(LRN)进行优化.实验结果表明:该识别系统能够在很大程度上提高带噪面罩语音的识别率. 相似文献

18.

一种改进的人脸识别CNN结构研究

张国云向灿群罗百通郭龙源欧先锋《计算机工程与应用》2017,53(17):180-185

为了克服人脸识别中存在光照、姿态、颜色等噪声的干扰,融合了卷积神经网络与孪生神经网络的优点,提出了一种改进的CNN网络结构,该结构由两个卷积神经网络组成,且共享网络权值,在该结构的训练中采用了差异深度度量学习（DDML）算法。卷积结构有效地去除外界噪声干扰,且在非线性降维中权值共享结构能够自动提取相同特征,DDML算法增加了提取特征的有效性。在ORL、YaleB和AR人脸数据库上实验结果表明,与PCA、CNN等算法相比,识别稳定度高,识别率提升近5个百分点。相似文献

19.

基于遗传算法和小波神经网络的语音识别研究 总被引：1，自引：0，他引：1

斯芸芸徐道连周卓然《微型机与应用》2011,30(16):68-71

小波神经网络算法(WNN)易陷入局部极小,收敛速度慢,全局搜索能力弱,而遗传算法(GA)具有高度并行、随机、自适应搜索性能和全局寻优的特点。因此,将遗传算法和小波神经网络结合起来形成一种训练神经网络的混合算法——GA-WNN算法。仿真实验结果表明,该算法有效地缩短了识别时间,提高了网络训练速度和语音的识别率。相似文献

20.

基于RBF神经网络的抗噪语音识别 总被引：1，自引：0，他引：1

白静张雪英侯雪梅《计算机工程与应用》2007,43(22):28-30

针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF神经网络的抗噪语音识别系统。聚类算法的隐含层训练采用K－均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。相似文献