期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吕浩田马志强王洪彬谢秀兰《中文信息学报》2022,36(6):52-60

针对蒙古语语音识别模型训练时语料资源匮乏,导致的低资源语料无法满足深度网络模型充分训练的问题。该文基于迁移学习提出了层迁移方法,针对层迁移设计了多种迁移策略构建基于CNN-CTC(卷积神经网络和连接时序分类器)的蒙古语层迁移语音识别模型,并对不同的迁移策略进行探究,从而得到最优模型。在10 000句英语语料数据集和5 000句蒙古语语料数据集上开展了层迁移模型训练中学习率选择实验、层迁移有效性实验、迁移层选择策略实验以及高资源模型训练数据量对层迁移模型的影响实验。实验结果表明,层迁移模型可以加快训练速度,且可以有效降低模型的WER;采用自下向上的迁移层选择策略可以获得最佳的层迁移模型;在有限的蒙古语语料资源下,基于CNN-CTC的蒙古语层迁移语音识别模型比普通基于CNN-CTC的蒙古语语音识别模型的WER降低10.18%。相似文献

2.

基于深度神经网络的语音识别系统研究

李伟林文剑马文凯《计算机科学》2016,43(Z11):45-49

语音识别是人机交互模式识别领域的一个重要课题,构建了一种基于深度神经网络的语音识别系统,使用了抗噪对比散度法和抗噪最小平方误差法对模型进行无监督训练;使用了均值归一化进行模型优化, 提高了网络对训练集的拟合度,并且降低了语音识别的错误率;使用多状态激活函数进行了模型优化,这不仅使得不带噪测试和带噪声测试的语音识别错误率进一步下降,并能在一定程度上减轻过拟合现象;并通过奇异值分解和重构的方法对模型进行了降维。实验结果表明,此系统可以在不影响语音识别错误率的基础上极大地降低系统的复杂性。相似文献

3.

基于意图识别的智能语音交互机器人设计

苏岩《自动化与仪器仪表》2024,(1):131-136

为提高智能语音交互机器人语音交互的准确率,提出一种基于意图识别的机器人智能英语语音交互方法。通过引入Glove＿BiGRU＿Self-attention分类预测模型构建意图识别功能模块,并采用ROS分布式架构对系统功能模块进行整合,实现人机的智能语音交互。仿真结果表明,采用所提方法进行的语音意图识别,具有更高的准确率,相较于基于DCNN模型、基于CNN-LSTM模型与基于单向构建的GRU-Self-attention模型的意图识别方法,识别准确率分别高出8.03%、4.07%和2.14%,具有更好的识别效果;在特征提取上,训练时间较传统基于BiLSTM模型的提取方法,BiGRU的训练时间缩短了4倍,训练效率更高。实验结果表明,采用所提意图识别方法搭建的语音交互系统,对用户英语语音指令的识别准确率和识别效率依然拥有较好的结果,识别平均准确率达到了89.72%,识别时间均在0.35 s之内,证明所提方法可以应用于实际语音交互之中。应用实验表明,采用基于意图识别方法搭建的智能语音交互机器人,无论是在问答交互还是控制命令上,都可以准确对用户英语指令进行识别,根据用户要求进行相关回答或完成相应动... 相似文献

4.

基于改进Seq2Seq的翻译机器人纠错系统设计

刘晓娟《自动化与仪器仪表》2023,(4):201-205

针对传统英语翻译的语法纠错系统存在英语语法错误检测准确率低，纠正效果不佳的问题，提出一种基于Seq2Seq神经网络的英语翻译语法纠错模型。首先，采用Seq2Seq神经网络中的Encode部分对输入序列进行建模，并输出此序列的语义向量；然后在Decode部分引入Attention机制，实现原始序列到目标序列的直接映射，从而完成英语语法纠错。实验结果表明，在CoNLL2018数据集的英语语法纠错测试结果中，本模型的准确率、召回率和F_0.5值分别为35.44%、40.68%和32.56%,均高于传统CAMB语法纠错模型。在英语冠词错误纠正结果中，本方法的F_0.5取值为32.36%,比传统UIUC方法和Corpus GEC方法高出了7.02%和2.76%;介词错误纠错实验中，本方法比另外两种方法高出了5.91%和13.15%。综合分析可知，本模型对英语翻译语法纠错准确率和精度更高，对比于传统的语法纠错模型纠错效果更好，可在英语翻译机器人语法纠错系统中进行广泛应用和推广。相似文献

5.

基于知识蒸馏和生成对抗网络的远场语音识别

邬龙黎塔王丽颜永红《软件学报》2019,30(S2):25-34

为了进一步利用近场语音数据来提高远场语音识别的性能,提出一种基于知识蒸馏和生成对抗网络相结合的远场语音识别算法.该方法引入多任务学习框架,在进行声学建模的同时对远场语音特征进行增强.为了提高声学建模能力,使用近场语音的声学模型（老师模型）来指导远场语音的声学模型（学生模型）进行训练.通过最小化相对熵使得学生模型的后验概率分布逼近老师模型.为了提升特征增强的效果,加入鉴别网络来进行对抗训练,从而使得最终增强后的特征分布更逼近近场特征.AMI数据集上的实验结果表明,该算法的平均词错误率（WER）与基线相比在单通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降5.6%和4.7%.在多通道的情况下,在没有说话人交叠和有说话人交叠时分别相对下降6.2%和4.1%.TIMIT数据集上的实验结果表明,该算法获得了相对7.2%的平均词错误率下降.为了更好地展示生成对抗网络对语音增强的作用,对增强后的特征进行了可视化分析,进一步验证了该方法的有效性. 相似文献

6.

基于MTL-DNN系统融合的混合语言模型语音识别方法

范正光屈丹李华张文林《数据采集与处理》2017,32(5):1012-1021

基于混合语言模型的语音识别系统虽然具有可以识别集外词的优点,但是集外词识别准确率远低于集内词。为了进一步提升混合语音识别系统的识别性能,本文提出了一种基于互补声学模型的多系统融合方法。首先,通过采用不同的声学建模单元,构建了两套基于隐马尔科夫模型和深层神经网络(Hidden Markov model and deep neural network, HMM-DNN）的混合语音识别系统;然后,针对这两种识别任务之间的关联性,采用多任务学习(Multi-task learning DNN, MTL-DNN)思想,实现DNN网络输入层和隐含层的共享,并通过联合训练提高建模精度。最后,采用ROVER(Recognizer output voting error reduction)方法对两套系统的输出结果进行融合。实验结果表明,相比于单任务学DNN(Single-task learning DNN, STL-DNN）建模方式,MTL-DNN可以获得更好的识别性能;将两个系统的输出进行融合,能够进一步降低词错误率。相似文献

7.

基于时域建模的自动语音识别

王海坤伍大勇刘江王士进胡国平胡郁《计算机工程与应用》2017,53(20):243-248

端到端神经网络能够根据特定的任务自动学习从原始数据到特征的变换,解决人工设计的特征与任务不匹配的问题。以往语音识别的端到端网络采用一层时域卷积网络作为特征提取模型,递归神经网络和全连接前馈深度神经网络作为声学模型的方式,在效果和效率两个方面具有一定的局限性。从特征提取模块的效果以及声学模型的训练效率角度,提出多时间频率分辨率卷积网络与带记忆模块的前馈神经网络相结合的端到端语音识别模型。实验结果表明,所提方法语音识别在真实录制数据集上较传统方法字错误率下降10%,训练时间减少80%。相似文献

8.

基于改进DFSMN模型的语音交互服务系统设计

王晓丹谢先明李活《自动化与仪器仪表》2024,(1):150-154

为了进一步提升服务机器人的自动化语音交互服务质量,提出一种改进的DFSMN-CTC模型,以提升语音交互系统的识别能力。其中,对传统的DFSMN模型中记忆模块的结构以及记忆单元之间的连接方式进行改进,然后将改进得到的模型与CTC进行结合,以实现日语语音的识别。实验结果表明,与其他建模准则构建的语音识别模型以及改进前的DFSMN模型相比,改进的DFSMN-CTC模型能够取得效果更好的语音交互效果,词错误率分别降低了6.42%和6.17%;与其他语音识别模型相比,改进的DFSMN-CTC模型在各种实验条件下均能保持最低的平均字错误率,语音识别精度较高。综上,使用改进的DFSMN-CTC模型所构建的日语语音交互系统能够实现效果良好的日语语音交互,实现更好的日语语音交互服务,具有一定的实际使用价值。相似文献

9.

基于声学模型共享的零资源韩语语音识别

王皓宇 JEON Eunah 张卫强李科黄宇凯《数据采集与处理》2023,38(1):93-100

精准的语音识别系统通常使用大量的有标注语音数据训练得到,但现有的开源大规模数据集只包含一些广泛使用的语言,诸多小语种则面临着训练数据不足的问题。声学模型共享方法给出了这个问题的一种解决方法,它利用不同语种间的相似性,可以实现不需要小语种语音数据的语音识别。本文将声学模型共享方法扩展到韩语语音识别上,利用汉语声学模型构建韩语和汉语之间的音素映射关系。在不使用任何韩语语音数据的情况下构建的语音识别系统在Zeroth测试集上的字错误率达到了27.33%。同时本文还测试了不同映射方式之间的差异,结果表明这种共享模型的音素映射应当采用将目标语言词汇映射为源语言音素的方式。相似文献

10.

资源稀缺蒙语语音识别研究 总被引：1，自引：1，他引：0

张爱英倪崇嘉《计算机科学》2017,44(10):318-322

随着语音识别技术的发展,资源稀缺语言的语音识别系统的研究吸引了更广泛的关注。以蒙语为目标识别语言,研究了在资源稀缺的情况下(如仅有10小时的带标注的语音)如何利用其他多语言信息提高识别系统的性能。借助基于多语言深度神经网络的跨语言迁移学习和基于多语言深度Bottleneck神经网络的抽取特征可以获得更具有区分度的声学模型。通过搜索引擎以及网络爬虫的定向抓取获得大量的网页数据,有助于获得文本数据,以增强语言模型的性能。融合多个不同识别结果以进一步提高识别精度。与基线系统相比,多种系统融合的识别绝对错误率减少12%。相似文献

11.

基于领域知识的语音识别鲁棒性增强技术研究

王斐斐贲可荣张献《计算机工程与科学》2023,(12):2155-2164

针对语音识别软件在有噪声干扰时识别准确率降低的问题，为确保使用语音控制操作的安全性，提出一种基于领域知识的语音识别鲁棒性增强方法。以舰艇操控为应用背景，建立舰艇操控领域知识图谱；从航海图书资料和经典海战影视资料中提取舰艇操控指令，构建舰艇操控指令中文语音数据集；提出一种嵌入领域知识的解码方法，通过计算识别结果与领域知识图谱的匹配度对输出控制指令进行修正。实验结果表明，相较于目前流行的连接时序分类解码方法和基于注意力机制的解码方法，所提解码方法在识别信噪比为10 dB和20 dB的带噪语音时字错误率分别下降了4.0%和1.5%,指令识别准确率分别提升了10.3%和6.3%,提高了语音识别模型识别中文指令的鲁棒性。相似文献

12.

面向平行语料库和多层次语言特征的英语翻译系统研究

晏芳罗刚峰司海峰《自动化与仪器仪表》2023,(3):213-217

针对传统英语翻译系统对于平行语料库和多层次语言特征的提取准确率低、翻译效果不佳的问题，提出基于深度可分离卷积的英语神经机器翻译方法。此方法根据英语的语言特征，将英语切分为词、音节、字符、子词四种不同层次的语言粒度，以此降低英语低频词数量；然后通过深度可分离卷积对基于注意力机制的神经机器翻译模型进行改进，得到深度可分离卷积的英语神经机器翻译模型。实验结果表明，在对汉语～汉语翻译的切分结果中，本模型的在英汉翻译的切分语粒度BLEU分数均保持在21%及以上，均高于传统的CNN模型和Transformer机器翻译模型。且对平行语料和多层次语言特征进行测试发现，本模型的训练时间仅为16 h, CNN模型和Transformer机器翻译模型的训练时间分别为18 h和24 h,训练时长比本模型高出11%左右。由此可知，本模型可提升英语翻译系统计算效率，模型训练和学习能力明显增强，计算量减少，特征提取效果显著提升。相似文献

13.

维吾尔语连续语音识别声学模型优化研究

下载免费PDF全文

努尔麦麦提·尤鲁瓦斯吾守尔·斯拉木《计算机工程与应用》2013,49(2):145-147

综合了语音识别中常用的高斯混合模型和人工神经网络框架优点的Tandem特征提取方法应用于维吾尔语声学模型训练中,经过一系列后续处理,将原始的MFCC特征转化为Tandem特征,以此作为基于隐马尔可夫统计模型的语音识别系统的输入,并使用最小音素错误区分性训练准则训练声学模型,进而完成在测试集上的识别实验。实验结果显示,Tandem区分性训练方法使识别系统的单词错误率比原先的基于最大似然估计准则的系统相对减少13%。相似文献

14.

结合Transformer的轻量化中文语音识别

沈逸文孙俊《计算机应用研究》2023,40(2)

近年来,深度神经网络模型在语音识别领域成为热门研究对象。然而,深层神经网络的构建依赖庞大的参数和计算开销,过大的模型体积也增加了其在边缘设备上部署的难度。针对上述问题,提出了基于Transformer的轻量化语音识别模型。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络,即Macaron-Net结构,并引入低秩矩阵分解,实现了模型压缩;最后使用稀疏注意力机制,提升了模型的训练速度和解码速度。为了验证模型,在Aishell-1和aidatatang_200zh数据集上进行了测试。实验结果显示,所提模型与Open-Transformer相比,所提模型在字错误率上相对下降了19.8%,在实时率上相对下降了32.1%。相似文献

15.

基于深度学习的英语翻译机器人错误文本检测系统研究

鲁芳《自动化与仪器仪表》2023,(3):284-290

针对传统英语翻译机器人在错误文本检测中存在语法纠错准确率低的问题，以英语翻译机器人错误检测系统为研究对象，提出构建一个双编码器的语法错误纠正模型。此模型分别采用Transformer编码器和Bi-GRU编码器对句子上下文信息和源句进行特征提取；之后利用解码器端的门控结构对输入的相关特征信息进行整合，由此实现各个特征与注意力机制的适配。实验结果表明，在CoNLL-2014数据集中，本模型的精确率、召回率和F_0.5分别取值为85.42%、42.31%和75.33%,均高于传统的Nested-GRU*模型和SMT+NMT+FST-LM混合模型，本模型的F_0.5值比前两者模型分别高出了32.97%和14.62%。且本模型的GLEU值取值为85.93%,超出前两种模型39.14%和25.62%。由此可知，本模型可实现英语翻译机器人语法错误准确检测和纠正，语法纠错精确率高达81.08%,可在英语错误文本检测系统中进行应用。相似文献

16.

贵阳方言工厂指令识别

李凯飞徐凌桦《微处理机》2022,(1):48-51

针对贵阳工厂环境下口头任务对接缺乏依据性、出现事故难于追责的问题,引入深度学习模型改善贵阳方言工厂指令识别效果.自制贵阳方言工厂指令数据集,搭建指令识别系统,依次训练六种模型,其中包括拥有9层隐藏层的深度神经网络.在同一测试集下,系统随训练的进行逐渐提升性能,在DNN模型下识别错误率降至最低,远低于单音素模型识别错误率... 相似文献

17.

面向多人语音识别的对话系统研究

杨雪霁《自动化与仪器仪表》2023,(8):286-290

针对传统英语对话系统受环境噪声影响，出现多人混合语音分离现象，造成多人英语语音识别和对话效果降低的问题，提出一种基于深度学习的语音增强和传统阵列信号处理的多人英语语音分离系统。首先，采用基于长短时记忆网络LSTM的多目标语音增强算法捕捉英语语音序列的长时特性；然后建立一个两阶段的单通道多人语音分离框架提取目标说话人语音；最后将提取语音与阵列算法进行融合，并通过空间信息实现目标说话人英语语音精确估计。结果表明，相较于DNN-DM模型和LSTM-IRM模型，提出的LSTM-DM模型的信噪比指标明显更高，此模型的平均PESQ由2.66提升至2.95,增益为0.074%。由此说明，LSTM-DM模型的英语语音去噪和语音增强效果更好。提出的特定说话人前端系统的英语语音对话词错误率为65.3%,对比于Officoal Beamformlt系统和CGMM3Mask Fusion模型下降了14.6%和5.1%。说明此系统可实现多人混合英语语音分离，具备一定的有效性。相似文献

18.

基于语音识别技术的在线语言交互学习系统的设计与实现

范雪扬《自动化与仪器仪表》2023,(7):187-190+195

当前中外语学习口语环境的不足问题已导致学生在语言应用过程中出现了许多困难。研究针对该问题提出了一种基于语音识别技术的在线语音交互学习系统。从语音输入质量入手，在预处理步骤上进行语言信号时域特征的变换，针对计算量和存储空间性能对动态时间规整算法进行改进，并基于改进算法构建在线韩语交互学习系统。实验结果表明，优化算法与混合模式方案，在不同的噪音与信嗓比背景下，混合模型的音频识别错误率均低于30%,在40 dB的条件下识别错误率低于16%。融入优化算法的教学系统在40 dB的条件下错误率低于13%。说明HMM与DBN混合模型更适用于韩语语言识别教学系统，此次设计的基于语音识别的语言交互学习系统具有一定应用价值。相似文献

19.

基于迁移学习的交通标志识别

卢健陈泽民马成贤何金鑫《测控技术》2019,38(11):81-85

传统的交通标志识别方法主要基于特征提取和机器学习技术,易受外部环境干扰,特征学习和特征表达能力较弱,识别准确率低。而基于深度学习的交通标志识别,对学习数据要求较高,模型在小样本数据学习中学习效率低。针对上述问题,提出了一种基于迁移学习的交通标志识别方法。该方法首先将ImageNet数据集中训练好的Inceptionv3模型的卷积层和瓶颈层进行迁移;然后在瓶颈层后接上全链接层,从而构建出迁移学习的模型;最后利用公开数据集和公开场景的交通标志图像进行实验训练模型验证。实验结果表明,与现有主流的交通标志识别方法相比,所提方法在微量数据集下有较高的识别率,预测准确率达96%以上。相似文献

20.

复杂环境下基于自适应深度神经网络的鲁棒语音识别

张开生赵小芬《计算机工程与科学》2022,44(6):1105-1113

在连续语音识别系统中,针对复杂环境（包括说话人及环境噪声的多变性）造成训练数据与测试数据不匹配导致语音识别率低下的问题,提出一种基于自适应深度神经网络的语音识别算法。结合改进正则化自适应准则及特征空间的自适应深度神经网络提高数据匹配度;采用融合说话人身份向量i-vector及噪声感知训练克服说话人及环境噪声变化导致的问题,并改进传统深度神经网络输出层的分类函数,以保证类内紧凑、类间分离的特性。通过在TIMIT英文语音数据集和微软中文语音数据集上叠加多种背景噪声进行测试,实验结果表明,相较于目前流行的GMM-HMM和传统DNN语音声学模型,所提算法的识别词错误率分别下降了5.151%和3.113%,在一定程度上提升了模型的泛化性能和鲁棒性。相似文献