期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘聪万根顺高建清付中华《计算机应用》2023,43(2):380-384

针对传统的语音识别系统采用数据驱动并利用语言模型来决策最优的解码路径,导致在部分场景下的解码结果存在明显的音对字错的问题,提出一种基于韵律特征辅助的端到端语音识别方法,利用语音中的韵律信息辅助增强正确汉字组合在语言模型中的概率。在基于注意力机制的编码-解码语音识别框架的基础上,首先利用注意力机制的系数分布提取发音间隔、发音能量等韵律特征;然后将韵律特征与解码端结合,从而显著提升了发音相同或相近、语义歧义情况下的语音识别准确率。实验结果表明,该方法在1 000 h及10 000 h级别的语音识别任务上分别较端到端语音识别基线方法在准确率上相对提升了5.2%和5.0%,进一步改善了语音识别结果的可懂度。相似文献

2.

基于HOPE-CTC的端到端语音识别

徐冬冬蒋志翔《计算机工程与设计》2021,42(2):462-467

为增强端到端语音识别模型的鲁棒性和特征提取的有效性,对瓶颈特征提取网络进行研究,提出采用基于联合优化正交投影和估计的端到端语音识别模型.通过连接时序分类损失函数训练瓶颈特征提取网络,摆脱对语言学和对齐信息的先验知识的依赖,在解码输出部分添加注意力机制,实现两种不同的端到端模型的融合.在中文数据集AISHELL-1上的实验结果表明,与传统识别模型相比,该改进端到端模型更适用于带噪语音的识别任务. 相似文献

3.

端到端维吾尔语语音识别研究

丁枫林郭武孙健《小型微型计算机系统》2020,(1):19-23

近几年来,基于端到端模型的语音识别系统因其相较于传统混合模型的结构简洁性和易于训练性而得到广泛的应用,并在汉语和英语等大语种上取得了显著的效果.本文将自注意力机制和链接时序分类损失代价函数相结合,将这种端到端模型应用到维吾尔语语音识别上.考虑到维吾尔语属于典型的黏着语,其丰富的构词形式使得维吾尔语的词汇量异常庞大,本文引入字节对编码算法进行建模单元的生成,从而获得合适的端到端建模输出单元.在King-ASR450维吾尔语数据集上,提出的算法明显优于基于隐马尔可夫模型的经典混合系统和基于双向长短时记忆网络的端到端模型,最终识别词准确率为91.35%. 相似文献

4.

混合连接时间/注意力机制端到端语音识别

陈聪贺杰陈佳《控制工程》2021,28(3):585-591

为提高常规自动语音识别(ASR)系统的精度,提出基于隐式马尔可夫模型混合连接时间分类/注意力机制的端到端ASR系统设计方法。首先,针对可观测时变序列语音识别过程中存在的连续性强、词汇量大的语音识别难点,基于隐式马尔可夫模型对语音识别过程进行模拟,实现了语音识别模型参数化;其次,使用连接时间分类目标函数作为辅助任务,在多目标学习框架中训练语音识别过程的关注模型编码器,可降低序列级连接时间分类目标近似度,实现语音识别过程精度提升;最后,通过在自建语音识别库上的仿真实验,验证所提算法在识别效率和精度上的性能优势。相似文献

5.

基于多头注意力机制的端到端语音情感识别

杨磊赵红东于快快《计算机应用》2022,42(6):1869-1875

针对语音情感数据集规模小且数据维度高的特点,为解决传统循环神经网络（RNN）长程依赖消失和卷积神经网络（CNN）关注局部信息导致输入序列内部各帧之间潜在关系没有被充分挖掘的问题,提出一个基于多头注意力（MHA）和支持向量机（SVM）的神经网络MHA-SVM用于语音情感识别（SER）。首先将原始音频数据输入MHA网络来训练MHA的参数并得到MHA的分类结果;然后将原始音频数据再次输入到预训练好的MHA中用于提取特征;最后通过全连接层后使用SVM对得到的特征进行分类获得MHA-SVM的分类结果。充分评估MHA模块中头数和层数对实验结果的影响后,发现MHA-SVM在IEMOCAP数据集上的识别准确率最高达到69.6%。实验结果表明同基于RNN和CNN的模型相比,基于MHA机制的端到端模型更适合处理SER任务。相似文献

6.

混合CTC/Attention模型在普通话识别中的应用

许鸿奎张子枫卢江坤周俊杰胡文烨姜彤彤《计算机与现代化》2022,(8):1-6

基于链接时序分类（Connectionist Temporal Classification, CTC）的端到端语音识别模型具有结构简单且能自动对齐的优点,但识别准确率有待进一步提高。本文引入注意力机制（Attention）构成混合CTC/Attention端到端模型,采用多任务学习方式,充分发挥CTC的对齐优势和Attention机制的上下文建模优势。实验结果表明,当选取80维FBank特征和3维pitch特征作为声学特征,选择VGG-双向长短时记忆网络（VGG-Bidirectional long short-time memory, VGG-BiLSTM）作为编码器应用于中文普通话识别时,该模型与基于CTC的端到端模型相比,字错误率下降约6.1%,外接语言模型后,字错误率进一步下降0.3%;与传统基线模型相比,字错误率也有大幅度下降。相似文献

7.

基于端到端语音识别的关键词检索技术研究

杨润延程高峰刘建《计算机科学》2022,49(1):53-58

近十年来,端到端的语音识别框架发展迅速.区别于传统的基于隐马尔可夫模型的语音识别框架,端到端语音识别拥有众多新特性,而且可以达到相同或更优秀的性能.因此,端到端语音识别吸引了越来越多的关注,已经成为了与传统语音识别并列的第二类主流框架.针对端到端语音识别无法提供关键词检索所需的关键词准确时间起止点与可靠置信度的问题,提... 相似文献

8.

抗干扰通信网端到端延迟上界仿真分析

闫新娟刘芳菊严亚周《计算机仿真》2021,38(7):176-180

考虑到通信网端到端的延迟抖动模式,为了降低数据传输耗时,进行抗干扰通信网端到端延迟上界仿真分析.根据MAC层中协议,计算抗干扰通信网端到端延迟,确定上界以及通信网端到端延迟抖动上界,在通信网式中模型中,引入漂移因子,完成通信网端到端延迟上界演算过程,实现抗干扰通信网端到端延迟上界仿真分析.仿真结果表明,上述方法的数据传输丢包率实验结果、通信网模型构建开销实验结果以及通信网模型构建与数据传输仿真耗时比重均较优,可为日后的通信网端到端服务提供参考. 相似文献

9.

基于WaveNet的端到端语音合成方法

邱泽宇屈丹张连海《计算机应用》2019,39(5):1325-1329

针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题，提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础，首先将输入文本转化为one-hot向量，然后引入注意力机制获取梅尔声谱图，最后利用WaveNet后端处理网络重构语音信号的相位信息，从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30，针对英语、汉语两个语种进行了实验，实验结果表明平均意见得分（MOS）分别为3.31、3.02，在合成自然度方面优于采用Griffin-Lim算法的端到端语音合成系统以及参数式语音合成系统。相似文献

10.

语音识别及端到端技术现状及展望

鱼昆张绍阳侯佳正张少博《计算机系统应用》2021,30(3):14-23

通过对语音识别技术的发展梳理,简单介绍了语音识别的历史和应用现状,并将传统语音识别的技术和当前的研究进展进行描述.传统语音识别采用基于统计的方法,采用声谱特征,在GMM-HMM混合结构上进行训练和匹配.当前的语音识别模型主要基于深度学习的方法,采用CNN、RNN都可以有效的进行特征提取从而建立声学模型.进一步的研究采用了端到端的技术,避免了多个模型间的误差传导.端到端技术主要有CTC技术和attention技术,最新的模型和方法着重研究了attention技术,并在尝试进行与CTC的融合以达到更好的效果.最后结合作者自身的理解,概括了语音识别当前所面临问题和未来发展方向. 相似文献

11.

语音识别中声学模型研究综述

叶硕褚钰王祎李田港《计算机技术与发展》2020,(3):181-186

智能语音技术包含语音识别、自然语言处理、语音合成三个方面的内容,其中语音识别是实现人机交互的关键技术,识别系统通常需要建立声学模型和语言模型。神经网络的兴起使声学模型数量急剧增加,基于神经网络的声学模型与传统识别模型相结合的方式,极大地推动了语音识别的发展。语音识别作为人机交互的前端,具有许多研究方向,文中着重对语音识别任务中的文本识别、说话人识别、情绪识别三个方向的声学模型研究现状进行归纳总结,尽可能对语音识别技术的演化进行细致介绍,为以后的相关研究提供有价值的参考。同时对目前语音识别的主流方法进行概括比较,介绍了端到端的语音识别模型的优势,并对发展趋势进行分析展望,最后提出当前语音识别任务中面临的挑战。相似文献

12.

维度语音情感识别研究综述

李海峰陈婧马琳薄洪健徐聪李洪伟《软件学报》2020,31(8):2465-2491

情感识别是多学科交叉的研究方向,涉及认知科学、心理学、信号处理、模式识别、人工智能等领域的研究热点,目的是使机器理解人类情感状态,进而实现自然人机交互.本文首先从心理学及认知学角度介绍了语音情感认知研究进展,详细介绍了情感的认知理论、维度理论、脑机制以及基于情感理论的计算模型,旨在为语音情感识别提供科学的情感理论模型.然后,从人工智能角度系统地总结了目前维度情感识别的研究现状和发展,包括语音维度情感数据库、特征提取、识别算法等技术要点.最后,分析了维度情感识别技术目前面临的挑战以及可能的解决思路,对未来研究方向进行了展望. 相似文献

13.

基于Transformer-ESIM注意力机制的多模态情绪识别

下载免费PDF全文

徐志京高姗《计算机工程与应用》2022,58(10):132-138

为了提高语音和文本融合的情绪识别准确率,提出一种基于Transformer-ESIM(Transformer-enhanced sequential inference model)注意力机制的多模态情绪识别方法.传统循环神经网络在语音和文本序列特征提取时存在长期依赖性,其自身顺序属性无法捕获长距离特征,因此采用Tra... 相似文献

14.

多模态人机交互综述

下载免费PDF全文

陶建华巫英才喻纯翁冬冬李冠君韩腾王运涛刘斌《中国图象图形学报》2022,27(6):1956-1987

多模态人机交互旨在利用语音、图像、文本、眼动和触觉等多模态信息进行人与计算机之间的信息交换。在生理心理评估、办公教育、军事仿真和医疗康复等领域具有十分广阔的应用前景。本文系统地综述了多模态人机交互的发展现状和新兴方向,深入梳理了大数据可视化交互、基于声场感知的交互、混合现实实物交互、可穿戴交互和人机对话交互的研究进展以及国内外研究进展比较。本文认为拓展新的交互方式、设计高效的各模态交互组合、构建小型化交互设备、跨设备分布式交互、提升开放环境下交互算法的鲁棒性等是多模态人机交互的未来研究趋势。相似文献

15.

智能机器狗的语音控制模型研究

下载免费PDF全文

闵华松刘冬王田苗《计算机工程》2012,38(1):188-191

阐述语音人机交互手段的必要性及意义,提出一种基于语音控制的机器狗系统解决方案。该系统利用HTK和Julius构建大词汇量连续的语音识别平台,采用语音识别技术提取语音命令用于机器狗控制,并结合有限状态机的控制理论设计机器狗控制系统模型。测试结果表明,该系统能较好地识别用户语音命令,控制系统模型能有效完成机器狗在不同状态下的控制任务。相似文献

16.

Extraction of visual features for lipreading 总被引：4，自引：0，他引：4

Matthews I. Cootes T.F. Bangham J.A. Cox S. Harvey R. 《IEEE transactions on pattern analysis and machine intelligence》2002,24(2):198-213

The multimodal nature of speech is often ignored in human-computer interaction, but lip deformations and other body motion, such as those of the head, convey additional information. We integrate speech cues from many sources and this improves intelligibility, especially when the acoustic signal is degraded. The paper shows how this additional, often complementary, visual speech information can be used for speech recognition. Three methods for parameterizing lip image sequences for recognition using hidden Markov models are compared. Two of these are top-down approaches that fit a model of the inner and outer lip contours and derive lipreading features from a principal component analysis of shape or shape and appearance, respectively. The third, bottom-up, method uses a nonlinear scale-space analysis to form features directly from the pixel intensity. All methods are compared on a multitalker visual speech recognition task of isolated letters 相似文献

17.

基于域内全局流标签的可扩展QoS模型

熊轲熊舸张煜裘正定《软件》2012,(8):14-19

针对互联网现有服务质量(QoS:quality of service)模型的扩展性差、端到端延时高等问题,提出了基于域内全局流标签的QoS保障模型。该模型以WFQ队列调度模型为基础,采用域内全局流标签进行资源预留和路由转发,能够实现灵活的服务质量保证,具有更强的可扩展性。在此基础上,利用网络微积分理论对所提模型进行了端到端延时分析,给出了该模型端到端服务曲线和延时上界的表示式。理论分析和数值实验表明基于域内全局流标签的QoS保障模型具有比现有模型更低的端到端延时上界。相似文献

18.

基于Kaldi的语音识别

王凯马明栋《计算机技术与发展》2021,(1)

人工智能技术是当前计算机科学的研究热点,人机通信是人工智能技术的重要组成之一。作为人机通信主要方法之一的语音交互也一直是科学家的研究热点,语音交互技术的关键是语音识别。而目前大多语音识别软件要么功能单一,要么价格昂贵,Kaldi作为新兴的开源语音识别工具,凭借其强大的功能和简单的获取渠道逐渐流行。该文介绍了语音识别技术的发展历程,Kadli软件的基本架构和其所具有的独特优势,语音识别的一般处理流程,多层神经网络的基本结构以及多层神经网络在语音识别当中的应用。对基于Kaldi软件当中的HMM-DNN模型,使用中文数据集训练该模型,搭建一个完整的语音识别系统。通过该系统,不仅能展现出Kaldi软件丰富强大的功能,同时也为语音识别研究人员选择合适的工具提供了新的思路。相似文献

19.

语音情感识别研究综述

下载免费PDF全文

罗德虎冉启武杨超豆旺《计算机工程与应用》2022,58(21):40-52

语音是人们传递信息内容的同时又表达情感态度的媒介,语音情感识别是人机交互的重要组成部分。由语音情感识别的概念和历史发展进程入手,从6个角度逐步展开对语音情感识别研究体系进行综述。分析常用的情感描述模型,归纳常用的情感语音数据库和不同类型数据库的特点,研究语音情感特征的提取技术。通过比对3种语音情感识别方法的众多学者的多方面研究,得出语音情感识别方法可期望应用场景的态势,展望语音情感识别技术的挑战和发展趋势。相似文献