期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

李宜亭屈丹杨绪魁张昊沈小龙《信号处理》2023,39(3):516-525

Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢。针对此问题,本文提出一种线性注意力机制的语音识别方法。首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度。其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度。最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类（connectionist temporal classification, CTC）损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数。在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升。相似文献

2.

基于音色一致的语音克隆说话人特征提取方法

下载免费PDF全文

李嘉欣张连海李宜亭《信号处理》2023,39(4):719-729

当前基于预训练说话人编码器的语音克隆方法可以为训练过程中见到的说话人合成较高音色相似性的语音,但对于训练中未看到的说话人,语音克隆的语音在音色上仍然与真实说话人音色存在明显差别。针对此问题,本文提出了一种基于音色一致的说话人特征提取方法,该方法使用当前先进的说话人识别模型TitaNet作为说话人编码器的基本架构,并依据说话人音色在语音片段中保持不变的先验知识,引入一种音色一致性约束损失用于说话人编码器训练,以此提取更精确的说话人音色特征,增加说话人表征的鲁棒性和泛化性,最后将提取的特征应用端到端的语音合成模型VITS进行语音克隆。实验结果表明,本文提出的方法在2个公开的语音数据集上取得了相比基线系统更好的性能表现,提高了对未见说话人克隆语音的音色相似度。相似文献

3.

基于HiFi-GAN的改进型高效声码器

下载免费PDF全文

唐君张连海李嘉欣李宜亭《信号处理》2022,38(9):1988-1998

HiFi-GAN声码器通过采用缩减网络层的通道数或层数的方式来有效减少模型参数、提高推理速度,但此种方式也严重损害了生成语音的质量。针对此问题,提出了两点改进措施:1.?采用多尺度卷积策略对输入Mel谱进行处理来有效表征特征信息;2.采用一维深度可分离卷积替换生成器网络中的标准一维卷积。实验结果表明,多尺度卷积策略有效提升了模型性能,提高了生成语音的质量,而一维深度可分离卷积显著减少了模型参数量并加快了模型推理速度。通过将这两者结合,有效提升了HiFi-GAN模型的性能,具体来说,模型参数量约减少了67.72%,在GPU、CPU上的推理速度分别提升了11.72%、28.98%。此外,语音质量也得到略微提升,平均主观意见分（Mean Opinion Score,MOS）提升了0.07,客观语音质量评估（Perceptual Evaluation of Speech Quality,PESQ）得分提升了0.05。相似文献

4.

面向异构处理平台任务调度的麻雀优化算法

沈小龙马金全冀亚玮谢宗甫李宜亭李宇东《电子科技》2024,(1):33-40

针对当前异构信号处理平台中各处理器任务数量分配不均衡、处理器性能发挥不完全以及系统运行效率低的问题，文中提出一种面向异构处理平台的麻雀优化算法。该算法利用了麻雀算法较强的全局寻优能力和麻雀种群内部的高效工作机制。在经典麻雀算法基础上，文中提出了符合任务调度的二进制异或编解码规则，将离散的任务分配方案映射为连续的麻雀位置信息。将处理器负载均衡指数作为适应度函数，选取每次迭代中的最优解；在麻雀遍历任务时，采用任务优先级分流排序策略。对通信密集型任务和计算密集型任务采取不同的计算式得到更符合任务特点的遍历顺序，生成随机任务图，并将所提算法同ICPA(Improved Critical Path Algortthm)算法进行对比。仿真结果表明，相比于ICPA算法，所提算法的负载均衡指数平均优化率为60%,各处理器负载情况更加均衡，能更好地发挥异构处理平台的整体效能。相似文献