排序方式: 共有1条查询结果,搜索用时 0 毫秒
1
1.
语音合成和语音转换等技术正逐渐成为合成语音的主流方法,合成语音对社会稳定和国家安全都具有潜在的风险。为进一步提高合成、转换伪造语音检测的准确率,本文从混合网络模型,特征选择出发,提出了基于CNN-RNN-DNN网络的三种混合网络模型,分别为CNN-LSTM-DNN、CNN-GRU-DNN、CNN-BiLSTM-DNN。模型中CNN部分可以进行下采样,RNN部分解决语音中的时序问题,DNN部分则实现分类功能。每种混合网络模型包含20层网络层。对提取的6种声学特征进行实验,其中CNN-LSTM-DNN+MFCC的组合表现最优,等错误率为5.79%,比ASVspoof2019提供的B02基线系统低28.43%。比较了三种混合网络结合6种特征的表现并增加了其与4种单独网络的对照实验,结果表明本文提出的混合网络模型具有性能稳定、准确率高等优点且MFCC特征及MFCC+LFCC混合特征更适合此模型。 相似文献
1