基于多音素类模型的文本无关短语音说话人识别 |
| |
作者姓名: | 张陈昊 郑方 王琳琳 |
| |
作者单位: | 清华大学计算机科学与技术系,清华信息科学技术国家实验室技术创新和开发部语音和语言技术中心,信息技术研究院语音和语言技术中心 |
| |
基金项目: | 国家自然科学基金项目(61271389);国家“九七三”重点基础研究发展计划(2013CB329302) |
| |
摘 要: | 对于基于Gauss混合模型-通用背景模型(Gaussianmixure model-universal background model,GMM-UBM)方法的文本无关说话人识别,当测试语音时长缩短到很短时,识别率会严重下降。为了充分利用文本内容信息,该文提出了一种基于K-top多音素类模型混合(KPCMMM)的建模方法。在音素识别阶段,利用语音识别得到训练语音的音素序列,在说话人识别阶段利用音素序列对每个说话人训练多个音素类模型,测试语音则在最相近的音素类模型上进行打分判决,K是选取的相近音素类数。由于音素类定义的不同,KPCMMM方法分为基于专家知识和数据驱动这两类。实验结果显示选择合适的K值可以得到更好的识别结果。不同的音素类定义方法的比较实验结果显示:当测试语音时长小于2s时,对比GMM-UBM基线系统,该方法的等错误率(EER)相对下降38.60%。
|
关 键 词: | 短语音说话人识别 语音识别 音素类多模型 |
本文献已被 CNKI 等数据库收录! |
|