基于长时平均频谱的"文本无关"话者识别 Text-independent speaker identification based on long-term average spectrums期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于长时平均频谱的"文本无关"话者识别

引用本文：	王宏,向大威.基于长时平均频谱的"文本无关"话者识别[J].声学技术,2002,21(1):59-62.

作者姓名：	王宏向大威

作者单位：	1. 南京航空航天大学电子系,南京,210016 2. 中国科学院东海研究站,上海,200032

摘要：	文章在动窗离散傅立叶变换为基础获取说话人的长时平均频谱（即短时频谱的长时平均），然后将长时平均频谱经过能量归一化和频率归一化后作为“文本无关”话者识别的语音特征。分析之前，语音样本经过频域预知权和时域汉明窗加权处理，并利用帧能量门限自动去除了样本中的寂静段。通过在小人群范围内对该方法的大量实验，得到很好的话者识别效果。另外，作为“文本无关”话者识别的一个重要辅助手段，文章还利用短时频谱分析给出了话者语音样本的窄带三维语图和宽带三维语图，它们能清晰地给出话者语音的时变频率特征。
关键词：	说话人识别文本无关长时平均频谱三维语图时变频率特征语音识别信号处理
文章编号：	1000-3630(2002)0102-0059-04
修稿时间：	2000年8月16日
Text-independent speaker identification based on long-term average spectrums

Abstract:

Keywords:
本文献已被维普万方数据等数据库收录！