共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
针对传统环境音分类模型对环境音特征提取不充分,以及卷积神经网络用于环境音分类时全连接层易造成过拟合现象的问题,提出了梅尔倒谱系数(MFCC)、深层卷积和Bagging算法相结合的环境音分类方法。首先,针对原始音频文件,利用预加重、加窗、离散傅里叶变换、梅尔滤波器转换、离散余弦映射等方法建立梅尔倒谱系数特征模型;然后,将特征模型输入卷积深度网络进行第二次特征提取;最后,借鉴强化学习思想,用Bagging集成算法集成线性判别分析器、支持向量机(SVM)、Softmax回归、XGBoost四个模型,以投票预测的形式对网络输出结果进行预测。实验结果表明,所提方法能够有效提高对环境音的特征提取能力和深层网络在环境音分类上的抗过拟合能力。 相似文献
3.
在伴随着外部噪声的情况下,待识别的声纹美尔频率倒谱系数特征各项属性很容易受到外部噪声的干扰发生改变,造成声纹特征的识别的精度不高.为提高精度,提出了一种用支持向量机的美尔频率倒谱系数特征干扰去除算法.确定分类决策函数时充分考虑美尔频率倒谱系数与声纹中心以及噪声之间的关系,并且将声纹特征引入核函数,将原空间样本数据通过非线性变换映射到高维特征空间,在高维空间中求最优或广义最优分类面,实现对语音特征的干扰消除.实验表明,利用改进算法实现了声纹特征中过零率,倒谱特征、矩形窗和汉明窗长的短时能量函数特征的优化. 相似文献
4.
提出了一种抗噪声语音特征。首先计算语音信号单边自相关序列的差分序列,再计算该差分序列的线性预测系数,进一步求出例说系数。实验证明,传统的线性预测例谱系数和边自相关序列的一性预测倒谱数相比,采用单边自相关序列差分序列的线性预测倒谱系数作为语音信号的特征矢量,可以提高语音识别系统对带噪音语音的识别率。 相似文献
5.
为提高听障患者病理语音的检测效果,提出一种融合发音动作特征和声学特征的检测方法.分析病理语音和正常语音发音动作特征的差异,提取位移、速度两种发音动作特征,提取梅尔倒谱系数、基频、共振峰3种声学特征,对两类特征归一化处理,使用核主成分分析法进行降维,在支持向量机、随机森林、多层感知机中测试特征的检测性能.实验结果表明,发音动作特征和声学特征同样有效,两类特征构成的融合特征检测效果优于单一特征,验证该方法提高了病理语音的检测效果. 相似文献
6.
7.
为了提高利用高压水射流靶物反射声信号识别靶物材质的效率,针对地雷探测过程常见的地雷、石块、砖块和木块4种靶物,采用不同的特征提取方法来识别靶物材质。在分析Mel频率倒谱系数及小波包变换倒谱系数基本原理的基础上,结合靶物反射声信号的特点,提出了一种基于Mel频率倒谱和小波包变换倒谱特征融合的特征提取方法:利用小波包变换将原始靶物反射声信号划分为若干子频段,选取其中一个子频段作为低频和高频的划分层;低频部分提取Mel频率倒谱系数作为特征值,高频部分则提取小波包变换倒谱系数作为特征值,将2组特征值线性合并为一组新的特征向量,用于靶物材质的识别。采用最小二乘支持向量机建立多分类模型,验证基于单一特征和基于特征融合的特征提取方法的识别率。实验结果表明,在取得低频与高频的最佳划分层时,基于特征融合的特征提取方法的平均识别率达到82.812 5%,较单一的利用Mel频率倒谱系数或小波包变换倒谱系数作为特征向量时的平均识别率分别提高了10.312 5%和7.812 5%。 相似文献
8.
由于环境声音复杂的结构,环境声音识别是一个具有挑战性的问题。本文提出一种将特征融合与改进卷积神经网络算法相结合的环境音识别方法。首先针对原始音频文件,提取从波形中学习到的特征以及传统音频特征,分别为MFCC(梅尔倒谱系数)、GFCC(伽玛通频率倒谱系数)、频谱对比度和CQT(恒定Q变换);然后将提取到的特征分别输入到端到端的神经网络SF-CNN和多尺度卷积神经网络MS-CNN中进行识别;最后根据D-S证据理论决策规则进行决策级融合,输出最终识别结果。通过在公开数据集ESC-50进行的实验结果表明,本文提出的模型能够提高识别准确率,且优于单特征模型,更适用于复杂的声学场景。 相似文献
9.
10.
声学场景分类技术可以通过在公共区域中录制的音频分析出它的录制环境, 在日常生活中发挥着重要的作用. 与传统分类问题类与类之间没有关系不同, 声学场景分类的类别间存在着层次结构关系(父类与子类), 如机场和购物中心的父类为室内. 而现有的方法在设计时并未考虑声学场景分类任务的这一特性, 忽略了父类和子类间的依赖关系. 因此, 本文利用声学场景类别间的层次结构关系, 提出了一种基于层次信息融合的声学场景分类方法. 该方法为父类和子类分别设计了单独的分类器, 在子类分类的过程中融合了父类的信息, 并设计了层次依赖损失来对预测的父类和子类不匹配的情况进行惩罚. 在TAU城市声学场景2020移动开发数据集上的实验结果表明, 基于层次信息融合的方法有效地提升了声学场景分类模型的性能, 分类准确率提升了1.1%. 相似文献
11.
12.
提出将声学特征与语义特征相结合来判断语音倾向性的方法.首先从语音中分别提取语义特征及声学特征,然后将语义特征与声学特征进行组合,最后用基于SVM的两步分类方法进行训练和识别.分析和比较了常用的特征及组合,发现将语义特征与声学特征结合起来后效果明显,比单独使用语义特征最高能提高3%,比单独用声学特征的识别率最高能提高14%. 相似文献
13.
该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。 相似文献
14.
Mel频率倒谱系数(MFCC)与线性预测倒谱系数(LPCC)融合算法只能反映语音静态特征,且LPCC对语音低频局部特征描述不足。为此,提出将希尔伯特黄变换(HHT)倒谱系数与相对光谱一感知线性预测倒谱系数(RASTA—PLPCC)融合,得到一种既反映发声机理又体现人耳感知特性的说话人识别算法。HHT倒谱系数体现发声机理,能反映语音动态特性,并更好地描述信号低频局部特征,可改进LPCC的不足。PLPCC体现人耳感知特性,识别性能强于MFCC,用3种融合算法对两者进行融合,将融合特征用于高斯混合模型进行说话人识别。仿真实验结果表明,该融合算法较已有的MFCC与LPCC融合算法识别率提高了8.0%。 相似文献
15.
对电子音乐进行合理且有效的分类,可以使用户能快速搜索到喜爱的音乐,也使音乐推荐系统能进行更加精准的推荐。为了提高音乐分类的准确性,论文提出了基于CGABC-SVM的多特征融合音乐分类方法。在特征提取方面,针对单一音频特征表达不完整的问题,提取基音频率、共振峰、梅尔频率倒谱系数和相对谱-感知线性预测4种音频特征,组成多特征融合矩阵。在分类器选择方面,针对支持向量机(SVM)参数难以选取的问题,论文使用交叉全局人工蜂群算法(CGABC)来优化SVM的参数,构建CGABC-SVM音乐分类模型。实验结果表明,论文音乐分类方法可以有效地区分各种音乐信号,音乐分类的准确性显著好于对比音乐分类方法。 相似文献
16.
线性预测分析在连接词语音识别中的研究 总被引:1,自引:0,他引:1
特征参数的提取是关系到语音识别系统性能好坏的关键,而线性预测分析是目前普遍采用的特征参数提取方法.针对在连接词和连续语音识别系统中,传统的线性预测系数已不能满足特征提取的要求,研究采用了三种主要的线性预测推演参数,即线性预测反射系数、线谱对系数和线性预测倒谱系数,及其在连接词语音识别系统中的应用,并进行计算机仿真.仿真结果表明,在输入语音库与信噪比一致的情况下,线性预测倒谱系数的识别率最高.从而证明,在包含语义特征信息和说话人特征方面,线性预测倒谱系数性能要优于线谱对系数和线性预测反射系数. 相似文献
17.
根据人耳听觉特性,利用Mel倒谱系数提取有利于发动机振动故障识别的特征;前向神经网络的反向传播算法对类别数目小、但分类困难的模式识别问题有良好的分类效果;针对Mel倒谱系数分析提取的发动机振动故障分类的特征,分别采用BP网络和RBF网络对飞机发动机振动故障进行识别;结果表明:Mel倒谱系数的维数可以改变,选择合适的的Mel特征参数可以有效地提高发动机故障的识别率;RBF网络的故障识别率较高。 相似文献
18.
基于人类听觉特性的Mel频率倒谱系数广泛用于声音识别,然而在生态环境中噪声的出现导致其识别率剧减。提出一种在噪声背景下生态环境声音分类方法。利用非线性多频带谱减法对声音功率谱进行去噪处理并提取改进Mel频率倒谱系数,有效削弱不同频率段噪声功率谱干扰。利用支持向量机良好的鲁棒性和抗噪能力对含有噪声的生态环境声音进行分类。实验表明该方法能有效在噪声背景下对生态环境声音准确分类。 相似文献
19.
《微型机与应用》2019,(4):67-70
基于深度学习库Tensorflow和深度可分离卷积神经网络(Depthwise Separable Convolutional Neural Network,DS-CNN),实现一个嵌入式离线语音识别系统。利用Tensorflow和DS-CNN对预识别语音进行训练得到声学模型,移植该声学模型至嵌入式处理器中;对采集编码的语音信号经过分帧、加窗等预处理,采用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficent,MFCC)方法进行特征提取,利用声学模型对提取的特征进行分类判别。测试结果表明,基于深度学习的语音识别可以有效地应用在嵌入式平台上,相比于一些传统算法,在识别率和识别时间上有明显的提高。 相似文献
20.
采用传统谱特征作为输入进行语音识别通常会受到声学环境差异的影响。为此,提出汉语和维语音素和音位的对应规则,并将这种规则应用于基于发音特征的语音识别系统。训练神经网络多层感知器,获取语音信号各类发音特征的后验概率,将其与美尔频率倒谱系数(MFCC)拼接后送入隐马尔科夫模型进行声学模型训练。将不同发音特征分别与传统MFCC特征进行组合并给出测试结果。实验结果表明,当汉语声带状况和送气发音特征与传统MFCC组合时,以及维语的发音方式和声带状况特征与MFCC组合之后,系统误识率较低。 相似文献