首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 109 毫秒
1.
提出了一种改进脉冲耦合神经网络(IPCNN)实现语音识别的方法。首先利用IPCNN来快速提取语音的语谱图图像特征,然后由概率神经网络(PNN)辅助来识别语音。通过训练语音样本来构成语音识别库并建立综合识别系统。实验结果表明,本方法相对于单独使用PCNN和PNN识别率分别提高了22.7%和39.4%,达到92%的识别率。  相似文献   

2.
在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM(Long Short-Term Memory)网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。  相似文献   

3.
基于神经网络的语音情感识别   总被引:4,自引:1,他引:3       下载免费PDF全文
研究目的就是通过深入分析各种语音情感特征,找出其中对情感识别有较大贡献的特征,并寻找适合的模型将有效特征加以利用。分析和研究了多位科学家在进行语音情感分析过程中采用的方法和技术,通过总结和创新建立了语音情感语料库,并成功地提取了相关的语音信号的特征。研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用,重点研究了MFCC和?驻MFCC,实验发现特征筛选后系统的识别效果有着一定程度的提高。将处理后的频谱特征参数同原有的BP人工神经网络模型有效地结合起来,形成完整的语音情感识别系统,取得了较为满意的识别结果。  相似文献   

4.
基于粒子群优化神经网络的语音情感识别   总被引:1,自引:0,他引:1  
提出了一种基于粒子群优化算法的人工神经网络,并把它应用到语音情感识别系统中。依据情感的维度空间模型,分别提取了韵律特征与音质特征,研究了谐波噪声比特征随情感类别的变化。利用粒子群优化算法(PSO)训练随机产生的初始数据,优化神经网络的连接权值和阈值,快速地实现网络的收敛。在实验中比较了BP神经网络、RBF神经网络与PSO神经网络分别用于语音情感识别的识别率,PSO神经网络的平均识别率高于BP神经网络6.7%,高于RBF神经网络5.4%。结果显示,粒子群优化神经网络用于语音情感识别提高了识别性能。  相似文献   

5.
正确识别语音中包含的情感信息可以大幅提高人机交互的效率.目前,语音情感识别系统主要由语音特征抽取和语音特征分类两步组成.为了提高语音情感识别准确率,选用语谱图而非传统声学特征作为模型输入,采用基于attention机制的CGRU网络提取语谱图中包含的频域信息和时域信息.实验结果表明:在模型中引入注意力机制有利于减少冗余信息的干扰,并且相较于基于LSTM网络的模型,采用GRU网络的模型预测精确度更高,且在训练时收敛更快,与基于LSTM的基线模型相比,基于GRU网络的模型训练时长只有前者的60%.  相似文献   

6.
语音情感识别的研究进展   总被引:4,自引:0,他引:4  
总结了语音情感识别研究的主要成果,分析了带有情感的语音的特征,阐述了现有的几种从语音中提取情感的方法,并对其进行分析比较,指出了语音情感识别技术的可能发展趋势。  相似文献   

7.
基于脉冲耦合神经网络的图像融合   总被引:8,自引:0,他引:8  
该文在脉冲耦合神经网络(PCNN)基本摸型的基础上得出并行脉冲耦合神经网络群,并在此基础上提出了一种基于脉冲耦合神经网络的图像融合算法,该算法能够将多传感器获取的同一对象的多个图像融合于一幅图像中,有效模拟了人类视觉系统;最后对图像进行了实验,分析了参数的影响,得到了较好的结果。  相似文献   

8.
基于PCNN的语谱图特征提取在说话人识别中的应用   总被引:7,自引:1,他引:7  
该文首次提出了一种将有生物视觉依据的人工神经网络——脉冲耦合神经网络(PulseCoupledNeuralNetwork,以下简称为PCNN)用于说话人识别领域的语谱图特征提取的新方法。该方法将语谱图输入到PCNN后得到输出图像的时间序列及其熵序列作为说话人语音的特征,利用它的不变性实现说话人识别。实验结果表明,该方法可以快速有效地进行说话人识别。该文将PCNN引入到语音识别的应用研究中,开拓了信号处理中两个极为重要的部分———语音信号处理和图像信号处理结合的新领域,同时对于PCNN的理论研究和实际应用具有非常重要的现实意义。  相似文献   

9.
动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。  相似文献   

10.
在人机语音交互系统中,机器不仅要具有理解人类语音的能力,还应当具有识别说话人情感的能力.本文提出了基于高斯混合模型(GMM)的序列分类和识别的改进方法,并将该方法引入到语音情感识别的研究中.本文提出了观测值次序均衡的方法.实验结果证明这种新的方法有效地提高了语音情感识别的准确率.  相似文献   

11.
提出一种基于非下采样contourlet变换(NSCT)与脉冲耦合神经网络(PCNN)的图像融合算法.该方法首先利用非下采样eontourlet变换对输入图像进行多尺度分解、多方向稀疏分解,准确捕获图像中的高维奇异信息,然后利用脉冲耦合神经网络的同步激发特性确定融合规则,选取融合系数,提高融合性能.实验结果表明,算法比小波变换、contourlet变换有更好的融合性能.  相似文献   

12.
为有效滤除灰度图像中的椒盐噪声并保留图像的边缘及细节信息,提出一种简化的阈值单向衰减脉冲耦合神经网络(PCNN)点火矩阵自适应图像滤波方法,简化的PCNN结构减少了所需参数并提高了运算速度。该方法通过对PCNN点火矩阵的分析,定位出被噪声污染的像素,只对噪声像素进行滤波,因而有效地保留了图像的细节信息;并根据椒盐噪声的特点,动态估计图像的噪声强度,自适应地选择滤波窗口的大小和滤波次数。实验结果表明提出方法较常见的图像降噪方法在滤波效果、自适应性及保留图像细节方面有明显的优势。  相似文献   

13.
为有效分割图像,提出了灰度迭代阈值脉冲耦合神经网络(GIT-PCNN)。GIT-PCNN简化了传统PCNN模型,将其指数衰减的阈值改进为图像的灰度迭代阈值。GIT-PCNN分割图像时无需进行参数和循环次数选择,也无需使用特定原则确定循环结束条件,一次点火过程完成分割。GIT-PCNN分割图像时充分利用了图像的灰度信息和PCNN特有的空间邻近及像素灰度值相似集群发放脉冲提供的图像局部位置信息。实验结果表明,GIT-PCNN在主观及客观的分割性能和速度上均优于经典的PCNN分割方法。  相似文献   

14.
语谱图是语音信号的时频表示,含有丰富的信息。把语谱图输入到脉冲耦合神经网络(PCNN)可以获得语音的特征矢量。传统的语音特征采用PCNN50次迭代的点火次数。提出了一种新的语音特征参数,该参数基于PCNN神经元点火位置的信息。说话人识别的实验表明,新语音特征比传统的特征更能反映话者语音信号的特点,获得更好的识别结果。  相似文献   

15.
由于眼底血管结构复杂多变,且图像中血管与背景对比度低,眼底血管分割存在巨大困难,尤其是微小型血管难以分割.基于深层全卷积神经网络的U-Net能够有效提取血管图像全局及局部信息,但由于其输出为灰度图像,并采用硬阈值实现二值化,这会导致血管区域丢失、血管过细等问题.针对这些问题,提出一种结合U-Net与脉冲耦合神经网络(P...  相似文献   

16.
针对图像中同时存在椒盐噪声和高斯噪声,提出一种基于灰度极限和脉冲耦合神经网络(PCNN)滤除混合噪声的新方法。首先,根据灰度极值定位出椒盐噪声点;其次,在滤波窗口中对椒盐噪声点进行均值滤波;然后,利用PCNN赋时矩阵定位出高斯噪声点;最后,自适应调整可变灰度步长,选择不同滤波方法滤除高斯噪声。实验结果表明提出的算法较常见的混合噪声滤波方法在主观滤波效果和客观评价指标峰值信噪比(PSNR)及信噪比改善因子(ISNR)两方面均有明显的优势。  相似文献   

17.
针对翻录语音攻击说话人识别系统,危害合法用户的权益问题,提出了一种基于卷积神经网络(CNN)的翻录语音检测算法。首先,通过提取原始语音与翻录语音的语谱图,并将其输入到卷积神经网络中,对其进行特征提取及分类;然后,搭建了适应于检测翻录语音的网络框架,分析讨论了输入不同窗移的语谱图对检测率的影响;最后,对不同偷录及回放设备的翻录语音进行了交叉实验检测,并与现有的经典算法进行了对比。实验结果表明,所提方法能够准确地判断待测语音是否为翻录语音,其识别率达到了99.26%,与静音段梅尔频率倒谱系数(MFCC)算法、信道模式噪声算法和长时窗比例因子算法相比,识别率分别提高了约26个百分点、21个百分点和0.35个百分点。  相似文献   

18.
针对语音情感的动态特性,利用动态递归Elman神经网络实现语音情感识别系统。通过连接记忆上时刻状态与当前网络一并输入,实现Elman网络模型的状态反馈。基于此设计了语音情感识别系统,该系统能在后台修改网络类型,并实现单语句与批量语句识别模式。针对系统进行语音情感识别实验表明,基于Elman神经网络的语音情感识别在同等参数模型设置前提下优于BP神经网络识别效果,且BP神经网络参数设置较Elman网络敏感。  相似文献   

19.
刘栋  周冬明  聂仁灿  侯瑞超 《计算机应用》2018,38(10):3006-3012
针对传统脉冲耦合神经网络(PCNN)无法准确提取多聚焦图像聚焦区域的问题,提出一种利用相位一致性(PC)来检测图像清晰区域,并结合PCNN的多聚焦图像融合算法。首先,利用非下采样轮廓波变换(NSCT)对源图像进行多尺度分解,分别得到图像的高频子带和低频子带;其次,通过计算高频系数的空间频率值(SF)与低频系数的相位一致性值来提取图像高低频子带中的聚焦区域;然后,将SF与PC作为PCNN外部激励来刺激PCNN神经元点火,分别对图像高低频系数进行融合;最后,利用逆NSCT得到最终融合图像。实验采取多聚焦图像Clock、Pepsi和Lab作为三组实验数据集,与传统融合算法及新近提出的几种算法进行对比,所提算法的客观评价参数:互信息、边缘信息度、信息熵、标准差和平均梯度的数值均大于或十分接近于对比算法的最大值;同时从实验结果图与源图像的差值图中可以发现所提算法的差值图包含源图像清晰区域的痕迹明显更少。实验结果表明所提算法能更加准确地提取出图像的清晰区域,更好地保留图像的边缘与纹理等细节信息,得到更好的融合效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号