首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 143 毫秒
1.
采用模糊C-均值聚类算法(FCM)实现声纹码本的矢量量化,使用基于相似系数和的孤立点检测法识别孤立点.试验表明,该方法能有效地减少孤立点对识别结果的干扰,显著降低码本量化误差,从而提高矢量量化声纹识别系统的识别率.  相似文献   

2.
针对现实应用场景中短时语音和混叠有噪声情况下声纹识别准确性低的问题,本文设计了一种改进的基于深度学习的声纹识别算法,提高了声纹识别模型在短时语音和带噪环境下的鲁棒性,并将该模型部署到了嵌入式设备中.本文主要对声纹识别算法的编码层和损失函数进行改进.对于编码层,本文使用了基于差分编码的NeXtVLAD技术,同时对帧级特征中的静态声纹特征和动态声纹特征进行建模.对于损失函数,本文将基于小样本学习框架的余弦-原型损失函数cosine-Prototypical与附加间隔分类损失函数AM-Softmax进行融合来训练声纹识别模型,使得模型在特征空间中的同类特征尽可能集聚,异类特征尽可能分离.此外,本文还将声纹识别算法部署在Raspberry Pi平台上,实现了能快速推理的声纹识别系统.实验结果表明:这种改进的声纹识别系统在多种开放场景下,能够实时、准确地完成声纹识别任务,可以达到实际应用的要求.  相似文献   

3.
声纹识别系统   总被引:3,自引:0,他引:3  
介绍一个与本无关、与语种无关、与性别无关的声纹识别系统,采用的技术包括MFCC特征提取、VQ矢量量化、LBG聚类建模、数据有效性距离测度和计算机深度编程等,在字表大小为50人以内时识别率接近100%。  相似文献   

4.
基于多特征序贯判决的电话语音声纹鉴别方法研究   总被引:2,自引:2,他引:2  
提出一种基于倒谱特征矢量量化结合音调特征序贯判决的电话语音声纹识别方法 .文中分析了长时LPC倒谱特征和音调特征的特性 ;根据LPC倒谱各维分量对说话人识别贡献不同 ,改进了失真测度 ;用矢量量化方法建立每个说话人语音模型 ,构成一种分类准确、存储数据少、响应速度快的不依赖文本的声纹鉴别系统 ;构造一种简化的音调测度 ,将声道和声源特征结合 ,采用序贯判决策略 ,提高了系统的顽健性 .实验表明 ,在 60位说话人集合中 ,用大约 10秒的话音做识别 ,正确率达 95%以上  相似文献   

5.
一种小波包变换的声纹参数提取方法研究   总被引:1,自引:0,他引:1  
在声纹识别系统中,对声纹参数的提取很重要。传统的MFCC参数忽略了语音信号的动态特性,因此提出了一种基于小波包变换的声纹参数提取方法。为了更突出说话人的声纹特征,克服说话内容不同对提取声纹参数的影响,在分帧阶段采用帧长为2560点,增长有效语音段。再结合基于矢量量化(VQ)系统进行说话人识别实验,并通过比较常用的db3、db4、db6、coif3小波函数选取最优基。实验证明,相对于常用的256点帧长,帧长为2560点的识别率较高且提高了运算速率。coif3小波函数为声纹参数提取的最优基。新的WPT参数的识别率优于传统的MFCC参数。  相似文献   

6.
在介绍矢量量化以及LBG算法和SOFM算法的基础上,通过实验对比了LBG算法和SOFM算法在应用于图象矢量量化压缩过程时,码书大小、码字大小以及初始码书生成方式等因素对图像压缩性能的影响,得到了相关结论:固定码字矢量维数,码书越大,压缩比越小,重建图像质量越好;固定码书,码字矢量维数越小,编码性能越好;LBG算法对初始码书敏感,而SOFM算法由于所具备的自适应特性对初始码书不敏感。论文最后提供了一些改进思路,为改进传统矢量量化算法及设计新的矢量量化算法以提供了参考。  相似文献   

7.
基于多特征序贯判决的电话语音声纹鉴别方法研究   总被引:1,自引:0,他引:1  
提出一种基于倒谱特征矢量量化结合音调特征序贯判决的电话语音声纹识别方法.文中分析了长时LPC倒谱特征和音调特征的特性;根据LPE倒谱各维分量对说话人识别贡献不同,改进了失真测度;用矢量量化方法建立每个说话人语音模型,构成一种分类准确、存储数据少、响应速度快的不依赖文本的声纹鉴别系统;构造一种简化的音调测度,将声道和声源特征结合,采用序贯判决策略,提高了系统的顽健性.实验表明,在60位说话人集合中,用大约10秒的话音做识别,正确率达95%以上.  相似文献   

8.
该文研究了自组织特征映射神经网络(SOFM)在图像矢量量化码书设计中的应用,并把SOFM算法同LBG算法作了比较。最后总结了SOFM算法与LBG算法的优缺点。  相似文献   

9.
一种改进的LBG快速算法   总被引:6,自引:0,他引:6  
LBG算法是矢量量化码书设计的经典算法。针对其空胞腔问题提出一种改进的LBG算法,并以熵序列收敛作为新的算法停止判据。实验表明,该算法具有收敛速度快、码书性能佳等优点,该算法的PSNR比传统的LBG算法提高2.74dB。  相似文献   

10.
LBG算法是一种经典的矢量量化算法,广泛用于数字图像的压缩.在矢量量化中,码书的设计问题实际上解决的是如何选择最具有代表性的矢量作为码字来尽可能精确表示整个矢量空间.码书决定了矢量量化的编码质量,因此高质量的码书设计就成为整个矢量量化研究的核心.初始码书的质量极大的影响了LBG算法的收敛速度和收敛的可能性.并决定了最终的码书质量.针对常用的算法生成的码书分布不能很好的代表样本集的分布,并造成LBG算法收敛缓慢和最终码书的品质不佳,提出一种新的快速的初始码书生成算法,提高了生成码书的迭代速度和最终码书的品质.  相似文献   

11.
矢量量化方法是与文本无关的说话人识别系统中广泛应用的建模方法之一.在矢量量化过程中,经典的LBG算法收敛速度快,但极易收敛于局部最优点,无法保证根据有限样本数据得到最优码本,并最终影响系统识别性能.本文提出了一种基于遗传算法并结合LBG算法的码本设计方法.该方法通过遗传操作获得全局优化的说话人模板,把新的识别算法应用于说话人识别的实验.结果显示,对于一个小的码本集,新的码本算法比经典的LBG算法具有更好的识别性能.  相似文献   

12.
提出一种基于粒子群优化算法的图像矢量量化码书设计算法.该算法引入粒子群的全局搜索策略,结合矢量量化码书设计方法,增加了算法解的随机性和多样性.实验结果显示,本算法与传统LBG码书设计算法相比,具有更强的鲁棒性,可有效解决LBG算法对初始码书的依赖性,能获得性能较好的码书.  相似文献   

13.
在说话人识别中,美尔倒谱系数MFCC(Mel-Frequency Cepstral Coefficients)是一种常用的特征.但是这种通用的特征在耳语音的说话人识别上并不太理想.MFCC的三角滤波器组在Mel尺度上是均匀分布的,但是耳语音不同于正常音的发声,通过改变这种均匀分布的格局来改善耳语音说话人识别率,将全频域分成不同频段,分别调整各频段内滤波器的疏密程度,再将各频段的滤波器组合成新的滤波器组.修正后的滤波器模型在文本无关的耳语音说话人识别中相比原模型识别效果有所提高.  相似文献   

14.
介绍了一种基于VQ的小词汇量特定人快速语音识别方法,并对该方法中的关键参数进行了比较性研究. 这一方法尤其适用于汉语特定人小词汇量语音识别. 与典型的HMM和NN识别算法相比,该方法复杂度低、系统资源消耗少而识别率高,在对汉语11个数字的大规模识别测试中误识率仅为3.86%. 因此,该方法适合于在手机、PDA等资源有限的系统中实现语音数字拨号、人名拨号及查询等语音控制功能.  相似文献   

15.
纸币识别系统设计与实现   总被引:2,自引:0,他引:2  
介绍了一种纸币识别系统的硬件设计及其对应识别方法.在硬件设计上,将高速数字信号处理(DSP)技术与复杂可编程逻辑器件(CPLD)和接触式图像传感器(CIS)相结合;在识别方法上,应用图像处理技术与改进的SOFM神经网络方法识别纸币.通过实验测试,系统可在40ms内完成对一张纸币的处理.有拒识情况下,面值识别率100%,识别面向准确率为99.8%,新旧识别率约90%.  相似文献   

16.
基于特征选择的高光谱图像快速矢量量化算法   总被引:1,自引:0,他引:1  
高光谱图像在取得较高光谱分辨率的同时带来了海量数据,使其压缩成为必需.矢量量化技术在高光谱图像压缩中取得了良好效果,但有计算复杂度高的缺点.针对高光谱图像谱带间高度冗余的情况,本文提出基于特征选择的快速矢量量化算法.该算法在减少运算量同时,能取得和LBG算法相近的压缩效果.实验表明在信噪比略微下降的情况下,计算时间下降了94.32%.  相似文献   

17.
为解决语音识别过程中的抗噪声及抗干扰问题,提高系统的识别精度,利用隐马尔可夫模型HMM优异的时序建模能力及小波变换可以对信号进行多尺度分析并有效提取信号的局部信息的特点,建立了混合语音识别模型.考虑到在语音信号识别过程中信号的非平稳性,采用并行的识别方法分别获取分类信息,根据混合模型的识别算法做出识别决策,减小了系统对环境的依赖性,提高了其自适应能力.仿真实验结果表明,混合模型识别结果比单一HMM模型或小波模型识别结果更佳,提高了整体的识别速度和识别率.  相似文献   

18.
语音情感识别是从语音的角度赋予计算机理解情感特征的能力,最终使计算机能像人一样进行自然、亲切和生动的交互。提出了一种融合隐马尔科夫模型(hidden markov model,HMM)和概率神经网络(probabilistic neural network,PNN)的语音情感识别方法。在所设计情感识别系统中,提取出基本的韵律参数和频谱参数,利用PNN处理声学参数的统计特征,利用HMM处理声学参数的时序特征,运用加法规则和乘法规则融合了统计特征和时序特征的识别结果。实验结果显示,所提出的算法在语音情感识别中具有有效的识别能力。  相似文献   

19.
智能语音识别技术的研究已有较长的时间,但由于语音信号本身所具有的多变性、瞬时性、连续性和动态性的特征,使得机器在不同的环境尤其是噪声环境中进行语音信号的识别仍具有一定的困难.为了提高带噪语音信号识别的准确率,本文研究了一种常用的噪声估计算法,即基于后验信噪比的时间递归平均算法.并在此算法的基础上提出了一种对平滑因子的改进算法,将语音活性检测算法与这两种算法在不同输入信噪比下进行模拟验证.通过运算结果的对比分析可以看出,改进后的算法相比于语音活性检测算法最高可以使输出分段SNR提高2.1 dB,相比于原时间递归平均算法最高可以使输出分段SNR提高0.5 dB,表明低输入SNR下改进后的算法可以有效提高语音信号的质量和可懂度.  相似文献   

20.
针对移动端平台下计算资源有限、存储空间小的特点,提出高效的ShuffleNetv2及YOLOv3集成网络静态手势实时识别方法,以减小模型对硬件的计算能力需求. 通过将轻量化网络ShuffleNetv2代替Darknet-53作为主干网络,减小模型的计算复杂度. 引入CBAM注意力机制模块,加强网络对空间和通道的关注度. 采用K-means聚类算法,重新生成Anchors的长宽比和数量,使重新生成的Anchors尺寸对目标进行精确定位来提高模型的检测精度. 实验结果表明,提出算法在手势识别上的平均识别准确率为99.2%,识别速度为44帧/s,单张416×416图片在GPU上的推理时间为15 ms,CPU上的推理时间为58 ms,模型所占内存为15.1 MB. 该方法具有识别精度高、识别速度快、内存占用率低等优点,有利于模型在移动终端上部署.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号