期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

卢坚毛兵孙正兴张福炎《软件学报》2002,13(2):274-279

语音分割是语音识别和语音文档检索等众多语音应用的基础.提出一种改进的基于说话者的语音分割算法,对GLR和BIC相结合的算法作进一步的改进:(1) 基于GLR距离方差的自适应阈值调整算法改进了不同声学特征下基于距离的语音分割算法中的阈值选取方法;(2) 引入BIC可测度概念来度量其适用范围;(3) BIC信息准则校准非冗余的候选分割点的偏差.实验结果表明,此改进算法优于原算法. 相似文献

2.

自适应滤波语音增强算法改进及其DSP实现

王瑜琳田学隆高雪利《计算机工程与应用》2015,(1):208-212,233

为提高强噪声环境下语音信号的信噪比,增强语音通信的质量,以DSP为平台,构建一个基于自适应滤波技术的单通道语音增强系统。该系统以TMS320F2812为核心,结合其多通道缓冲串口(McBSP)与扩展音频接口芯片TLV320AIC23实现了语音信号的高速采集及输出;同时,利用箕舌线函数更新自适应滤波步长因子并引入解相关运算进行语音降噪处理,有效改善了传统算法适应性差,收敛速度慢,稳态误差大等问题。实验结果表明该算法降噪性能好,能明显提高语音清晰度,且系统稳定性强。相似文献

3.

语音动力学系统的神经网络建模方法研究 总被引：1，自引：0，他引：1

郑会永肖田元韩向利刘华强戴冠中《信息与控制》1999,28(2):107-110

人工神经网络(ANN)方法是非线性动力学系统建模的有效方法．本文针对多层ANN结构,运用递推预报误差(RPE)算法对离散非线性动力学系统进行了建模研究,并将之运用于语音非线性动力学系统的动态建模,估计出了语音非线性动力学系统稳态吸引子的维数,为了解语音和实用化的语音识别提供了良好的基础．相似文献

4.

基于RASTA和SVM的话音激活检测算法

寇钰鑫景小宁禹航《微计算机信息》2009,25(18)

提出了一种基于RASTA滤波技术的多维语音特征和支持向量机分类的VAD算法,适用于低信噪比情况下的话音检测.算法在语音特征选择上使用了RASTA-PLP滤波方法,提取出了多维倒谱参数,并将其作为特征向量输入给支持向量机进行分类检测.算法所提取的特征是基于人类听觉感知系统特性的,因此具有普遍意义和稳定性,多维特征与支持向量机的结合则提高了语音分类判决的可靠性.实验结果表明,算法在低信噪比环境下对话音和噪声均具有较高的检出率. 相似文献

5.

改进的语音特征提取方法及其应用

王安娜王勤万刘俊芳袁文静《计算机工程》2008,34(5):196-197,200

噪音是降低语音识别系统精度的关键因素,因此,如何从带噪语音信号中提取出有效的语音特征是提高语音识别系统识别率的重要途径.该文在分析语音特征提取方法的基础上提出改进算法.实验表明,采用LDA MLLT CMs算法组合提取出的语音特征具有较好的鲁棒性,在噪音环境下的平均音节识别率为43.79%.该组合在中文大词汇量连续语音识别系统中也有较好的性能,音节识别率达到83.56%. 相似文献

6.

OM-LSA和小波阈值去噪结合的语音增强

下载免费PDF全文

刘凤增李国辉李博《计算机科学与探索》2011,5(6):547-552

针对OM-LSA(optimally modified log-spectral amplitude estimator)算法产生的残留噪声,提出了一种结合OM-LSA和小波阈值去噪的语音增强算法。首先,进行语音对数幅度谱估计;然后,估计残留噪声,利用带噪语音第一级小波系数和语音不存在时的增益函数进行估计,解决了常规方法对增强后语音噪声估计不准确的问题;最后,在小波域利用软阈值法对语音信号进行阈值处理。实验结果表明,提出的算法有效地去除了OM-LSA算法中的残余噪声,在分段信噪比(segmental signal-to-noise ratio,SegSNR)和对数谱失真(log-spectral distortion,LSD)等指标评价上有较大的提高。相似文献

7.

瑞米兹交替算法在语音分离上的应用

徐方鑫《数字社区&智能家居》2012,(1X):698-699

随着多媒体科技的不断进步,语音分离技术的利用越来越广泛,对此传统的FIR滤波器渐渐已经不能够满足越来越高的质量需求,该文介绍了一种基于瑞米兹交替算法(Remez)的优化FIR滤波器的设计方法,同时将此应用在语音分离滤波上,并给出了matlab下的设计结果。相似文献

8.

非线性幂变换Gammachirp滤波器的鲁棒语音特征提取*

李聪葛洪伟《计算机科学与探索》2019,13(8):1351-1359

针对归一化功率倒谱系数(PNCC)在较低信噪比噪声环境下说话人识别鲁棒性不佳的问题,提出了非线性幂函数变换伽马啁啾频率倒谱系数(NPGFCC)的抗噪语音特征提取算法。相比PNCC,NPGFCC的不同之处在于其采用符合人耳听觉特性的归一化压缩Gammachirp滤波器组代替Gammatone滤波器组进行滤波,并在特征参数中融合了分段式非线性幂函数变换的方式。另外,算法中利用了均值方差归一化和时间序列滤波等技术的方法,进一步提高了其在噪声环境下的鲁棒性,并在改进的i-vector+PLDA模型下进行了测试。实验结果表明,相较于目前常用的一些说话人语音特征提取算法,在不同噪声和不同信噪比下,NPGFCC特征具有最佳抗噪性能,特别是在信噪比较低的情况下,与其他语音特征相比,NPGFCC特征具有更大的优势。相似文献

9.

EMD在语音情感识别中的应用与研究

叶吉祥庞欢《计算机工程与应用》2012,48(11):214-217,223

语音情感计算引起了国内外广泛的关注,特别是在语音情感特征提取方面做了大量的研究。利用经验模态分解(EMD)方法对情感语音进行处理,得到情感语音的前4阶固有模态函数(IMF),并将前4阶IMF分别通过Hilbert变换得到其瞬时频率和瞬时振幅。提取它们的统计特征,再结合情感语音的声学特征共同组成情感特征向量,并对特征向量做归一化处理。利用支持向量机(SVM)对四种情感语音即生气、高兴、悲伤和平静进行识别。实验结果表明该方法的识别效果较好。相似文献

10.

基于超平面法矢量的欠定盲信号分离算法

肖明谢胜利傅予力《自动化学报》2008,34(2):142-149

探讨欠定情况下(观测信号少于源数目)的盲信号分离. 首先给出了 m 维超平面的法矢量的计算公式, 提出了一个基于超平面法矢量的矩阵恢复算法. 其次针对语音分离, 提出了 k 源区间及其检测方法, 从而使 k-SCA 条件下的算法推广到了非稀疏信号的盲分离. 在源信号重建上, 提出了一个简化 l1 范数解的新算法. 几个仿真实验 (含语音信号实验) 证实了所提出算法的性能. 相似文献

11.

一个基于语音识别的盲人上网辅助系统的设计

蒲晓杨勇《微计算机信息》2010,(4)

针对目前一部分残障人士(如盲人等)面临的上网困难问题,本文通过语音识别和文本-语音转换两个部分的设计及运用,设计一个基于语音识别的盲人上网辅助系统。系统的语音识别部分,采用了线性预测(LPC)及矢量量化的距离(VQ)方法,过滤和识别人的语音信号;文本-语音转换部分,通过对每个动态打开的网页,采用文字转化成语音(text-to-speech,TTS)技术及语音合成平台完成语音合成,将其网页文本内容朗读出来,同时也可对用户进行语音提示。相似文献

12.

基于ROS的移动机器人语音控制设计与实现

《传感器与微系统》2019,(5):100-103

针对传统语音软件包信息冗余且移动机器人控制系统通用性和代码可移植性差的问题,提出了一种基于机器人操作系统(ROS)的移动机器人语音控制系统。语音控制命令信号经预加重、加窗分帧以及端点检测等进行预处理,利用基于Fisher比的Bark小波包变换方法提取特征参数,应用隐马尔可夫模型(HMM)算法进行识别,应用C++语言将上述内容编写成软件包,使用ROS的节点功能以及通信机制将识别结果用来控制移动机器人运动。实验结果表明:系统的识别率为94%以上,能准确识别不同用户的语音控制命令;经与成熟SDK功能比较,系统的识别率提高了1. 6%,且识别时间明显缩短,仅为255. 6 ms,表明系统在确保准确率的同时提高了反应速度。相似文献

13.

图像与视频质量评价综述

下载免费PDF全文

程茹秋余烨石岱宗蔡文《中国图象图形学报》2022,27(5):1410-1429

图像/视频的获取及传输过程中,由于物理环境及算法性能的限制,其质量难免会出现无法预估的衰减,导致其在实际场景中的应用受到限制,并对人的视觉体验造成显著影响。因此,作为计算机视觉领域的一项重要任务,图像/视频质量评价应运而生。其目的在于通过构建计算机数学模型来衡量图像/视频中的失真信息以判断其质量的好坏,达到自动预测质量的效果。在城市生活、交通监控以及多媒体直播等多个场景中具有广泛的应用前景。图像/视频质量评价研究取得了长足的发展,为计算机视觉领域中其他任务提供了一定的便利。本文在广泛调研前人研究的基础上,回顾了整个图像/视频质量评价领域的发展历程,分别列举了传统方法和深度学习方法中一些具有里程碑意义的算法和影响力较大的算法,然后从全参考、半参考和无参考3个方面分别对图像/视频质量评价领域的一些文献进行了综述,具体涉及的方法包含基于结构信息、基于人类视觉系统和基于自然图像统计的方法等;在LIVE(laboratory for image & video engineering)、CSIQ(categorical subjective image quality database)、TID2013等公开数据集的基础上,基于SROCC(Spearman rank order correlation coefficient)、PLCC(Pearson linear correlation coefficient)等评价指标,对一些具有代表性算法的性能进行了分析;最后总结当前质量评价领域仍存在的一些挑战与问题,并对其进行了展望。本文旨在为质量评价领域的研究人员提供一个较全面的参考。相似文献

14.

基于WDFT的语音PLP特征提取算法

章熙春曹燕张军韦岗《模式识别与人工智能》2005,18(4)

提出了一种基于WDFT的PLP特征提取算法.该算法采用WDFT来提高语音信号低频部分的频谱分辨率,与传统的提取方法相比更符合人类听觉系统的特性.对0～9十个英文数字和E-SET集的识别实验结果表明,本文提出的特征提取算法比传统PLP算法具有更好的识别效果. 相似文献

15.

基于PAD三维情绪模型的情感语音韵律转换

鲁小勇杨鸿武郭威彤裴东《计算机工程与应用》2013,(5)

提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。选取了11种典型情感,设计了文本语料,录制了语音语料,利用心理学的方法标注了语音语料的PAD值,利用五度字调模型对情感语音音节的基频曲线建模。在此基础上,利用广义回归神经网络(Generalized Regression Neural Network,GRNN)构建了一个情感语音韵律转换模型,根据情感的PAD值和语句的语境参数预测情感语音的韵律特征,并采用STRAIGHT算法实现了情感语音的转换。主观评测结果表明,提出的方法转换得到的11种情感语音,其平均EMOS(Emotional Mean Opinion Score)得分为3.6,能够表现出相应的情感。相似文献

16.

用于VOIP的G.729A算法的优化改进

杨召青黄冰宋钦梅《电子技术应用》2007,33(7):104-106

在VOIP应用的基础上,介绍了VOIP的现状及其用于VOIP语音编码标准的发展方向,并对VOIP网路通信语音编码标准之一的G.729 A[1]进行了优化改进,提出了一种利用重新初始化来获得状态恢复(RbR)与WD-LSP[8](Weighted delta-LSP)相结合的CS-ACELP语音编码算法,利用重新初始化来获得状态恢复,解决了包丢失阶段和在包丢失以后阶段产生差错脉冲所引起的重建语音质量下降问题的同时,采用WD-LSP降低了算法复杂度。相似文献

17.

VoIP会议系统中TFO模型的MCU实现

向文武周德新《计算机应用》2005,25(Z1):506-507

传统的PSTN(公用电话交换网)会议是一种集中式的多点控制单元(MCU)系统.而在VoIP会议系统中采取这种传统方式时,会由于VoIP重复的高压缩率的编解码,导致话音严重失真和延迟,计算复杂度大幅增加.另外一种分布式的MCU系统则可以避免语音的失真和延迟,但是对会议的控制能力下降,并且依赖于终端的静音消除.一种可行的方案是使用集中式MCU的发言者检测和数据传输功能,同时使用分布式的MCU的解码和语音混合的功能.该方法解决了重复编解码带来的问题、保持了对会议强的控制力,因此有效地提高了语音质量、扩大了会议的规模. 相似文献

18.

基于SVM的语音情感识别算法 总被引：1，自引：0，他引：1

朱菊霞吴小培吕钊《计算机系统应用》2011,20(5):87-91

为有效提高语音情感识别系统的识别正确率,提出一种基于SVM的语音情感识别算法.该算法提取语音信号的能量、基音频率及共振峰等参数作为情感特征,采用SVM(Support Vector Machine,支持向量机)方法对情感信号进行建模与识别.在仿真环境下的情感识别实验中,所提算法相比较人工神经网络的ACON(All Cl... 相似文献

19.

基于HMM和遗传神经网络的语音识别系统 总被引：1，自引：0，他引：1

包亚萍郑骏武晓光《计算机工程与科学》2011,33(4):139

本文提出了一种基于隐马尔可夫(HMM)和遗传算法优化的反向传播网络(GA-BP)的混合模型语音识别方法。该方法首先利用HMM对语音信号进行时序建模,并计算出语音对HMM的输出概率的评分,将得到的概率评分作为优化后反向传播网络的输入,得到分类识别信息,最后根据混合模型的识别算法作出识别决策。通过Matlab软件对已有的样本数据进行训练和测试。仿真结果表明,由于设计充分利用了HMM时间建模能力强和GA-BP神经网络分类能力强等特点,该混合模型比单纯的HMM具有更强的抗噪性,克服了神经网络的局部最优问题,大大提高了识别的速度,明显改善了语音识别系统的性能。相似文献

20.

基于模糊聚类神经网络的语音识别方法 总被引：8，自引：0，他引：8

刘宇红刘桥任强《计算机学报》2006,29(10):1894-1900

提出了一种基于模糊神经网络的语音识别方法.该方法以模糊系统模型为基础,利用改进的模糊聚类辨识算法,构成一种新型的模糊聚类神经网络（FCNN）,并将其作为概率密度函数的估计器,对每个状态的输出进行预测.它不仅能有效地在语音识别中引入帧间相关信息,而且能克服状态输出概率密度函数为混合高斯分布的束缚.通过对非特定人汉语孤立词和连续音节的语音识别实验,证实了该方法的有效性. 相似文献