期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

刘伟波曾庆宁罗瀛郑展恒《声学技术》2019,38(6):650-656

针对噪声环境下语音识别率急剧下降的问题，提出了一种基于语音时频域稀疏性原理的改进最小方差无畸变响应波束形成与改进维纳滤波结合的算法。该算法首先利用麦克风阵列语音信号的空间信息，通过基于时频掩蔽的改进最小方差无畸变响应波束形成器，增强目标声源方向的语音信号，抑制其他方向噪声的干扰，然后再使用改进的维纳滤波器去除残留噪声并提高语音可懂度，对增强后的语音信号提取梅尔频率倒谱系数作为特征参数，使用隐马尔可夫模型搭建语音识别系统。实验结果表明，该方法能够有效提高低信噪比环境下的语音识别率，具有较好的鲁棒性。相似文献

2.

低信噪比环境下语音端点检测改进方法

下载免费PDF全文

王瑶曾庆宁龙超谢先明毛维《声学技术》2018,37(5):457-464

针对语音端点检测在低信噪比环境下普遍存在检测性能急剧下降的问题,提出一种将调制域(时间-频率域)谱减法和自相关函数相结合的语音端点检测算法。该算法首先利用调制域谱减法较好的消噪能力来提高含噪语音的信噪比;然后根据语音和噪声的自相关函数的主峰最大值和次大值之比差异较大的特性,结合基于对数能量和自相关函数的端点检测方法对消噪后的语音进行端点检测。实验结果表明,该算法在低信噪比的环境下能取得较好的端点检测效果,并具有较好的稳健性。相似文献

3.

改进的最小均方误差语音增强算法的研究

下载免费PDF全文

张鑫琪冯海泓徐海东《声学技术》2008,27(2):230-234

针对传统最小均方误差谱幅度估计（MMSE—STSA．minimum mean-square error-short time spectral amplitude）语音增强算法无法有效的跟踪非平稳噪声变化的问题,对一种改进的MMSE-STSA语音增强算法进行了研究和仿真。该算法对背景噪声的估计利用加权噪声估计方法：采用一个非线性函数根据带噪语音信噪比（SNR．signal—to-noise ratio）的变化计算得到相应的加权因子并作用于带噪语音信号,对加权的带噪语音求平均得到估计的背景噪声。算法中的谱增益修正,还可以抑制低信噪比时的残留噪声以及避免对带噪语音的过抵消。实验结果表明,该方法能很好的跟踪非平稳噪声的变化,不仅在增强性能上有很好的效果,同时降低了语音的失真。相似文献

4.

基于后验信噪比频域迭代算法的语音增强方法

陈紫强《声学与电子工程》2007,(3):41-44

为了抑制谱减法语音增强时引入的“音乐噪声”，采用基于后验信噪比频域迭代算法的语音增强方法。首先，当后验信噪比大于20dB时，对含噪语音采用谱过减法；当后验信噪比小于20dB时，对含噪语音谱线进行衰减处理。为了进一步抑制音乐噪声，对增强语音信号进行多次频域迭代降噪处理。对实验室环境录制的不同输入信噪比条件下的含噪语音信号进行处理，与传统谱减法相比，增强语音信号的信噪比有较大的提高，并且音乐噪声得到很大程度的抑制。相似文献

5.

一种低信噪比环境下的语音端点检测算法

下载免费PDF全文

卜玉婷曾庆宁郑展恒《声学技术》2020,39(5):592-602

端点检测技术是语音信号处理的关键技术之一，为提高低信噪比环境下端点检测的准确率和稳健性，提出了一种非平稳噪声抑制和调制域谱减结合功率归一化倒谱距离的端点检测算法。该算法首先通过抑制非平稳噪声再采用调制域谱减消除残余噪声来提升信噪比，减少语音失真。然后再提取每帧信号的功率归一化倒谱系数，计算每帧信号与背景噪声的功率归一化倒谱距离。最后将该倒谱距离作为检测参数，采用双门限判决方法进行端点检测。实验结果表明，该端点检测算法对语音帧和噪声帧具有较好的区分性。此外，在低信噪比环境下，所提出的算法对于不同类型的噪声都具有较好的稳健性。相似文献

6.

飞机舱音背景声下语音增强技术

下载免费PDF全文

雷鸣程洪炳李学仁《振动与冲击》2010,29(3):63-66

有效提取飞机舱音背景声下的语音信息对飞行事故调查十分重要。提出一种适用于飞机座舱噪声环境下的语音增强方法。以卡方分布作为纯语音谱幅值的先验模型,采用最小均方误差短时谱估计法对带噪语音中的纯语音谱进行估计,误差估计方程中采用权值函数对估计值进行非线性加权。在仿真试验中利用语音质量的客观评价标准选取适合于舱音背景声下的纯语音谱估计参数,使增强语音中噪声抑制和语音失真之间达到平衡。最后将提出的语音增强方法与目前典型方法进行了对比实验,验证算法的有效性。相似文献

7.

测量低信噪比电压的数学相敏解调算法及性能分析

戴逸松《计量学报》1997,18(2):126-132

本文研究了低信噪比正弦电压幅值及相位测量用的数字相敏解调（ＤＰＳＤ）算法，给出了ＤＰＳＤ算法的主要参数（数据长度，取样频率，Ａ／Ｄ转换器位数）与低信噪比电压测量的性能指标（测量精度，频率分辨力，动态储备及最小可测电压）之间的关系。对纳伏电压的实际测量表明，理论分析与测量结果是一致的，本文研究了结果可以用于数字式相敏解调程序的设计及应用。相似文献

8.

语音识别方法在水下目标识别中的应用

曾渊李钢虎赵亚楠苗雨《声学技术》2012,(5):530-534

水下目标识别是潜艇在海战中,先敌发现并有效进行水声对抗的关键技术。然而,如何根据声纳接收到的舰船辐射噪声对三类目标进行分类识别是长期困扰人们的问题。研究了四种语音识别中常用的方法——线性预测系数（LPC）,线性预测倒谱系数（LPCC）,美尔倒谱系数（MFCC）和最小均方无失真响应（MVDR）,在水下目标识别中的应用效果,并比较了这四种方法在无噪声情况下的识别概率,以及在不同信噪比下的识别概率,并通过比较找到在无噪声和有噪声情况下的最佳方法。实验表明,在无噪声的情况下,MFCC方法总体识别率最高,第一类目标MFCC方法的识别率最高,第二类目标MFCC和MVDR方法识别率相似,好于其他两者,第三类目标MVDR方法识别率最高。在加入噪声的情况下,MVDR方法对三类目标的识别和抗噪声性能明显好于其余三者。相似文献

9.

基于小波变换多阈值语音增强处理研究 总被引：2，自引：0，他引：2

王晶傅丰林陈建《声学与电子工程》2004,(4):32-35

语音通信过程不可避免地会受到各种噪声的干扰，噪声降低了语音的信噪比和可懂度。语音增强就是对带噪语音进行处理，以改善语音质量。小波变换具有多尺度的特性，可以由粗及细的逐步观察信号。本文研究了一种基于小波多尺度特性的多阈值处理的语音增强算法，根据不同的尺度因子和位移因子选择不同的阈值，利用软阈值函数对带噪语音进行消噪，并比较分析了各种小波基处理带噪语音的不同效果。实验结果表明，该算法可以明显提高语音的信噪比，并提高了语音的清晰度和可懂度。相似文献

10.

测量低信噪比电压的数字相敏解调算法及性能分析 总被引：13，自引：0，他引：13

戴逸松《计量学报》1997,(2)

本文研究了低信噪比正弦电压幅值及相位测量用的数字相敏解调（ＤＰＳＤ）算法，给出了ＤＰＳＤ算法的主要参数（数据长度、取样频率、Ａ／Ｄ转换器位数）与低信噪比电压测量的性能指标（测量精度、频率分辨力、动态储备及最小可测电压）之间的关系。对纳伏电压的实际测量表明，理论分析与测量结果是一致的。本文研究结果可以用于数字式相敏解调程序的设计及应用相似文献

11.

双微阵列语音增强算法在说话人识别中的应用

下载免费PDF全文

毛维曾庆宁龙超《声学技术》2018,37(3):253-260

针对复杂噪声环境下识别性能显著降低的问题,提出一种用于说话人识别系统前端的双微阵列语音增强算法。该算法采用的是相干滤波和频域宽带最小方差无畸变响应波束形成器后置结合改进的维纳滤波器。其基本原理是首先求出双微麦克风阵列信号中两个相邻通道间的相干函数,再利用通道间信号的相干性来进行初始噪声抑制。其次,通过一个频域宽带最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成器保留目标声源方向的信号并抑制其他方向的信号干扰,再通过改进的维纳滤波器去除噪声残留提升语音质量。最后,使用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)和伽马通滤波器组频率倒谱系数(Gammatone Filter-bank Frequency Cepstral Coefficients,GFCC)对增强后的语音信号做特征参数提取并进行说话人识别。仿真过程采用声学人工头模拟双耳采集数据,实验结果表明,该语音增强算法在复杂噪声环境下能够获得较好的增强效果,能有效提升说话人识别系统的识别率。相似文献

12.

利用语音的频谱空间特征进行汉语抗噪语音识别的方法

下载免费PDF全文

张永锋田勇张阳《声学技术》2015,34(1):51-53

抗噪连续语音识别是当前汉语连续语音识别的重要研究领域。采用通过度量连续语音帧之间频谱的稳定性,将连续语音切分成份,再将切分结果(无论时间长短)变换为与时间无关的大小固定的频谱空间特征,通过与模板库进行比较实现语音识别。新的频谱空间特征,与语音时长无关,同时表现出较好的抗噪声能力。在特定人连续语音识别测试系统中,取得了不错的识别效果。相似文献

13.

Automatic speech recognition

P V S Rao K K Paliwal 《Sadhana》1986,9(2):85-120

Speech recognition, which remained on the fringes of commercial interest for many years, came into prominence recently due to the support extended to this research area by the Advanced Research Projects Agency of theusa. More recently, this area of research has received added impetus due to the priority assigned to the development of fifth generation computers by Japan and several other countries of the world and the importance of speech input/output systems therein. India has a long tradition of good quality work in this area. In this paper, we present a brief overview of different aspects of automatic speech recognition research and present the state-of-the art in this area. We cover the world trends in this area of research, with special attention to work done in India. 相似文献

14.

用于电话语音识别系统的置信度估计方法的研究

下载免费PDF全文

董滨赵庆卫颜永红《声学技术》2006,25(5):473-477

提出了一种用于电话语音识别系统的置信度快速估计算法,此算法是在语音识别器帧同步束搜索的过程中基于状态图的同步估计算法,使用同识别器解码相同的声学模型进行置信度估计,此算法取得了比传统的两遍解码估计置信度算法更好的性能,而且计算复杂度较低,运行速度快,解决了计算置信度时使用模型的区分度与计算速度之间的矛盾。相似文献

15.

汽车内驾驶员语音增强评价研究

下载免费PDF全文

景亚鹏苏海涛王绍桂文华郭庆王明杰《声学技术》2021,40(6):832-838

驾驶员语音增强质量的评价指标是保证语音增强算法性能的关键,而现有的语音增强质量评价方法不能准确地反映人对声音感知的主观性.针对上述问题,分析了言语可懂度指数对语音增强算法评价的适用性,并在某品牌汽车上进行实验.通过在汽车内建立均匀线性传声器阵列来对驾驶员语音进行信号采集,然后利用波束形成算法对阵列中不同传声器组合的语音... 相似文献

16.

基于双耳语音分离和丢失数据技术的鲁棒语音识别算法

下载免费PDF全文

周琳赵一良朱竑谕汤一彬《声学技术》2019,38(5):545-553

鲁棒语音识别技术在人机交互、智能家居、语音翻译系统等方面有重要应用。为了提高在噪声和语音干扰等复杂声学环境下的语音识别性能,基于人耳听觉系统的掩蔽效应和鸡尾酒效应,利用不同声源的空间方位,提出了基于双耳声源分离和丢失数据技术的鲁棒语音识别算法。该算法首先根据目标语音的空间方位信息,在双耳声信号的等效矩形带宽（Equivalent Rectangular Bandwidth,ERB）子带内进行混合语音信号的分离,从而得到目标语音的数据流。针对分离后目标语音在频域存在频谱数据丢失的问题,利用丢失数据技术修正基于隐马尔科夫模型的概率计算,再进行语音识别。仿真实验表明,由于双耳声源分离方法得到的目标语音数据去除了噪声和干扰的影响,所提出的算法显著提高了复杂声学环境下的语音识别性能。相似文献

17.

融合人脸表情的手语到汉藏双语情感语音转换

下载免费PDF全文

宋南吴沛文杨鸿武《声学技术》2018,37(4):372-379

针对聋哑人与正常人之间存在的交流障碍问题,提出了一种融合人脸表情的手语到汉藏双语情感语音转换的方法。首先使用深度置信网络模型得到手势图像的特征信息,并通过深度神经网络模型得到人脸信息的表情特征。其次采用支持向量机对手势特征和人脸表情特征分别进行相应模型的训练及分类,根据识别出的手势信息和人脸表情信息分别获得手势文本及相应的情感标签。同时,利用普通话情感训练语料,采用说话人自适应训练方法,实现了一个基于隐Markov模型的情感语音合成系统。最后,利用识别获得的手势文本和情感标签,将手势及人脸表情转换为普通话或藏语的情感语音。客观评测表明,静态手势的识别率为92.8%,在扩充的Cohn-Kanade数据库和日本女性面部表情(Japanese Female Facial Expression,JAFFE)数据库上的人脸表情识别率为94.6%及80.3%。主观评测表明,转换获得的情感语音平均情感主观评定得分4.0分,利用三维情绪模型(Pleasure-Arousal-Dominance,PAD)分别评测人脸表情和合成的情感语音的PAD值,两者具有很高的相似度,表明合成的情感语音能够表达人脸表情的情感。相似文献