首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 703 毫秒
1.
该文提出一种基于Gauss混合模型(GMM)托肯配比相似度校正得分(GMM token ratio similarity based score regulation,GTRSR)的说话人识别方法。基于GMM-UBM(通用背景模型)识别框架,在自适应训练和测试阶段计算并保存自适应训练语句和测试语句在UBM上使特征帧得分最高的Gauss分量编号(GMM token)出现的比例(配比),然后在测试阶段计算测试语句和自适应训练语句的GMM托肯分布的配比的相似度GTRS,当GTRS小于某阈值时对测试得分乘以一个惩罚因子,将结果作为测试语句的最终得分。在MASC数据库上进行的实验表明,该方法能够使系统识别性能有一定的提升。  相似文献   

2.
一种新的高斯混合模型参数估计算法   总被引:3,自引:0,他引:3  
该文提出了一种高斯混合模型(GMM)参数估计的改进算法.原始的特征向量先经Schmidt正交化消除各维间的相关性,再用数学形态学方法估计出各维概率分布中混合分量的真实个数,最后按真实的混合分量个数用EM算法对各维分别作标量GMM参数估计.该方法能缓解GMM传统参数估计算法引起的“不易扩展”的不便.实验结果表明,将其应用于说话人辨认,能在较大幅度提高训练速度的基础上相对传统GMM参数估计方法获得更高的识别率.  相似文献   

3.
采用传统的高斯混合模型(Gaussian mixture model,GMM)进行语音带宽扩展时,会出现所估计的特征参数过平滑的问题,其主要原因是协方差估计不准确而导致扩展的高频特征细节信息的丢失,因此本文提出了码本映射(codebook mapping,CM)与高斯混合模型相结合的语音带宽扩展算法.提取高、低频特征参数,并训练高斯混合模型,基于高斯混合模型参数训练偏移矢量的码本;在扩展阶段,利用偏移矢量的码本将低频偏移矢量映射为高频偏移矢量,再将高频偏移矢量与高斯混合模型估计部分相加作为估计的高频特征参数.对利用该方法进行带宽扩展后的语音质量进行主观/客观评测.实验结果表明,相比传统的GMM语音带宽方法,CM-GMM合成的高频语音更接近原始高频语音,明显消除了高频过平滑现象.   相似文献   

4.
针对应用高斯混合模型(GMM)进行视频建模与分割时的模型选择及参数估计初值选择的难点,提出了一种基于GMM的视频对象分割算法.首先进行特征提取,在特征矢量中引入加权运动信息,可根据不同需要选择合理的加权系数,然后通过分割投影进行模型选择及期望最大化(EM)算法的参数初始化并估计参数,这种初值选择方案使得EM算法的初值和真实值较接近,加快了迭代运算的收敛速度,从而提高了视频对象的分割速度,最后对特征矢量进行聚类分割.仿真实验表明,在保持良好分割效果的同时,所提算法的运算速度约为常规方案的76%,并且具有良好的稳定性.  相似文献   

5.
为了高效率量化线谱频率(linear spectrumfrequency,LSF)参数,提出了基于G auss ian混合模型(G auss ian m ix ture m ode l,GMM)的LSF量化算法。假设LSF矢量属于GMM中的某一个G auss ian分布,用G auss ian分布随机矢量的量化方法对LSF矢量进行了量化。利用准确的G auss ian分布变量量化误差,得到了G auss ian分布矢量的比特分配方法。应用G auss ian分布随机变量的非均匀量化方法量化每一维LSF参数。最后给出了分裂矢量量化、基于概率密度函数(probab ility dens ityfunction,PDF)量化方法和该算法的性能对比。该无记忆LSF量化算法在21 b/帧可以达到透明量化,比传统Sp litVQ节省3 b。  相似文献   

6.
本文提出了一种基于模糊矢量量化(FVQ)和隐马尔柯夫模型(HMM)模糊训练的语音识别新方法.利用模糊矢量量化替代了传统方法中的矢量量化,语音特征参数序列经过模糊矢量量化后得到模糊观察符号序列.在此基础上提取出一个反映训练样本总体随机变化特性的模糊观察符号序列,然后用它对该音节的HMM进行一次性全局训练,训练算法经传统的Baum-Welch算法改进得到.经十个汉语数字的对比实验表明,该训练算法大大提高了系统的训练速度,模糊矢量量化与传统的矢量量化相比,不仅提高了隐马尔柯夫模型的鲁棒性,进而提高了系统的识别率,而且在语音训练数据不充足的情况下,也能得到很好的识别性能.  相似文献   

7.
研究了与文本无关的说话人辨认系统中一种新的使用基音周期方法。在说话人辨认系统中将矢量量化(VQ)、高斯混合模型(GMM)分类器结合,使用升正弦窗函数加权的线性预测倒谱系数(LPCC)。在训练时为训练集中的每个说话人估计一个一维高斯形式的基音周期概率密度函数;在识别时,将测试语音中提取的基音周期在训练集说话人基音周期概率模型中得到的基音周期概率密度对VQ、GMM分类器的似然测度加权,形成新的似然测度。实验结果表明,使用新的似然测度进行与文本无关的说话人辨认比VQ、GMM分类器的辨认率有较大的提高,码字个数为8,测试时间为8s时,辨认率相对VQ提高约13%。  相似文献   

8.
李笑  杨宇  徐一鸣 《科学技术与工程》2020,20(15):6141-6150
针对运动目标检测过程中已有算法难以同时提高准确性和实时性的问题,提出四帧间差分结合改进的混合高斯模型(Gaussian mixture model,GMM)算法,首先利用四帧间差分对预处理的视频帧差分处理,得到背景区域和运动区域;其次,使用改进的GMM,借助计数器调整高斯模型,提高高斯分量的自适应性,根据单位灰度值确定高斯分量个数,并引入敏感参数改进传统混合高斯模型对学习率的依赖;模型更新时借助计数器确定更新时机;最后,对结果使用形态学处理,提高目标提取的精确度。与已有算法的性能相比,查准率和查全率的调和平均值提高了约44.8%,对GMM算法的改进使得模型训练与检测的计算时间分别缩短至原算法的0.16倍、0.27倍,相比传统的混合高斯模型和文献中的方法,计算时间分别缩短至1/54、1/4、16/25,且对多种场景均能有效适应。  相似文献   

9.
为了挖掘更多语种间区分性信息进行可靠的自动语种识别,本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression,MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model,GMM),然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine,SVM)分类器进行训练和识别。比较了均值方差和排序两种归一化方法,并将多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明:排序归一化算法优于传统的均值方差归一化;建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升,并与GMM分类器有很强的互补性。  相似文献   

10.
基于Mayergoyz等的非线性Preisach模型,通过该模型在各个方向上进行矢量迭加,并通过在Preisach分布函数中引入与输出变化速度相关项,导出了一个新的动态矢量Preisach磁滞模型.分别从二维、三维情况下分布函数的有限傅立叶展开式出发,通过引入沿测试方向的弛豫时间,推出了二维、三维情况下新模型中分布函数的数学表达式.新的磁滞模型能较好地描述磁化过程的动态矢量可逆行义及材料的各向异性特性,还可以描述任意阶的微小回线变化规律.  相似文献   

11.
时空数据模型研究原则与表达方法的探讨   总被引:3,自引:0,他引:3  
时空数据模型的三个基本要素是空间位置、属性和时间.确定研究尺度范围内地理信息基元,合理表达时空关系和模型的层次体系是时空数据模型研究的基本原则.时空数据模型的表达方法主要有序列快照模型、基图修正模型、时空复合立方体模型、基于特征的时空数据模型和图谱数据模型.目前条件下,时空数据模型研究的重要意义在于,扩展传统地理信息系统的功能,实现时态地理信息系统(TGIS)的时序分析与规律预测.  相似文献   

12.
H.264/AVC网络视频编码失真评估的比特流层模型   总被引:1,自引:0,他引:1  
为了实现对采用H.264/AVC标准编码的网络视频质量的实时监测,提出一种评估视频编码质量的比特流层模型.该模型无需完全解码,只通过简单解析视频的量化参数、编码比特率以及运动矢量等信息评估视频流质量.首先,通过主观评估实验分析确定量化参数与视频编码失真的基本关系模型,然后利用量化参数和编码比特率预测视频的空间复杂度,利用运动矢量信息预测视频的时间复杂度,并结合空域掩盖效应和时域掩盖效应建立起一个能够反映人视觉特性的视频质量评估模型.实验结果表明,与解析码流的无参考网络视频质量评估模型相比,利用该模型得到的客观质量分数与主观质量分数的皮尔森相关系数提高了0.0160,均方根误差下降了0.0797.  相似文献   

13.
支持向量机(SVM)是以统计学习理论为基础,解决模式识别问题的有力工具,但是它训练算法复杂,难以处理大量样本,限制了其在说话人识别方面的使用。针对这个问题,提出了一种基于GMM(高斯混合模型)统计参数和SVM的说话人辨认系统,以GMM模型的统计参数来训练SVM说话人辨认模型,有效解决了大样本数据下SVM模型的训练问题。实验表明,该方法有良好的效果,并且与倒谱加权方法结合后,可以增强系统的健壮性,进一步提高系统的识别率。  相似文献   

14.
针对特定音频事件识别中持续时间特别短的音频事件漏检概率高、识别速度较慢的问题,提出一种融合高斯混合模型(GMM)及支持向量机(SVM)的特定音频事件识别算法. 该方法利用GMM的统计分布描述能力和SVM的推广泛化能力,将GMM和SVM分别识别的结果进行融合处理,以手枪、步枪、机关枪等10类以上枪声为实验数据,无需针对每种枪声生成相应的识别模板,仅需训练生成2个识别模板. 实验结果表明,识别准确率达到92.71%. 该方法模板数量少,不需要多次训练,算法复杂度较低,不仅便于应用而且可大幅提升识别效率.   相似文献   

15.
The spatial (economic loss) and temporal characteristics of urban fires were analyzed employing relevant statistical methods. A fractal structure in terms of the power-law relation between fire frequency and economic loss was found on a spatial scale, and an exponential relation between frequency and time interval was found on a temporal scale. Thus, urban fire does not meet the rigorous criteria of self-organized criticality. In addition, based on the spatial power-law distribution characteristics, a correlation model of the frequency and scale of loss due to urban fire was established using the extremum statistical method. This model was then applied to the case analysis of Hefei and the probability of major fire incidents in the future was predicted.  相似文献   

16.
与文本无关的复合策略说话人辨识系统   总被引:4,自引:1,他引:4  
为获得较高的说话人辨识正确率,同时减小辨识系统的时空开销,提出了一种复合策略的辨识系统。采用长时平均频谱作为粗识的特征,定义了相应的辨识判别准则。建立mel-倒谱特征的高斯混合模型(GMM)进行第二步辨识。给出了GMM求解算法的一种简便推导,着重研究了判别阈值,预加重系数,GMM阶次,训练语音长度及辨识语音长度对系统辨识性能的影响。  相似文献   

17.
为了在训练样本受限的情况下,提高汉语方言辨识的效果,提出了一种基于AdaBoost的汉语方言辨识新方法.该方法将GMM与语言模型组成的辨识系统看成一组弱分类器,然后对这组弱分类器所得的分类结果进行加权投票,最终决定汉语方言测试语音的所属类别.实验结果表明:增加GMM或弱分类器的个数,可以有效提高系统的辨识效果;测试语音越长,系统辨识效果越好;当训练样本有限的情况下,采用AdBoost方法比采用ANN方法具有更高的辨识率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号