共查询到19条相似文献,搜索用时 672 毫秒
1.
给出了基于公共码书的说话人分布特征的定义。提出了基于分布特征统计的说话人识别算法,根据所有参考说话人的训练语音建立公共码书,实现对语音特征空间的分类,统计各参考说话人训练语音的在公共码字上的分布特征进行建模。识别中引入双序列比对方法进行识别语音的分布特征统计与参考说话人模型间的相似度匹配,实现对说话人的辨认。实验表明,该方法保证识别率的情况下,进一步提高了基于VQ的说话人识别的速度。 相似文献
2.
编码环境失配是影响说话人识别准确率的重要因素之一。在说话人识别系统上,对码速率在5.15~128 Kb/s之间的语音编码进行了实验分析,结果表明,高速率语音编码对说话人识别系统的影响不大,低速率语音编码使系统性能急剧下降。针对这一问题,采用基于UBM的说话人模型合成算法对低速率语音编码的说话人模型进行补偿,在NIST 2002单说话人识别数据库上的实验表明,此方法能显著提高系统识别率。 相似文献
3.
基于改进VQ算法的文本无关的说话人识别 总被引:3,自引:2,他引:3
基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说话人识别方法。经实验结果证明,论文的方法加快了码书的形成,减少了码书形成的计算量,改善了码本的性能,提高了说话人识别的识别率。 相似文献
4.
5.
说话人识别是根据检测到的语音进行说话人身份的认证.是将待识别语音与数据库中的说话人语音进行匹配的过程。设计基于高斯混合模型(GMM)说话人识别系统,提取输入语音的Mel倒谱系数作为观察向量,用GMM算法进行说话人语音模型训练和识别。同时设计基于TMS320DM3730DSP的嵌入式硬件平台,并在该平台上实现所设计的说话人识别系统。为进行性能测试,自行录制相应的语音材料库,录音的人数为38人,其中男19人,女19人。经测试表明,在正常环境下.该设计的说话人系统识别率可达到95%以上。 相似文献
6.
7.
为了提高说话人识别(SR)系统的运算速度,增强其鲁棒性,以现有的帧级语音特征为基础,提出了一种基于段级特征主成分分析的说话人识别算法。该算法在训练和识别阶段以段级特征代替帧级特征,然后用主成分分析方法对段级特征进行降维、去相关。实验结果表明,该算法的系统训练时间、测试时间分别为基线系统的47.8%、40.0%,同时识别率略有提高,抑制了噪声对说话人识别系统的影响。该结果验证了基于段级特征主成分分析的说话人识别算法在识别率有所提高的情况下取得了较快的识别速度,同时在不同噪声环境下的不同信噪比情况下均可以提高系统识别率。 相似文献
8.
当测试语音时长充足时,单一特征的信息量和区分性足够完成说话人识别任务,但是在测试语音很短的情况下,语音信号里缺乏充分的说话人信息,使得说话人识别性能急剧下降。针对短语音条件下的说话人信息不足的问题,提出一种基于多特征i-vector的短语音说话人识别算法。该算法首先提取不同的声学特征向量组合成一个高维特征向量,然后利用主成分分析(PCA)去除高维特征向量的相关性,使特征之间正交化,最后采用线性判别分析(LDA)挑选出最具区分性的特征,并且在一定程度上降低空间维度,从而实现更好的说话人识别性能。结合TIMIT语料库进行实验,同一时长的短语音(2 s)条件下,所提算法比基于i-vector的单一的梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、感知对数面积比系数(PLAR)特征系统在等错误率(EER)上分别有相对72.16%、69.47%和73.62%的下降。不同时长的短语音条件下,所提算法比基于i-vector的单一特征系统在EER和检测代价函数(DCF)上大致都有50%的降低。基于以上两种实验的结果充分表明了所提算法在短语音说话人识别系统中可以充分提取说话人的个性信息,有利地提高说话人识别性能。 相似文献
9.
10.
11.
传统的利用话者的一个时期的语音作为训练语音,进行话者码本训练的方法,识别系统往往不够稳定.为了适应话者自身语音的时变性,文中提出了利用话者不同时期的语音进行训练话者的模型,每个话者具有多个码本.这些码本是采用逐渐减小误识率的优化过程得到的.为了补偿不同信道对系统识别性能的影响,文中给出了一种信道补偿方法.同时提出以一帧高能的浊音语音特征代替一个浊音音素的特征,实现了在线浊音特征提取,利用两级矢量量化及码本索引策略减少了44%的识别计算量.这些方法大大增加了系统的识别速度和鲁棒性.文中比较了用PLP分析和LPC倒谱分析进行话者辨认的识别结果. 相似文献
12.
针对不法分子利用IM协议通信软件泄露国家和企业机密以及传播反动言论的问题,文中在深入研究和分析多种即时通信软件的IM协议的基础上,总结以往IM协议识别系统的缺陷,配合DPI技术的应用设计了一个全新的IM协议检测系统,即基于DPI技术的IM协议识别系统,该系统能够有效地对多种即时通信软件进行识别和监控。通过实验对多种即时通信软件如QQ,fetion,MSN,新浪微博桌面版,googletalk,yahoomsg等的文本信息进行实时监控,验证了该系统对IM协议识别具备极高的识别率以及优越的稳定性。 相似文献
13.
目的 对人体行为的描述是行为识别中的关键问题,为了能够充分利用训练数据从而保证特征对行为的高描述性,提出了基于局部时空特征方向加权的人体行为识别方法。方法 首先,将局部时空特征的亮度梯度特征分解为3个方向(X、Y、Z)分别来描述行为, 通过直接构造视觉词汇表分别得到不同行为3方向特征描述子集合的标准视觉词汇码本,并利用训练视频得到每个行为的标准3方向词汇分布;进而,根据不同行为3方向特征描述子集合的标准视觉词汇码本,分别计算测试视频相应的3方向的词汇分布,并利用与各行为标准3方向词汇分布的加权相似性度量进行行为识别;结果 在Weizmann数据库和KTH数据库中进行实验,Weizmann数据库中的平均识别率高达96.04%,KTH数据库中的平均识别率也高达96.93%。结论 与其他行为识别方法相比可以明显提高行为平均识别率。 相似文献
14.
针对目前网络教学系统中对学生学习情绪与学习状态的捕捉辨识存在问题,提出在网络学习情绪辨别机制中,结合人脸表情辨别和基于半投票机制的文字语意推论辨别两种非侵入性情绪辨别方式的优点,设计了网络实时监视指导单元.实验表明,该非侵入性的情绪双元辨别机制使网络教学系统中的学习情绪辨别率得到有效提升,系统交互性明显加强,为网络教学系统中学习情绪辨别机制的设计提供方向. 相似文献
15.
摘 要:近年来,车标识别因其在智能交通系统中的重要作用,受到研究者的广泛关注。 传统的车标识别算法多基于手工描述子,需要丰富的先验知识,且难以适应复杂多变的现实应 用场景。相比手工描述子,特征学习方法在解决复杂场景的计算机视觉问题时具有更优性能。 因此,提出一种基于目标优化学习的车标识别方法,基于从原图像中提取的像素梯度差矩阵, 通过目标优化,自主学习特征参数。然后将像素梯度差矩阵映射为紧凑的二值矩阵,通过特征 码本的方式对特征信息进行编码,生成鲁棒的特征向量。基于公开车标数据集 HFUT-VL1 和 XMU 进行实验,并与其他车标识别方法进行比较。实验结果表明,与基于传统特征描述子的 方法相比,该算法识别率更高,与基于深度学习的方法相比,训练和测试时间更少。 相似文献
16.
使用独立分量分析(ICA)来提取说话人特征并与矢量量化(VQ)判决方法相结合,实现了一个高性能的基于ICA特征的VQ (ICA VQ)说话人识别系统。通过ICA变换得到说话人语音特征基函数系数用于生成VQ码书,并导出包含能量失真的ICA VQ码书失真测度和质心确定条件,生成最终的判决。仿真实验中ICA提取的特征分别用于不同系统实现说话人确认任务,各系统的DET曲线对比验证了VQ方法用于ICA特征分类判决的优势,同时不同码书尺寸下的等差率(EER)对比证明了VQ码书设计的有效性。 相似文献
17.
18.
19.
Juan Manuel Pascual-Gaspar Carlos Vivaracho 《Engineering Applications of Artificial Intelligence》2011,24(2):368-377
This paper proposes a multi-section vector quantization approach for on-line signature recognition. We have used the MCYT database, which consists of 330 users and 25 skilled forgeries per person performed by 5 different impostors. This database is larger than those typically used in the literature. Nevertheless, we also provide results from the SVC database.Our proposed system outperforms the winner of SVC with a reduced computational requirement, which is around 47 times lower than DTW. In addition, our system improves the database storage requirements due to vector compression, and is more privacy-friendly as it is not possible to recover the original signature using the codebooks. Experimental results with MCYT provide a 99.76% identification rate and 2.46% EER (skilled forgeries and individual threshold). Experimental results with SVC are 100% of identification rate and 0% (individual threshold) and 0.31% (general threshold) when using a two-section VQ approach. 相似文献