排序方式: 共有100条查询结果,搜索用时 15 毫秒
1.
双模型语音识别中的听视觉合成和模型同步异步性实验研究 总被引:3,自引:0,他引:3
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下,后合成方法能够带来比较理想的识别效果;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 相似文献
2.
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性.采用连续数字音视频数据库的实验结果表明,在信噪比为O~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%. 相似文献
3.
提出了一种新的连续语音情感识别特征:语音元音段声门激励的时域参数归一化振幅商(the normalized amplitude quotient,NAQ).该方法首先运用迭代自适应逆滤波器(Iterative Adaptive Inverse Filtering,IAIF)估计声门波,然后采用NAQ值来描述声门开启和闭合的特性.采用eNERFACE'05听视觉情感语音数据库中六种不同情感的语音为实验数据,以情感语音元音段的归一化振幅商值为特征,使用直方图和盒形图分析其特征的分布和对情感的区分能力;以情感语句元音段的NAQ值的均值、方差、最大值、最小值作为特征,用高斯混合模型(Gaussian Minute Models,GMM)和k-近邻法进行了语音情感识别实验.结果表明NAQ特征对语音情感具有较强的区别能力. 相似文献
4.
基于动态贝叶斯网络的语音识别及音素切分研究 总被引:1,自引:1,他引:0
研究了一种基于动态贝叶斯网络(dynamic bayesian networks, DBN)的语音识别建模方法,利用GMTK(graphical model tool kits)工具构建音素级音频流DBN语音训练和识别模型,同时与传统的基于隐马尔可夫的语音识别结果进行比较,并给出词与音素的切分结果.实验表明,在各种信噪比测试条件下,基于DBN的语音识别结果与基于HMM的语音识别结果相当,并表现出一定的抗噪性,音素的切分结果也比较准确. 相似文献
5.
采用纳米压入(nanoindentation)和电子背散射衍射(EBSD)技术对多晶Cu样品多个晶粒进行了微观力学性能表征和晶体取向分析.结果表明,Young's模量随晶粒表面法向方向(hkl)与(111)和(001)最小夹角的变化有明显的规律:(hkl)越接近(111),其Young's模量越大;(hkl)越接近(001),其Young's模量越小;而Young's模量随(hkl)与(110)最小夹角的变化无明显规律.硬度随(hkl)与(111),(110)和(001)最小夹角的变化均无明显规律.通过理论计算讨论了上述规律性. 相似文献
6.
7.
基于并行工程的角度,重建了全面、合理、精确的地下自卸汽车驱动桥NGW型行星减速器优化设计教学模型.介绍了有效运用非标模教制和MATLAB软件解决优化解圆整问题的手段,提供了设计实例和适用性评价方法,有助于提高优化设计的效率和质量. 相似文献
8.
基于构建主义的Internet远程教育浅析 总被引:2,自引:0,他引:2
通过对Internet网在远程教育中创造了建构主义学习环境,远程教育应用技术和Internet网对教与学的要求几方面阐述了Internet网在远程教育中的优越性,它能在远程教学远程中提供更多的信息,资源共享。在教与学中通过异步交互方式使远程教育在一定程度上再现了面对面的交流优势。 相似文献
9.
针对非特定人语音识别中的声道长度归一化问题,首先研究一种能够去牛基音激励的,基于自相关估计的共振峰(Formart) 频谱恢复方法,说明了不同说话人发同一元音时的频谱互为尺度化的关系,以及它们与同一说话人发不同元音时频谱的差别,然后结合具有尺度不变性的Mellin变换,提出了一种适用于非特定人的语音特征提取方法,在实难中,对从非特定人收集的20个汉语元音,分别提取了其FFT倒谱,Mel倒谱,FFT-Mellin倒谱及本文Formant-Mellin倒谱,并用一种很直观的F-roato分辨率准则进行了性能评价,结果表明,无论是对纯净的,还是对带附加白噪声的发音样本,本文由共振峰恢复和Mellin变换相结合得到的语音特征都具有较高的分辨率。 相似文献
10.