排序方式: 共有100条查询结果,搜索用时 0 毫秒
1.
双模型语音识别中的听视觉合成和模型同步异步性实验研究 总被引:3,自引:0,他引:3
研究了双模型语音识别系统中前合成和后合成两种听觉视觉合成方法;同时在后合成方法中引入了考虑听觉和视觉同步异步特点的复合模型。仿真实验证明了在声学噪音环境下,后合成方法能够带来比较理想的识别效果;考虑听觉和视觉同步异步性的模型可以有效地提高识别率。 相似文献
2.
提出了一种新的连续语音情感识别特征:语音元音段声门激励的时域参数归一化振幅商(the normalized amplitude quotient,NAQ).该方法首先运用迭代自适应逆滤波器(Iterative Adaptive Inverse Filtering,IAIF)估计声门波,然后采用NAQ值来描述声门开启和闭合的特性.采用eNERFACE'05听视觉情感语音数据库中六种不同情感的语音为实验数据,以情感语音元音段的归一化振幅商值为特征,使用直方图和盒形图分析其特征的分布和对情感的区分能力;以情感语句元音段的NAQ值的均值、方差、最大值、最小值作为特征,用高斯混合模型(Gaussian Minute Models,GMM)和k-近邻法进行了语音情感识别实验.结果表明NAQ特征对语音情感具有较强的区别能力. 相似文献
3.
采用纳米压入(nanoindentation)和电子背散射衍射(EBSD)技术对多晶Cu样品多个晶粒进行了微观力学性能表征和晶体取向分析.结果表明,Young's模量随晶粒表面法向方向(hkl)与(111)和(001)最小夹角的变化有明显的规律:(hkl)越接近(111),其Young's模量越大;(hkl)越接近(001),其Young's模量越小;而Young's模量随(hkl)与(110)最小夹角的变化无明显规律.硬度随(hkl)与(111),(110)和(001)最小夹角的变化均无明显规律.通过理论计算讨论了上述规律性. 相似文献
4.
针对说话时发音和口形的异步问题,提出了一个多流异步动态贝叶斯网络(DynamicBayesian Network,DBN)模型,以实现基于音视频特征的连续语音识别,在这个模型中,音频流和视频流在词节点同步,而在词节点之间,音视频流有各自独立的拓扑结构以及节点变量之间的条件依赖关系,同时词转移节点变量由音视频流共同确定,模型在词级别上体现了音视频流的异步性.采用连续数字音视频数据库的实验结果表明,在信噪比为O~30 dB的测试环境下,比较单流DBN模型和多流隐马尔可夫模型,平均识别率分别提高了8.68%和10.07%. 相似文献
5.
语音和唇部运动的异步性是多模态融合语音识别的关键问题,该文首先引入一个多流异步动态贝叶斯网络(MS-ADBN)模型,在词的级别上描述了音频流和视频流的异步性,音视频流都采用了词-音素的层次结构.而多流多状态异步DBN(MM-ADBN)模型是MS-ADBN模型的扩展,音视频流都采用了词-音素-状态的层次结构.本质上,MS-ADBN是一个整词模型,而MM-ADBN模型是一个音素模型,适用于大词汇量连续语音识别.实验结果表明:基于连续音视频数据库,在纯净语音环境下,MM-ADBN比MS-ADBN模型和多流HMM识别率分别提高35.91%和9.97%. 相似文献
6.
基于动态贝叶斯网络的语音识别及音素切分研究 总被引:1,自引:1,他引:0
研究了一种基于动态贝叶斯网络(dynamic bayesian networks, DBN)的语音识别建模方法,利用GMTK(graphical model tool kits)工具构建音素级音频流DBN语音训练和识别模型,同时与传统的基于隐马尔可夫的语音识别结果进行比较,并给出词与音素的切分结果.实验表明,在各种信噪比测试条件下,基于DBN的语音识别结果与基于HMM的语音识别结果相当,并表现出一定的抗噪性,音素的切分结果也比较准确. 相似文献
7.
基于构建主义的Internet远程教育浅析 总被引:2,自引:0,他引:2
通过对Internet网在远程教育中创造了建构主义学习环境,远程教育应用技术和Internet网对教与学的要求几方面阐述了Internet网在远程教育中的优越性,它能在远程教学远程中提供更多的信息,资源共享。在教与学中通过异步交互方式使远程教育在一定程度上再现了面对面的交流优势。 相似文献
8.
9.
10.