期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张净波杨元维徐杰蒋梦月李鹏杜李慧《计算机与数字工程》2021,49(8):1676-1681

为将语音信号转化为嘴唇动画,最大限度的使嘴唇曲线自然协调,合成较为真实的嘴唇动画,提出了一种基于弗格森函数添加嘴唇特征点的方法,弥补了MPEG-4(Moving Pictures Experts Group-4)标准人脸特征点中嘴唇特征点数量不足的情况;此外建立了含有视位参数的动画模型,并基于声母韵母建立语音和动画的映射以获得视位参数,然后将视位参数基于时间进行线性过渡生成视位参数序列,保证了语音和动画在时间上的同步.实验表明该方法符合人的发音习惯,对细节的刻画效果较好,与真实口型匹配的准确率较高. 相似文献

2.

基于多块模式决策的边信息生成方法

赵晓侠束军檀会娟《计算机测量与控制》2016,24(10)

分布式视频编码中边信息的质量决定了系统的率失真性能,边信息质量越高,则率失真性能越好。针对视频序列中对象运动的不均匀特性,结合MCTI技术,本文提出了一种新的边信息生成算法。其基本思想是在编码端利用多块模式算法对帧中宏块进行划分,将宏块分为运动缓慢块和运动剧烈块;在解码端,对运动缓慢块直接由MCTI算法生成边信息,而运动剧烈块的边信息要经过后处理进行优化得到。仿真实验表明与直接由MCTI生成边信息方法相比,本文算法可以使生成边信息的峰值信噪比(PSNR)比原有的算法提高0.8dB-1.2dB左右,有效提高了边信息的质量。相似文献

3.

基于卷积神经网络的运动模糊编码点识别

《计算机辅助设计与图形学学报》2017,(10)

为解决运动目标三维视觉测量中的运动模糊视觉特征难以识别的问题,提出一种利用卷积神经网络识别布设于运动目标上的、具有一定运动模糊效应的视觉编码点的方法.首先构建并解析运动模糊编码点识别网络(MBCNet);然后通过分析运动模糊效应形成机理,设计实现六参数驱动的运动模糊图像模拟生成系统,并利用该系统模拟生成的100类编码点,共对66.5万幅运动模糊图像进行网络训练和测试,以解决大量实拍样本数据难以获得的问题.对实际拍摄的5类编码点共1.5万幅的运动模糊图像进行实验的结果表明,其识别精度达到了92.51%;该方法模拟生成的编码点运动模糊图像可以获得良好的网络训练效果,且构建的MBCNet具有良好的泛化性能. 相似文献

4.

视觉语音参数的自动估计

王志明蔡莲红艾海舟《计算机研究与发展》2005,42(7):1185-1190

视觉语音参数估计在视觉语音的研究中占有重要的地位．从MPEG-4定义的人脸动画参数FAP中选择24个与发音有直接关系的参数来描述视觉语音,将统计学习方法和基于规则的方法结合起来,利用人脸颜色概率分布信息和先验形状及边缘知识跟踪嘴唇轮廓线和人脸特征点,取得了较为精确的跟踪效果．在滤除参考点跟踪中的高频噪声后,利用人脸上最为突出的4个参考点估计出主要的人脸运动姿态,从而消除了全局运动的影响,最后根据这些人脸特征点的运动计算出准确的视觉语音参数,并得到了实际应用．相似文献

5.

可伸缩视频码流的熵编码组合优化方法

下载免费PDF全文

赵志杰刘增玉张立志李云单大伟《计算机工程》2008,34(24):225-227

分析可伸缩视频编码系统中由嵌入式零树编码生成的码流特征,提出一种利用最优预测估计思想将算术编码和游程编码相结合,实现熵编码优化的新方法。实验结果表明,该方法比传统自适应算术编码的效率提高了10%左右,达到了进一步压缩数据的目的。相似文献

6.

基于视频的树木运动信息提取和动画生成技术研究

董宇谢思超董天阳《计算机时代》2008,(11)

为了快速模拟树木在风中的运动和形变,提出了一种基于视频的树木运动信息提取和动画生成方法,可以在虚拟场景中快速绘制具有动态效果的三维树木模型.该方法首先将含有树木运动的视频转化为多个关键帧,以提取树木的形态和运动信息,并通过数据最小二乘拟合方法计算出其运动轨迹,然后对其进行三维模型重建和运动模拟.实验表明,该方法可以快速地建立树木的三维模型,并能较好地模拟树木的运动和形变. 相似文献

7.

脸由音生：语音驱动的静动态人脸生成方法

下载免费PDF全文

赵璐璐陈雁翔赵鹏铖朱玉鹏盛振涛《计算机工程与应用》2022,58(18):122-129

语音驱动人脸生成旨在挖掘语音片段和人脸之间的静动态关联性,进而由给定的语音片段生成对应的人脸图像。然而已有的研究方法大多只考虑其中的一种关联性,且对静态人脸生成的研究严格依赖于时序对齐的音视频数据,在一定程度上限制了静态模型的使用范围。提出了一种基于条件生成对抗网络的语音驱动静动态人脸生成模型（SDVF-GAN）。该模型基于自注意力机制构建语音编码器网络以获得更为准确的听觉特征表达,并将其作为静态生成网络和动态生成网络的输入;静态生成网络利用基于投影层的图像判别器合成出属性一致（年龄、性别）且高质量的静态人脸图像,动态生成网络利用基于注意力思想的嘴唇判别器和图像判别器合成出嘴唇同步的动态人脸序列。实验利用所构建的属性对齐的Voice-Face数据集和公共的LRW数据集分别训练静态人脸生成网络和动态人脸生成网络。结果表明,该模型综合研究了语音和人脸之间的属性对应和嘴唇同步关系,实现了质量更高且关联性和同步性更强的人脸图像生成。相似文献

8.

基于HMM监控视频的异常事件检测

吕英丽顾勇张晓峰《数据采集与处理》2014,29(6):1030-1035

针对智能监控系统中的行为分析与识别,将隐马尔可夫模型（Hidden Markov model,HMM）应用到智能视频监控系统的异常事件检测中。首先应用背景差法将运动目标提取出来。其次将运动目标的形状、颜色和帧间变化度等特征编码,生成特征向量。训练时将特征向量送入HMM训练得到隐马尔可夫模型需要的参数[WTHX]A和B[WTBZ],检测时将特征向量送入HMM检测系统检测是否有异常事件发生。最后的实验结果表明,该方法能快速有效地检测监控视频中的异常事件的发生。相似文献

9.

完全可伸缩视频编码的实现

下载免费PDF全文

曾文权向友君《计算机工程与应用》2009,45(21):112-114

提出了一种完全可伸缩视频编码的实现方法。给出了一种采用运动补偿时域滤波、二维离散小波变换和EZW编码的可伸缩编码方案,方案根据视频图像运动特征自适应选择图组结构,在将时间、空间、质量三方面的伸缩性有机地结合的同时,改进了完全可伸缩视频编码系统性能。最后给出了该方案的实验结果,表明了系统的有效性。相似文献

10.

唇同步的自动识别与验证研究

侯亚荣熊璋《计算机工程与设计》2004,25(2):166-169

唇同步效果影响人类对语言的理解。着重研究汉语语音和口型的唇同步，将汉语对应口型划分为4类、两种状态(极点态与过渡态)，得出汉语唇同步验证是对极点态音频和极点态视频的同步验证，提出基于极点态音频／视频知识库的唇同步识别与验证模型，分别阐述了模型中音频／视频特征分析子系统，提出了可以将基于运动对象识别的帧间差法与嘴唇形状、颜色和运动特征结合，实现嘴唇精确定位，最后给出唇同步验证过程。相似文献

11.

基于关键点表示的语音驱动说话人脸视频生成

年福东王文涛王妍张晶晶胡贵恒李腾《模式识别与人工智能》2021,34(6):572-580

针对现有语音生成说话人脸视频方法忽略说话人头部运动的问题,提出基于关键点表示的语音驱动说话人脸视频生成方法.分别利用人脸的面部轮廓关键点和唇部关键点表示说话人的头部运动信息和唇部运动信息,通过并行多分支网络将输入语音转换到人脸关键点,通过连续的唇部关键点和头部关键点序列及模板图像最终生成面部人脸视频.定量和定性实验表明,文中方法能合成清晰、自然、带有头部动作的说话人脸视频,性能指标较优. 相似文献

12.

基于自监督知识迁移的鲁棒性语音识别技术

柏财通崔翛龙郑会吉李爱《计算机应用》2022,42(10):3217-3223

针对标注神经网络训练数据的成本日益增加与噪声干扰阻碍语音识别系统性能提升的问题,提出一种基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法。首先,在预处理阶段提取原始语音样本的三个人工特征;然后,在训练阶段将特征提取网络生成的高级特征分别通过三个浅层网络来拟合预处理阶段提取的人工特征;同时,把特征提取前端与语音识别后端进行交叉训练,并合并它们的损失函数;最后,通过梯度反向传播令特征提取网络学会提取更有助于去噪语音识别的高级特征,从而实现人工知识迁移与去噪,并高效利用了训练数据。在军事装备控制的应用场景下,基于加噪后的THCHS-30、希尔贝壳数据集AISHELL-1与ST-CMDS这三个开源中文语音识别数据集以及军事装备控制指令的数据集上进行测试,实验结果表明,基于自监督知识迁移的鲁棒性语音识别模型的模型训练算法词错率可以降低到0.12,不仅可以实现对鲁棒性语音识别模型的模型训练,同时通过自监督知识迁移提高了训练样本的利用率,可完成装备控制任务。相似文献

13.

Automatic visual speech segmentation and recognition using directional motion history images and Zernike moments

Ayaz A. Shaikh Dinesh K. Kumar Jayavardhana Gubbi 《The Visual computer》2013,29(10):969-982

Appearance-based visual speech recognition using only video signals is presented. The proposed technique is based on the use of directional motion history images (DMHIs), which is an extension of the popular optical-flow method for object tracking. Zernike moments of each DMHI are computed in order to perform the classification. The technique incorporates automatic temporal segmentation of isolated utterances. The segmentation of isolated utterance is achieved using pair-wise pixel comparison. Support vector machine is used for classification and the results are based on leave-one-out paradigm. Experimental results show that the proposed technique achieves better performance in visemes recognition than others reported in literature. The benefit of this proposed visual speech recognition method is that it is suitable for real-time applications due to quick motion tracking system and the fast classification method employed. It has applications in command and control using lip movement to text conversion and can be used in noisy environment and also for assisting speech impaired persons. 相似文献

14.

基于运动引导的高效无监督视频目标分割网络

赵子成张开华樊佳庆刘青山《自动化学报》2023,49(4):872-880

大量基于深度学习的无监督视频目标分割(Unsupervised video object segmentation, UVOS)算法存在模型参数量与计算量较大的问题,这显著限制了算法在实际中的应用.提出了基于运动引导的视频目标分割网络,在大幅降低模型参数量与计算量的同时,提升视频目标分割性能.整个模型由双流网络、运动引导模块、多尺度渐进融合模块三部分组成.具体地,首先, RGB图像与光流估计输入双流网络提取物体外观特征与运动特征;然后,运动引导模块通过局部注意力提取运动特征中的语义信息,用于引导外观特征学习丰富的语义信息;最后,多尺度渐进融合模块获取双流网络的各个阶段输出的特征,将深层特征渐进地融入浅层特征,最终提升边缘分割效果.在3个标准数据集上进行了大量评测,实验结果表明了该方法的优越性能. 相似文献

15.

基于多层BP神经网络的无参考视频质量客观评价

姚军财申静黄陈蓉《自动化学报》2022,48(2):594-607

机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型. 相似文献

16.

一种基于语音组成单位的说话人识别算法

黄长存汪增福《模式识别与人工智能》2008,21(6):856-866

以线性预测系数为特征通过高斯混合模型的迭代算法对训练样本的初始k均值聚类结果进行优化,得到语音组成单位的表示.以语音组成单位的模式匹配为基础,提出一种文本无关说话人确认的方法——均值法,以及一种文本无关说话人辨认方法.实验结果表明,即使在短时语音下本文方法都能取得较好效果. 相似文献

17.

基于参数迁移和卷积循环神经网络的语音情感识别

下载免费PDF全文

缪裕青邹巍刘同来周明蔡国永《计算机工程与应用》2019,55(10):135-140

在语音情感识别研究中,已有基于深度学习的方法大多没有针对语音时频两域的特征进行建模,且存在网络模型训练时间长、识别准确性不高等问题。语谱图是语音信号转换后具有时频两域的特殊图像,为了充分提取语谱图时频两域的情感特征,提出了一种基于参数迁移和卷积循环神经网络的语音情感识别模型。该模型把语谱图作为网络的输入,引入AlexNet网络模型并迁移其预训练的卷积层权重参数,将卷积神经网络输出的特征图重构后输入LSTM（Long Short-Term Memory）网络进行训练。实验结果表明,所提方法加快了网络训练的速度,并提高了情感识别的准确率。相似文献

18.

Innovative wavelet based speech model using optimal mother wavelet generated from pitch synchronous LPC trajectory

S. D. Apte 《International Journal of Speech Technology》2007,10(1):57-62

The paper proposes an innovative technique for generation of optimal mother wavelet using LPC trajectory with special reference to speech recognition. A new wavelet based model is proposed for speech signal processing. Lower order linear predictor coefficients (LPC) are related to the vocal tract area near lip that is the articulating organ. The trajectory of second LPC is proposed for the generation of mother wavelet for speech recognition. The observation interval is selected as the pitch period that represents one complete cycle of speech waveform. LPC of order 10 are evaluated for each pitch synchronous (PS) segment. An innovative technique is proposed for the generation of mother wavelet. The mother wavelet is separately generated for each word utterance. This generates a multidimensional space for speech words and increases the recognition accuracy. The wavelet transform (WT) coefficients are evaluated with respect to the generated mother wavelet for each word utterance and are stored as template along with the generated mother wavelet for each word utterance. The data base consists of 30 word utterances recorded locally using the sound recorder facility. In the recognition mode, the external word utterance is scanned and is divided into PS segments. The trajectory of second LPC is tracked. WT coefficients are evaluated with respect to the mother wavelet of each word in the vocabulary and are compared with the template for each word. The results indicate 100% recognition accuracy. 相似文献

19.

结合BiLSTM和注意力机制的视频行人再识别

下载免费PDF全文

余晨阳温林凤杨钢王玉涛《中国图象图形学报》2019,24(10):1703-1710

目的跨摄像头跨场景的视频行人再识别问题是目前计算机视觉领域的一项重要任务。在现实场景中,光照变化、遮挡、观察点变化以及杂乱的背景等造成行人外观的剧烈变化,增加了行人再识别的难度。为提高视频行人再识别系统在复杂应用场景中的鲁棒性,提出了一种结合双向长短时记忆循环神经网络（BiLSTM）和注意力机制的视频行人再识别算法。方法首先基于残差网络结构,训练卷积神经网络（CNN）学习空间外观特征,然后使用BiLSTM提取双向时间运动信息,最后通过注意力机制融合学习到的空间外观特征和时间运动信息,以形成一个有判别力的视频层次表征。结果在两个公开的大规模数据集上与现有的其他方法进行了实验比较。在iLIDS-VID数据集中,与性能第2的方法相比,首位命中率Rank1指标提升了4.5%;在PRID2011数据集中,相比于性能第2的方法,首位命中率Rank1指标提升了3.9%。同时分别在两个数据集中进行了消融实验,实验结果验证了所提出算法的有效性。结论提出的结合BiLSTM和注意力机制的视频行人再识别算法,能够充分利用视频序列中的信息,学习到更鲁棒的序列特征。实验结果表明,对于不同数据集,均能显著提升识别性能。相似文献

20.

面向边缘端设备的轻量化视频异常事件检测方法

李南君李爽李拓邹晓峰王长红《计算机应用研究》2024,41(1)

现有基于CNN模型的视频异常事件检测方法在精度不断提升的同时,面临架构复杂、参数庞大、训练冗长等问题,致使硬件算力需求高,难以适配无人机等计算资源有限的边缘端设备。为此,提出一种面向边缘端设备的轻量化异常事件检测方法,旨在平衡检测性能与推理延迟。首先,由原始视频序列提取梯度立方体与光流立方体作为事件表观与运动特征表示;其次,设计改进的小规模PCANet获取梯度立方体对应的高层次分块直方图特征;再次,根据每个局部分块的直方图特征分布情况计算表观异常得分,同时基于内部像素光流幅值累加计算运动异常得分;最后,依据表观与运动异常得分的加权融合值判别异常分块,实现表观与运动异常事件联合检测与定位。在公开数据集UCSD的Ped1与Ped2子集上进行实验验证,所提方法的帧层面AUC分别达到86.7%与94.9%,在领先大多数对比方法的同时参数量明显降低。实验结果表明该方法在低算力需求下,可以实现较高的异常检测稳定性和准确率,能够有效兼顾检测精度与计算资源,因此适用于低功耗边缘端设备。相似文献