改进Wav2Lip的文本音频驱动人脸动画生成 Text Audio Driven Facial Animation Generation Based on Improved Wav2Lip期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

改进Wav2Lip的文本音频驱动人脸动画生成

引用本文：	孙瑜,朱欣娟.改进Wav2Lip的文本音频驱动人脸动画生成[J].计算机系统应用,2024,33(2):276-283.

作者姓名：	孙瑜朱欣娟

作者单位：	西安工程大学计算机科学学院, 西安 710600

基金项目：	国家重点研发计划(2019YFC1521400)

摘要：	为了提高中文唇音同步人脸动画视频的真实性, 本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术. 首先, 构建了一个中文唇音同步数据集, 使用该数据集来预训练唇部判别器, 使其判别中文唇音同步人脸动画更加准确. 然后, 在Wav2Lip模型中, 引入文本特征, 提升唇音时间同步性从而提高人脸动画视频的真实性. 本文模型综合提取到的文本信息、音频信息和说话人面部信息, 在预训练的唇部判别器和视频质量判别器的监督下, 生成高真实感的唇音同步人脸动画视频. 与ATVGnet模型和Wav2Lip模型的对比实验表明, 本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性, 提高了人脸动画视频整体的真实感. 本文成果为当前人脸动画生成需求提供一种解决方案.
关键词：	文本音频驱动人脸动画 Wav2Lip模型动画生成
收稿时间：	2023/8/17 0:00:00
修稿时间：	2023/9/26 0:00:00
Text Audio Driven Facial Animation Generation Based on Improved Wav2Lip

SUN Yu,ZHU Xin-Juan.Text Audio Driven Facial Animation Generation Based on Improved Wav2Lip[J].Computer Systems& Applications,2024,33(2):276-283.

Authors:	SUN Yu ZHU Xin-Juan

Abstract:	In order to improve the authenticity of Chinese lip synchronized facial animation videos, this study proposes a text audio-driven facial animation generation technology based on the improved Wav2Lip model. Firstly, a Chinese lip synchronized dataset is constructed, which is used to pre-train the lip discriminator to make it more accurate in discriminating Chinese lip synchronized facial animations. Then, in the Wav2Lip model, text features are introduced to improve lip time synchronization and thus improve the authenticity of facial animation videos. The model in this study synthesizes the extracted text information, audio information, and speaker facial information and generates a highly realistic lip synchronized facial animation video under the supervision of a pre-trained lip discriminator and video quality discriminator. The comparative experiments with the ATVGnet model and Wav2Lip model show that the lip synchronized facial animation video generated by the proposed model improves the synchronization between lip shape and audio and enhances the overall realism of the facial animation video. The paper provides a solution for the current facial animation generation.

Keywords:	text audio drive facial animation Wav2Lip model animation generation

	点击此处可从《计算机系统应用》浏览原始摘要信息
	点击此处可从《计算机系统应用》下载全文

设为首页 | 免责声明 | 关于勤云 | 加入收藏