视频与音频特征融合生成动作指令组的方法研究 |
| |
引用本文: | 林大润,陈俊洪,王思涵,钟经谋,刘文印.视频与音频特征融合生成动作指令组的方法研究[J].计算机应用与软件,2023(7):132-138+144. |
| |
作者姓名: | 林大润 陈俊洪 王思涵 钟经谋 刘文印 |
| |
作者单位: | 广东工业大学计算机学院 |
| |
基金项目: | 国家自然科学基金项目(91748107,61703109); |
| |
摘 要: | 为了提高人与机器人的语音交互能力,提出一个基于视频特征与音频特征融合的动作三元组分类的神经网络框架,其本质是从音视频中提取高度概括动作的指令组。该框架包含三个模块,分别是视频特征提取网络模块、音频特征提取网络模块、特征融合模块。视频特征提取网络模块使用I3D网络结构提取视频特征;音频特征提取网络模块使用卷积神经网络以及双向长短期记忆网络提取音频特征;特征融合模块将视频特征和音频特征进行融合并输出动作三元组的分类。通过在制作的动作音视频数据集上的实验证明,所提出的音视频特征融合网络能达到74.92%的准确率,且具有较强的鲁棒性。
|
关 键 词: | 动作三元组 特征融合 I3D 卷积神经网络 |
|
|