融合语义增强与多注意力机制的视频描述方法 |
| |
引用本文: | 任剑洪,曾勍炜,李向军,龚政,刘方.融合语义增强与多注意力机制的视频描述方法[J].南昌大学学报(理科版),2023(6):548-555. |
| |
作者姓名: | 任剑洪 曾勍炜 李向军 龚政 刘方 |
| |
作者单位: | 1. 江西省教育评估监测研究院教育融媒体建设处;2. 南昌大学软件学院;3. 南昌大学网络中心 |
| |
摘 要: | 随着视频数据爆发式增长,视频描述任务越来越被研究者们关注。如何让计算机像人类一样理解视频的内容并能够准确无误地用语言表达出来,是视频描述任务领域尚未得到完美解决的难题之一。针对现有代表性视频描述模型中存在的未充分利用语义信息、生成描述不准确等问题,本文基于编码器-解码器框架的视频描述模型,提出了一种融合语义增强与多注意力机制的视频描述方法。该方法首先通过视觉文本特征聚合方法,为模型编码提供高层语义指导。然后,使用Faster-RCNN网络提取视频对象特征,通过图卷积网络获取视频对象的潜在语义信息,得到增强特征。最后,引入多重注意力机制,使模型更好地利用输入信息,增强模型的学习能力。MSVD和MSR-VTT数据集上的实验结果表明,相比于基准模型,本文提出的方法能合理优化视频描述模型的输入信息,有效提取视频潜在语义,从而解决视频文本跨模态问题和生成语句的语法结构问题,并能有效提升视频描述模型的准确度和对复杂场景的描述能力,更具先进性。
|
关 键 词: | 视频描述 高层语义 图神经网络 注意力机制 特征增强 |
|
|