基于场景表示中对象特征语法分析的视频描述 |
| |
引用本文: | 付燕,王咪咪,叶鸥.基于场景表示中对象特征语法分析的视频描述[J].计算机工程与设计,2023(2):488-493. |
| |
作者姓名: | 付燕 王咪咪 叶鸥 |
| |
作者单位: | 西安科技大学计算机科学与技术学院 |
| |
基金项目: | 陕西省自然科学基金项目(2018JQ5095);;中国博士后科学基金项目(2020M673446); |
| |
摘 要: | 为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析,造成描述语句语法结构不清晰的问题,提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合,构建视觉场景表示模型,描述视觉特征间的依赖关系;构建视觉对象特征语法分析模型,分析对象特征在描述语句中的语法成分;解码阶段结合语法分析结果和LSTM网络模型,输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验,结果表明,该方法在不同评价指标方面性能较好,视频描述语句的语法结构清晰。
|
关 键 词: | 视频描述 编码器-解码器模型 特征提取 自注意力机制 对象特征 视觉场景表示 语法分析 |
|
|