基于场景表示中对象特征语法分析的视频描述期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于场景表示中对象特征语法分析的视频描述

引用本文：	付燕,王咪咪,叶鸥.基于场景表示中对象特征语法分析的视频描述[J].计算机工程与设计,2023(2):488-493.

作者姓名：	付燕王咪咪叶鸥

作者单位：	西安科技大学计算机科学与技术学院

基金项目：	陕西省自然科学基金项目(2018JQ5095)；;中国博士后科学基金项目(2020M673446)；

摘要：	为解决基于编码器-解码器的视频描述方法中存在忽略特征语法分析，造成描述语句语法结构不清晰的问题，提出一种基于场景表示中对象特征语法分析的视频描述方法。编码阶段将视频的2D、C3D特征、对象特征和自注意力机制相结合，构建视觉场景表示模型，描述视觉特征间的依赖关系；构建视觉对象特征语法分析模型，分析对象特征在描述语句中的语法成分；解码阶段结合语法分析结果和LSTM网络模型，输出视频描述语句。所提方法在MSVD和MSR-VTT数据集进行实验，结果表明，该方法在不同评价指标方面性能较好，视频描述语句的语法结构清晰。
关键词：	视频描述编码器-解码器模型特征提取自注意力机制对象特征视觉场景表示语法分析