基于语义增强特征融合的多模态图像检索模型期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于语义增强特征融合的多模态图像检索模型

引用本文：	杨帆,宁博,李怀清,周新,李冠宇.基于语义增强特征融合的多模态图像检索模型[J].浙江大学学报(自然科学版 ),2023(2):252-258+391.

作者姓名：	杨帆宁博李怀清周新李冠宇

作者单位：	大连海事大学信息科学技术学院

基金项目：	国家自然科学基金资助项目(61976032,62002039)；;辽宁省教育厅科学研究面上资助项目(LJKZ0063)；

摘要：	为了在多模态图像检索任务中建立文本特征与图像特征的相关性，提出基于语义增强特征融合的多模态图像检索模型（SEFM）.该模型通过文本语义增强模块、图像语义增强模块2部分在特征融合时对组合特征进行语义增强.在文本语义增强模块建立多模态双重注意力机制，利用双重注意力建立文本与图像之间的关联以增强文本语义；在图像语义增强模块引入保留强度和更新强度，控制组合特征中查询图像特征的保留和更新程度.基于以上2个模块可以优化组合特征使其更接近目标图像特征.在MIT-States和Fashion IQ这2个数据集上对该模型进行评估，实验结果表明在多模态图像检索任务上该模型与现有方法相比在召回率和准确率上都有所提升.
关键词：	多模态语义增强特征融合图像检索注意力机制