首页 | 官方网站   微博 | 高级检索  
     

基于文本感知和非重复单词生成的图像语义理解
引用本文:杨晨露,万旺根,王旭智,孙学涛,张振.基于文本感知和非重复单词生成的图像语义理解[J].工业控制计算机,2023(11):105-106+109.
作者姓名:杨晨露  万旺根  王旭智  孙学涛  张振
作者单位:1. 上海大学通信与信息工程学院;2. 上海大学智慧城市研究院;3. 上海交通大学医学院附属仁济医院宝山分院
摘    要:在描述图像时,阅读视觉场景中的文本对于理解关键信息至关重要。传统的视觉语言预训练任务都无法指导模型关注图像中的文本信息,以及图像中的文本信息和图像内容的关系。针对此问题,提出基于图像文本信息的预训练任务,包括掩模语言建模(MLM)、图像-文本匹配(ITM)以及相对空间位置预测(RPP)。在解码过程中,为解决生成语句冗余问题,提出重复掩码模块,以避免预测语句中出现重复的单词。最后在Textcaps数据集上的实验结果表明,所提的方法可以有效地提高生成描述语句的准确率。

关 键 词:图像语义理解  自然语言处理  视觉-语言预训练任务  Transformer
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号