首页 | 官方网站   微博 | 高级检索  
     

基于视觉-语义中间综合属性特征的图像中文描述生成算法
引用本文:肖雨寒,江爱文,王明文,揭安全.基于视觉-语义中间综合属性特征的图像中文描述生成算法[J].中文信息学报,2021,35(4):129-138.
作者姓名:肖雨寒  江爱文  王明文  揭安全
作者单位:江西师范大学 计算机信息工程学院,江西 南昌 330022
基金项目:国家自然科学基金(61966018,61876074);江西省自然科学基金(20181BAB202013);江西省教育厅科技项目(GJJ160277,GJJ150350)
摘    要:图像描述是计算机视觉、自然语言处理与机器学习的交叉领域多模态信息处理任务,需要算法能够有效地处理图像和语言两种不同模态的信息。由于异构语义鸿沟的存在,该任务具有较大的挑战性。目前主流的研究仍集中在基于英文的图像描述任务,对图像中文描述的研究相对较少。图像视觉信息在图像描述算法中没有得到足够的重视,算法模型的性能更多地取决于语言模型。针对以上两个方面的研究不足,该文提出了基于多层次选择性视觉语义属性特征的图像中文描述生成算法。该算法结合目标检测和注意力机制,充分考虑了图像高层视觉语义所对应的中文属性信息,抽取不同尺度和层次的属性上下文表示。为了验证该文算法的有效性,在目前规模最大的AI Challenger 2017图像中文描述数据集以及Flick8k-CN图像中文描述数据集上进行了测试。实验结果表明,该算法能够有效地实现视觉-语义关联,生成文字表述较为准确、内容丰富的描述语句。较现阶段主流图像描述算法在中文语句上的性能表现,该文算法在各项评价指标上均有约3%~30%的较大幅度提升。为了便于后续研究复现,该文的相关源代码和模型已在开源网站Github上公开。

关 键 词:图像中文描述  目标检测  注意力机制  
收稿时间:2019-12-26

Chinese Image Captioning Based on Middle-Level Visual-Semantic Composite Attributes
XIAO Yuhan,JIANG Aiwen,WANG Mingwen,JIE Anquan.Chinese Image Captioning Based on Middle-Level Visual-Semantic Composite Attributes[J].Journal of Chinese Information Processing,2021,35(4):129-138.
Authors:XIAO Yuhan  JIANG Aiwen  WANG Mingwen  JIE Anquan
Affiliation:School of Computer and Information Engineering, Jiangxi Normal University, Nanchang, Jiangxi 330022, China
Abstract:
Keywords:
点击此处可从《中文信息学报》浏览原始摘要信息
点击此处可从《中文信息学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号