摘 要: | 为了提高模型的泛化能力,将机器翻译的编-解码模型引入图片描述中.首先,提出了CNN-RNN模型:CNN负责编码,RNN负责解码,RNN模型采用LSTM网络.接着,考虑到该模型一定程度上忽略了图片的局部区域特征和图片语义信息,因此又提出改进的CNN-MIL-DRN模型.该模型考虑了属性概率向量,并将多个时刻状态堆叠在一个时刻的计算中,加深了非线性变换的复杂深度.最后,采用MS COCO C5进行模型测试,以AP及5个不用的阈值测试不同指标,同时选取一些目前较新的模型作对比,从而得到CNN-MIL-DRN模型的最优效果.
|