当前位置：网站首页>《Show and Tell: A Neural Image Caption Generator》论文解读

《Show and Tell: A Neural Image Caption Generator》论文解读

2022-08-11 05:35:00 【KPer_Yang】

参考论文：

图像-字幕生成模型

参考论文：

Show and tell: A neural image caption generator | IEEE Conference Publication | IEEE Xplore

[1411.4555] Show and Tell: A Neural Image Caption Generator (arxiv.org)

MobileNetV2: Inverted Residuals and Linear Bottlenecks | IEEE Conference Publication | IEEE Xplore

图像-字幕生成模型

模型总览：

从图1中可以明显的看到image首先经过CNN结构的特征提取器，再将提取的特征传入LSTM网络，由LSTM网络生成句子。注意图中右边的LSTM是LSTM的展开（unrolled）形式，也就是按照词的序列顺序展开。

图1 总网络架构

展开的模型使用公式表示如下：

公式中的I表示图像； $S_t$ 表示第t个词，使用长度是字典大小的one-hot编码表示，注意 $S_0$ 表示起始词； $S_N$ 表示停止词，当遇到停止词时，LSTM生成一个句子； $W_e$ 表示词嵌入。这样，图像使用视觉 CNN，单词使用单词嵌入，图像和单词都映射到同一个空间。图像I只再t-1时候使用一次，后面的N个时间步都不使用I，因为实验发现会带来过拟合的问题。