当前位置:网站首页>《Show and Tell: A Neural Image Caption Generator》论文解读
《Show and Tell: A Neural Image Caption Generator》论文解读
2022-08-11 05:35:00 【KPer_Yang】
目录
参考论文:
Show and tell: A neural image caption generator | IEEE Conference Publication | IEEE Xplore
[1411.4555] Show and Tell: A Neural Image Caption Generator (arxiv.org)
MobileNetV2: Inverted Residuals and Linear Bottlenecks | IEEE Conference Publication | IEEE Xplore
图像-字幕生成模型
模型总览:
从图1中可以明显的看到image首先经过CNN结构的特征提取器,再将提取的特征传入LSTM网络,由LSTM网络生成句子。注意图中右边的LSTM是LSTM的展开(unrolled)形式,也就是按照词的序列顺序展开。
图1 总网络架构
展开的模型使用公式表示如下:
公式中的I表示图像;表示第t个词,使用长度是字典大小的one-hot编码表示 ,注意表示起始词;表示停止词,当遇到停止词时,LSTM生成一个句子;表示词嵌入。这样,图像使用视觉 CNN,单词使用单词嵌入,图像和单词都映射到同一个空间。图像I只再t-1时候使用一次,后面的N个时间步都不使用I,因为实验发现会带来过拟合的问题。
LSTM部分:
LSTM网络由输入门、输出门、遗忘门组成。
LSTM的具体公式如下所示:
图像特征提取部分:
图像特征提取可以使用Resnet、GoogleNet、MobileNet、EfficientNet等网络。例如MobileNetV2的网络结构如下:但是需要注意将网络的最后softmax层去掉,连接上需的长度的MLP,将其作为LSTM的输入。
损失函数定义
损失函数的定义其实如图1中所示,在每个时间步将LSTM的输出经过softmax(),然后求log()取负数得到。
边栏推荐
- CLUSTER DAY03 (Ceph overview, the deployment of Ceph CLUSTER, Ceph block storage)
- CLUSTER DAY04(块存储应用案例 、 分布式文件系统 、 对象存储)
- Record a Makefile just written
- OA Project Pending Meeting & History Meeting & All Meetings
- HCIP OSPF动态路由协议
- windows10安全中心显示“修正未完成”
- torch.cat()使用方法
- How Xshell connects to a virtual machine
- CLUSTER DAY02( Keepalived热备 、 Keepalived+LVS 、 HAProxy服务器 )
- Arcgis小工具_实现重叠分析
猜你喜欢
随机推荐
buildroot setup dhcp
损失函数——负对数似然
局域网文件传输
HCIP实验(pap、chap、HDLC、MGRE、RIP)
numpy和tensor增加或删除一个维度
CLUSTER DAY03( Ceph概述 、 部署Ceph集群 、 Ceph块存储)
View the library ldd that the executable depends on
window10吐槽
LabelEncoder和LabelBinarizer的区别
ETCD containerized to build a cluster
The ramdisk practice 1: the root file system integrated into the kernel
Windos10专业版开启远程桌面协助
ETCD cluster fault emergency recovery - to recover from the snapshot
FusionCompute8.0.0 实验(2)虚拟机创建
升级到Window11体验
vnc远程桌面安装(2021-10-20日亲测可用)
SECURITY DAY06 ( iptables firewall, filter table control, extended matching, typical application of nat table)
Raspberry Pi set static IP address
Solve win10 installed portal v13 / v15 asked repeatedly to restart problem.
OA项目之我的审批(查询&会议签字)