当前位置:网站首页>《Show and Tell: A Neural Image Caption Generator》论文解读
《Show and Tell: A Neural Image Caption Generator》论文解读
2022-08-11 05:35:00 【KPer_Yang】
目录
参考论文:
Show and tell: A neural image caption generator | IEEE Conference Publication | IEEE Xplore
[1411.4555] Show and Tell: A Neural Image Caption Generator (arxiv.org)
MobileNetV2: Inverted Residuals and Linear Bottlenecks | IEEE Conference Publication | IEEE Xplore
图像-字幕生成模型
模型总览:
从图1中可以明显的看到image首先经过CNN结构的特征提取器,再将提取的特征传入LSTM网络,由LSTM网络生成句子。注意图中右边的LSTM是LSTM的展开(unrolled)形式,也就是按照词的序列顺序展开。
图1 总网络架构
展开的模型使用公式表示如下:
公式中的I表示图像;表示第t个词,使用长度是字典大小的one-hot编码表示 ,注意
表示起始词;
表示停止词,当遇到停止词时,LSTM生成一个句子;
表示词嵌入。这样,图像使用视觉 CNN,单词使用单词嵌入,图像和单词都映射到同一个空间。图像I只再t-1时候使用一次,后面的N个时间步都不使用I,因为实验发现会带来过拟合的问题。
LSTM部分:
LSTM网络由输入门、输出门、遗忘门组成。
LSTM的具体公式如下所示:
图像特征提取部分:
图像特征提取可以使用Resnet、GoogleNet、MobileNet、EfficientNet等网络。例如MobileNetV2的网络结构如下:但是需要注意将网络的最后softmax层去掉,连接上需的长度的MLP,将其作为LSTM的输入。
损失函数定义
损失函数的定义其实如图1中所示,在每个时间步将LSTM的输出经过softmax(),然后求log()取负数得到。
边栏推荐
- 华为防火墙会话 session table
- SECURITY DAY01 (Monitoring Overview, Zabbix Basics, Zabbix Monitoring Services)
- My approval of OA project (inquiry & meeting signature)
- 阿里巴巴规范之POJO类中布尔类型的变量都不要加is前缀详解
- 升级到Window11体验
- Top20括号匹配
- arcmap下的多进程脚本
- Especially the redis
- 图文带你理解什么是Few-shot Learning
- CLUSTER DAY01(集群及LVS简介 、 LVS-NAT集群 、 LVS-DR集群)
猜你喜欢
View the library ldd that the executable depends on
FusionCompute8.0.0实验(0)CNA及VRM安装(2280v2)
HCIP实验(pap、chap、HDLC、MGRE、RIP)
ETCD containerized to build a cluster
Concurrent programming in eight-part essay
CLUSTER DAY01(集群及LVS简介 、 LVS-NAT集群 、 LVS-DR集群)
推荐一个好用的IDEA插件---Translation—中英互译
HCIA实验
HCIP-BGP的选路实验
pytorch下tensorboard可视化深坑
随机推荐
uboot code analysis 1: find the main line according to the purpose
AUTOMATION DAY06 (Ansible Advanced, Ansible Role)
OA项目之我的会议(会议排座&送审)
slurm cluster construction
【LeetCode】2034. 股票价格波动(思路+题解)双map
HCIP MGRE\OSPF综合实验
SECURITY DAY06 ( iptables firewall, filter table control, extended matching, typical application of nat table)
损失函数——交叉熵
iptables的状态
HCIA experiment
智能合约 ——— app评分合约
从mask-rcnn到shp
知识蒸馏Knownledge Distillation
会议OA项目之我的会议
【LeetCode】851.喧闹与富有(思路+题解)
SECURITY DAY02( Zabbix报警机制 、 Zabbix进阶操作 、 监控案例)
iptables入门
八股文之并发编程
查看CPU和其他硬件温度的软件
Top20括号匹配