当前位置:网站首页>VIT transformer详解
VIT transformer详解
2022-08-09 17:31:00 【樱花的浪漫】
1.VIT 整体架构
对图像数据构建patch序列
对于一个图像,将图像分为9个窗口,要将这些窗口拉成一个向量,比如一个10*10*3维的图像,我们首先要将这个图像拉成一个300维的向量。
位置编码:
位置编码有两种方式,第一种编码是一维编码,将这些窗口按照顺序,依次编码成1,2,3,4,5,6,7,8,9.第二种方式是二维编码,返回每个图像窗口的坐标。
最后,连接一层全连接,将图像编码和位置编码映射到计算更容易识别的编码。
那么,架构图中的0编码有什么作用呢?
我们一般在图像分类中加入0编码,图像分割与目标检测一般不需要加入,0patch主要用于特征整合,整合各个窗口的特征向量,因此,0 patch可以加在任何位置。
2.公式详解
3.多头注意力的感受野
如图所示,纵轴表示注意力的距离,也相当于卷积的感受野,当只有一个head时,感受野比较小,也会有感受野大的情况出现,随着head数量的增多,感受野普遍都比较大,这说明了Transformer提取的是全局特征。
4.位置编码
结论:编码有用,但是怎么编码影响不大,干脆用简单的得了,2D(分别计算行和列的编码,然后求和)的效果还不如1D的,每一层都加共享的位置编码也没啥太大用
当然,这是分类任务,位置编码可能影响不大
5.实验效果(/14表示patch的边长是多少)
6.TNT:Transformer in Transformer
VIT中只针对pathch进行建模,忽略了其中更小的细节
外部transformer将原始图像分为一个个窗口,经过图像编码和位置编码生成一个特征向量。
内部transformer将外部transformer的窗口,在进一步重组为多个超像素,重组为新的向量,比如说:外部transformer将图像拆分为16*16*3的窗口,内部tranformer再将其拆分为4*4的超像素,此时小窗口大小为4*4*48,这样每一个patch就整合了多个channels的信息。新向量再通过全连接改变输出特征大小,此时内部组合后的向量与patch编码大小相同 ,将内部向量与外部向量再相加。
TNT的PatchEmbedding的可视化
对于蓝色的点表示TNT提取的特征,从可视化图像中可以看出,蓝色的点特征更离散,方差更大,更有利于分离,特征更鲜明,分布更多样性
实验结果
内外兼修,都加编码效果最好
边栏推荐
猜你喜欢
进行知识管理的好处有哪些?
神秘的程序员(20-30)
使用mysql:5.6和 owncloud 镜像,构建一个个人网盘
Wallys/QCA 9880/802.11ac Mini PCIe Wi-Fi Module, Dual Band, 2,4GHz / 5GHz advanced edition
好的架构是进化来的,不是设计来的
URLError: <urlopen error [Errno 11004] getaddrinfo failed>调用seaborn-data无法使用
How tall is the B+ tree of the MySQL index?
每周给我10分钟,我给你一个Flink SQL 菜谱——甜点:数据过滤
书单 | “推荐系统” 值得一读的五本书
kakka rebalance解决方案
随机推荐
ARM Assembly Basics
MySQL备份与恢复
An in-depth understanding of the implementation principle of Hybrid
[极客大挑战 2019]HardSQL
阿里云张新涛:支持沉浸式体验应用快速落地,阿里云云XR平台发布
对数学直观、感性的认知是理解数学、喜爱数学的必经之路,这本书做到了!
What platform is EPIC?
ceph集群部署
日本著名设计师三宅一生去世:产品曾被国人高价抢 乔布斯也是粉丝
每周给我10分钟,我给你一个Flink SQL 菜谱——甜点:数据过滤
Ark: Survival Evolved Open Server Port Mapping Tutorial
Experience far more than Hue, this is the favorite SQL tool for technicians
numpy中nan_to_num如何使用
Wallys/QCA 9880/802.11ac Mini PCIe Wi-Fi Module, Dual Band, 2,4GHz / 5GHz advanced edition
十七、一起学习Lua 错误处理
艺术与科技的狂欢,云端XR支撑阿那亚2022砂之盒沉浸艺术季
win10 uwp 自定义控件 SplitViewItem
win10 uwp 装机必备应用 含源代码
国能准能集团研发矿山数字孪生系统 填补国内采矿行业空白
2022 全球 AI 模型周报