当前位置:网站首页>【论文笔记】Vision Transformers for Dense Prediction
【论文笔记】Vision Transformers for Dense Prediction
2022-04-22 13:57:00 【来自γ星的赛亚人】
声明
不定期更新自己精读的论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin
论文题目:Vision Transformers for Dense Prediction
论文链接:https://arxiv.org/abs/2103.13413v1
论文代码:https://github.com/isl-org/DPT
发表时间:2021年3月
创新点
1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT
Abstract
我们引入了密集视觉 Transformer,一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示,并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。
我们的实验表明,这种架构对密集预测任务产生了显着的改进,尤其是在有大量训练数据可用的情况下。对于单目深度估计,我们观察到与最先进的全卷积网络相比,相对性能提高了高达 28%。 当应用于语义分割时,密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。
我们进一步表明,该架构可以在较小的数据集上进行微调,例如 NYUv2、KITTI 和 Pascal Context,它还设置了新的状态。
Method

架构概述
首先,输入图像通过提取非重叠块然后对其扁平表示(DPT-Base 和 DPT-Large)进行线性投影或通过应用 ResNet-50 特征提取器(DPT-Hybrid)转换为标记(橙色);
其次,图像嵌入通过位置嵌入增强,并添加了与补丁无关的读出标记(红色)。令牌通过多个 Transformer 阶段。 作者将来自不同阶段的令牌重新组合成具有多种分辨率(绿色)的类似图像的表示;
最后,融合模块(紫色)逐步融合和上采样表示以生成细粒度预测。
Reassemble

重新组装操作,令牌被组装成特征图。
首先,将 Np + 1(位置编码,红色) 个标记映射到一组 Np 标记,这些标记可以进行空间连接成类似图像的表示;
然后,使用 1*1 卷积表示投影操作;
最后,在四个不同阶段和四种不同分辨率重新组合特征。
Fusion

融合块使用残差卷积单元组合特征并对特征图进行上采样。
Experiments
实验目标:与单目深度估计的最新技术进行比较
实验结果:DPT-Large 具有明显优势

版权声明
本文为[来自γ星的赛亚人]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_58678659/article/details/124318806
边栏推荐
- makefile 调用bash脚本遇到的坑
- Genesis creative comics [stable pass]
- Special topic of game partners: breederdao reaches a new height in cooperation with fancy birds
- 2022年 MathorCup 思路分享
- What are the types of blocking queues in the thread pool?
- osgEarth配置地图资源
- Is the account opening of Guoyuan futures company reliable? Is the transaction safe?
- 【计量经济学】统计推断
- 回忆,这一年(华师918血泪贴)
- [zeekr_tech] Introduction to ros/ros 2
猜你喜欢
随机推荐
Sihao X6 safety configuration information exposure will be equipped with adaptive cruise
uniapp转微信开发者工具报错 - [ app.json 文件内容错误] app.json: 未找到 [“sitemapLocation“] 对应的 sitemap.json 文件
回忆,这一年(华师918血泪贴)
Leetcode -- the shortest distance between characters
LeetCode-3 无重复字符的最长子串
BCC-funccount
银行为什么要上堡垒机?选择哪家好?有案例吗?
uniapp运行到小程序模拟器的方法 - uniapp开启微信开发者工具预览支持 - HBuilderX
An article to quickly understand the oal of Apache skywalking
关于局域网特性的三个要素简述
[finally waiting for you] wechat voice forwarding method - voice message forwarding
Notes sur le développement de la tarte aux framboises (XII): commencer à étudier la suite UNO - 220 de la tarte aux framboises de contrôle industriel advantech (i): Introduction et fonctionnement du s
树莓派开发笔记(十二):入手研华ADVANTECH工控树莓派UNO-220套件(一):介绍和运行系统
Qt5 qdialog removes the question mark in the upper right corner and adds maximize and minimize buttons
Specify the parameter serialization component in the swagger interface document as newtonsoft Json
Leetcode-819 the most common word
游戏合作伙伴专题:BreederDAO 与 Fancy Birds 合作达到新高度
"Precise investment promotion" of digital operation and management of Industrial Park
Recall, this year (Huashi 918 blood and tears paste)
Apache skywalking alarm Configuration Guide








