当前位置：网站首页>图像恢复论文简记——Uformer: A General U-Shaped Transformer for Image Restoration

图像恢复论文简记——Uformer: A General U-Shaped Transformer for Image Restoration

2022-04-23 05:44:00 【umbrellalalalala】

2021年6月6日提交到arxiv上的文章。ICCV2021的Eformer就是Uformer基础上改进而来，看来还是值得一读，简单记录下。

知乎同名账号同步发布。

一、架构设计

架构如图：
在这里插入图片描述
比起普通的UNet，不同之处在于采用了LeWin Transformer，这种Transformer也是本工作的创新点。

所谓LeWin Transformer，就是local-enhanced window Transformer，其中包含W-MSA和LeFF：

W-MSA：non-overlapping window-based self-attention，作用是减小计算开销（传统transformer是在全局计算self-attention，而它不是）；
LeFF：传统transformer中采用前馈神经网络，不能很好利用local context，LeFF的采用可以capture local information。

️两个创新点：

提出LeWin Transformer，引入UNet
三种跳跃连接

二、主要模块细节

2.1，W-MSA

~~这是本工作最大的创新点。~~ （经提醒，swin Transformer里就有）
在这里插入图片描述
首先将将C×H×W的X分为N个C×M×M个patch，每个patch视为有M×M个C维vector（N = H × W / M²），这C个vector就输入W-MSA中。根据上述公式，简单理解就是将X分为不重叠的N片，然后对每一片进行self-attention的计算即可。
在这里插入图片描述
作者表示，虽说是在一片上进行self-attention的计算，但是在UNet的encode阶段，由于下采样的存在，所以在这一片上计算自注意力，对应在下采样前更大感受野上计算自注意力。

采用了relative position encoding，所以计算公式可以表示为：
在这里插入图片描述
这种位置编码的引用[48,41]分别是：

[48] Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Self-attention with relative position repre-
sentations. arXiv preprint arXiv:1803.02155, 2018.
[41] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining
Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint
arXiv:2103.14030, 2021.

2.2，LeFF

LeFF是Incorporating Convolution Designs into Visual Transformers发明的，其中的Convolution-enhanced image Transformer (CeiT)包含了这个设计。

在这里插入图片描述
精髓在于对self-attention计算模块输出的N个token（vector），重新排列为 $\sqrt{N} \times \sqrt{N}$ 的“image”，然后进行depth-wise的卷积操作。看完CeiT作者给出的图解，再看Uformer作者给出的图解，就不难理解含义了：
在这里插入图片描述
每个线性层/卷积层之后，用的都是GELU激活函数。
（depth-wise的卷积网上一搜就有，作用是减少参数，提升计算速度）