当前位置:网站首页>【ECCV2022】OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
【ECCV2022】OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers
2022-08-06 21:30:00 【AI前沿理论组@OUC】

论文:https://arxiv.org/abs/2207.02255
论文中文版:https://dengpingfan.github.io/papers/%5B2022%5D%5BECCV%5DOSFormer_Chinese.pdf
代码:https://github.com/PJLallen/OSFormer
1、Motivation
伪装物体检测最近比较火,也非常有趣,具体可以参考程明明老师的知乎文章:怎样看待伪装物体检测算法出乎意料的鲁棒性? 下图展示了一个伪装物体检测的示例。这篇论文范登平老师提供了中文版,论文细节可以参考该中文版。

当人类注视一个高度伪装的场景时,视觉系统会本能地在整个场景中寻找有价值的线索。受这种视觉机制的启发,作者提出了OSFormer,该方法在全局中细致地捕捉所有位置的关键信息(即,局部背景),并直接生成伪装实例掩膜(即,单阶段模型),包括两个关键部分:
- 位置感知 Transformer(LST),以动态地捕捉不同位置的实例线索。LST 包含一个带有混合卷积前馈网络(BC-FFN)的编码器来提取多尺度全局特征,以及一个带有位置引导 queries 的解码器来获得实例感知嵌入
- 由粗到细的融合模块(CFF),它通过融合主干网络和LST 的多尺度低级和高级特征来获得高分辨率的掩码特征。在此模块中还嵌入了反向边缘注意力(REA)模块,来突出伪装实例的边缘信息。
OSFormer整体架构如下图所示,下面重点介绍LST, CFF, DCIN 三个部分。
2、 LST (Location-Sensing Transformer)

LST结构如上图所示,和 deformable DETR 【1】类似,不同的地方有两处:1、在 FFN 中,加入两个卷积层,目的是“更好的捕捉局部信息并复习课件相邻 token 之间的相关性。” 2、利用编码器的多尺度特征图进行位置引导,这样提高了 query 迭代的效率,加速了收敛。
3、Coarse-to-Fine Fusion (CFF)

CFF模块结构如上图所示,之前的特征C2、T3、T4、T5 作为级联融合的输入,不断融合。作者还设计了一个 Reverse Edge Attention (REA)模块,用于捕捉边缘特征,其结构在图中有详细说明。
4、Dynamic Camouflaged Instance Normalization (DCIN)

受 AdaIN 【2】的启发, 作者设计了 DCIN 来预测最终的 mask,结构如上图所示。作者采用了动态网络的思路,训练阶段 FC 层可以生成 location label。在测试阶段,使用 threshold > 0.5 过滤效的参数。随后,采用 AdaIN 获得仿射权重和偏置。最后,与CFF的输出结合得到结果。
实验部分可以参考作者的论文,这里不过多介绍。
参考文献
【1】Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: Deformable transformers for end-to-end object detection. In: ICLR (2020)
【2】Huang, X., Belongie, S.: Arbitrary style transfer in real-time with adaptive instance normalization. In: IEEE ICCV (2017)
边栏推荐
猜你喜欢
随机推荐
硅谷课堂第十二课-公众号点播课程和直播管理模块
【量化测试】
硅谷课堂第五课-腾讯云对象存储和课程分类管理
RedisCacheManager + CacheManager [email protected] 实现注解化缓存管理
Pytest learning-yaml+parametrize interface combat
cdh6, use oozie for spark jar task scheduling
django 数据库 get_or_create函数update_or_create函数
2022-8-6 集合容器
硅谷课堂第十一课-公众号消息和微信授权
国产单片机有盗版吗? 侵权了吗?
东数西算开启算力网络大时代,“九阶评估模型”能带来什么?
用户-角色-权限设计【笔记】
LeetCode - 112. 路径总和;113. 路径总和 II【进阶】
EXT.js学习【笔记】
五、练习:高精度
硅谷课堂第十四课-直播对接和微信分享
STM32MP157A driver development | 03-usb host interface use (U disk)
R-Breaker下的可转债策略
【目标检测】小脚本:Xml标签可视化
Four cases of adjustment after the AVL tree is inserted into a new node (left single rotation, right single rotation, double rotation)









