当前位置:网站首页>Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer 论文笔记
Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer 论文笔记
2022-08-10 12:13:00 【byzy】
原文链接:https://arxiv.org/abs/2206.04584
1.引言
根据将图像特征转换到BEV特征时是否显式地使用几何信息,目前的方法可分为基于几何的逐点变换和无需几何的全局变换。
前者(左图)使用相机校准后的内外参来建立图像像素到BEV网格的对应关系。但该方法依赖过多校准数据,实际中相机可能偏移校准位置,导致对应关系不稳定;此外,往往需要复杂而耗时的操作如密集的深度分布估计、特征沿射线传播到BEV空间等等。
后者(右图)拉长图像特征,每个BEV网格与所有图像特征进行交互。该方法视图转换不需要几何先验,因此对相机偏移不敏感。但该方法计算复杂度与图像像素数正相关,存在效率和分辨率的矛盾;由于无几何先验指导,模型需要从所有视图中挖掘有判别力的信息,使得收敛困难。
本文提出几何指导的核Transformer(GKT),使用相机参数作为指导而不过多地依赖。发生相机偏移时,相应的核区域也会移动,但也能覆盖目标,使得该方法对相机偏移不敏感。核区域的注意力权重根据偏移动态生成。
GKT使用查找表索引,摆脱了逐点变换中的2D-3D映射操作,提高运行效率。与全局变换相比,GKT无需全局交互,仅关注由几何指导的核区域,有更快的运行速度和收敛速度。因此GKT平衡了逐点变换与全局变换。
2.方法
2.1 几何指导的核Transformer
上图为GKT的框架。其中多视图图像通过共享的CNN主干提取多尺度特征。BEV空间的每个网格对应一个3D坐标和一个查询嵌入
,其中
是所有网格共享的预定义高度。将Pi通过相机内外参粗略地投影到图像坐标并取整,用于指导transformer关注相应区域:
其中索引特征尺度,
索引视图。
然后在附近考虑
的核区域,每个查询
与每个视图、每个尺度的相应核区域内所有特征交互(超出图像范围的部分特征设为0)。
2.2 对相机偏移的鲁棒性
将相机偏移分解为旋转偏移和平移偏移。其中平移偏移为
旋转偏移为
其中
噪声随机变量满足
加入偏移噪声后,上节中的公式变为
由于取整操作是抗噪声的,因此微小偏移不改变核区域;即使是稍大一点的偏移,核区域仍能覆盖目标,且注意力权重能根据偏移动态调节。
2.3 BEV到2D的查找表索引
每个BEV网格对应的核区域是固定的,可离线计算。则运行前将每个BEV网格对应的像素索引存储在查找表中,运行时可以直接高效地查找相应位置的特征。
2.4 核的配置
可以灵活配置核的大小以平衡感受野和计算耗费;由于查找表索引,核的布局也可任意选取(如交叉形状的核、膨胀核等)。
3.实验
实施细节:预设的BEV网格分辨率较低,分割前通过上采样和卷积块得到高分辨率BEV网格,用于地图分割。
主要结果:本文的方法在所有实时方法中速度最快且性能最好,尽管远达不到实时的BEVFormer有更好的性能。
对相机偏移的鲁棒性:实验检验了不同噪声方差下的性能下降,发现在一定噪声下GKT能保持相当的性能。且发现更大的核鲁棒性更强,且竖直方向上的长度影响更大。这可能是因为BEV网格的z是预定义的,有更大的不确定性。
在无噪声时,GKT使用的核为竖直核(水平宽度为1),能达到最好的性能。
对BEV高度的鲁棒性:由于GKT仅使用了粗糙的投影,因此对预设的z值不敏感。
收敛速度:几何先验的引入使得GKT的收敛速度比CVT(使用全局变换的方法)快,且能在短时间训练下达到更好的效果。
GKT的不同实施比较:
- Im2col:将图像分割为列,每一列代表一个核区域,为BEV查询选择相应的核区域。该方法需要大量存储空间。
- 网格采样:对核区域所有特征采样并拼接。
- 查找表索引:如前文所述。
推断速度上,查找表索引方法最快。
边栏推荐
- 多线程下自旋锁设计基本思想
- 47Haproxy集群
- StarRocks on AWS 回顾 | Data Everywhere 系列活动深圳站圆满结束
- Loudi Cosmetics Laboratory Construction Planning Concept
- 九宫格抽奖动效
- rpn:def concat_box_prediction_layers
- Codeforces Round #276 (Div. 1) B. Maximum Value
- 大佬们有遇到过这个问题吗? MySQL 2.2 和 2.3-SNAPSHOT 都这样,貌似是
- The god-level Alibaba "high concurrency" tutorial - basic + actual combat + source code + interview + architecture is all-inclusive
- 百度用户产品流批一体的实时数仓实践
猜你喜欢
随机推荐
基础 | batchnorm原理及代码详解
LeetCode简单题之合并相似的物品
Real-time data warehouse practice of Baidu user product flow and batch integration
G1和CMS的三色标记法及漏标问题
来看Prada大秀吗?在元宇宙里那种!
面试美团被问到了Redis,搞懂这几个问题,让你轻松吊打面试官
IM即时通讯开发WebSocket从入门到精通
【黑马早报】雷军称低谷期曾想转行开酒吧;拜登正式签署芯片法案;软银二季度巨亏230亿美元;北京市消协约谈每日优鲜...
如何让别人看不懂你的 JS 代码?把你当大佬!
Chapter9 : De Novo Molecular Design with Chemical Language Models
如何培养ui设计师的设计思维?
Digicert EV证书签名后出现“证书对于请求用法无效”的解决方案
表中存在多个索引问题? - 聚集索引,回表,覆盖索引
加密游戏:游戏的未来
吃透Chisel语言.36.Chisel实战之以FIFO为例(一)——FIFO Buffer和Bubble FIFO的Chisel实现
48 the mysql database
[List merge] Combine multiple lists into one list
Drive IT Modernization with Low Code
ArcMAP出现-15的问题无法访问[Provide your license server administrator with the following information:Err-15]
Pod生命周期