当前位置:网站首页>Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer 论文笔记
Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer 论文笔记
2022-08-10 12:13:00 【byzy】
原文链接:https://arxiv.org/abs/2206.04584
1.引言
根据将图像特征转换到BEV特征时是否显式地使用几何信息,目前的方法可分为基于几何的逐点变换和无需几何的全局变换。
前者(左图)使用相机校准后的内外参来建立图像像素到BEV网格的对应关系。但该方法依赖过多校准数据,实际中相机可能偏移校准位置,导致对应关系不稳定;此外,往往需要复杂而耗时的操作如密集的深度分布估计、特征沿射线传播到BEV空间等等。
后者(右图)拉长图像特征,每个BEV网格与所有图像特征进行交互。该方法视图转换不需要几何先验,因此对相机偏移不敏感。但该方法计算复杂度与图像像素数正相关,存在效率和分辨率的矛盾;由于无几何先验指导,模型需要从所有视图中挖掘有判别力的信息,使得收敛困难。
本文提出几何指导的核Transformer(GKT),使用相机参数作为指导而不过多地依赖。发生相机偏移时,相应的核区域也会移动,但也能覆盖目标,使得该方法对相机偏移不敏感。核区域的注意力权重根据偏移动态生成。
GKT使用查找表索引,摆脱了逐点变换中的2D-3D映射操作,提高运行效率。与全局变换相比,GKT无需全局交互,仅关注由几何指导的核区域,有更快的运行速度和收敛速度。因此GKT平衡了逐点变换与全局变换。
2.方法
2.1 几何指导的核Transformer
上图为GKT的框架。其中多视图图像通过共享的CNN主干提取多尺度特征。BEV空间的每个网格对应一个3D坐标和一个查询嵌入
,其中
是所有网格共享的预定义高度。将Pi通过相机内外参粗略地投影到图像坐标并取整,用于指导transformer关注相应区域:
其中索引特征尺度,
索引视图。
然后在附近考虑
的核区域,每个查询
与每个视图、每个尺度的相应核区域内所有特征交互(超出图像范围的部分特征设为0)。
2.2 对相机偏移的鲁棒性
将相机偏移分解为旋转偏移和平移偏移。其中平移偏移为
旋转偏移为
其中
噪声随机变量满足
加入偏移噪声后,上节中的公式变为
由于取整操作是抗噪声的,因此微小偏移不改变核区域;即使是稍大一点的偏移,核区域仍能覆盖目标,且注意力权重能根据偏移动态调节。
2.3 BEV到2D的查找表索引
每个BEV网格对应的核区域是固定的,可离线计算。则运行前将每个BEV网格对应的像素索引存储在查找表中,运行时可以直接高效地查找相应位置的特征。
2.4 核的配置
可以灵活配置核的大小以平衡感受野和计算耗费;由于查找表索引,核的布局也可任意选取(如交叉形状的核、膨胀核等)。
3.实验
实施细节:预设的BEV网格分辨率较低,分割前通过上采样和卷积块得到高分辨率BEV网格,用于地图分割。
主要结果:本文的方法在所有实时方法中速度最快且性能最好,尽管远达不到实时的BEVFormer有更好的性能。
对相机偏移的鲁棒性:实验检验了不同噪声方差下的性能下降,发现在一定噪声下GKT能保持相当的性能。且发现更大的核鲁棒性更强,且竖直方向上的长度影响更大。这可能是因为BEV网格的z是预定义的,有更大的不确定性。
在无噪声时,GKT使用的核为竖直核(水平宽度为1),能达到最好的性能。
对BEV高度的鲁棒性:由于GKT仅使用了粗糙的投影,因此对预设的z值不敏感。
收敛速度:几何先验的引入使得GKT的收敛速度比CVT(使用全局变换的方法)快,且能在短时间训练下达到更好的效果。
GKT的不同实施比较:
- Im2col:将图像分割为列,每一列代表一个核区域,为BEV查询选择相应的核区域。该方法需要大量存储空间。
- 网格采样:对核区域所有特征采样并拼接。
- 查找表索引:如前文所述。
推断速度上,查找表索引方法最快。
边栏推荐
猜你喜欢
Keithley DMM7510 accurate measurement of ultra-low power consumption equipment all kinds of operation mode power consumption
mSystems | Zhongnong Wang Jie Group Reveals the Mechanisms Affecting Soil "Plastic Interstitial" Microbial Communities
Custom filters and interceptors implement ThreadLocal thread closure
「网络架构」网络代理第一部分: 代理概述
Digicert EV证书签名后出现“证书对于请求用法无效”的解决方案
数字藏品,“赌”字当头
Comparison version number of middle questions in LeetCode
CV复习:空洞卷积
LeetCode中等题之比较版本号
吃透Chisel语言.36.Chisel实战之以FIFO为例(一)——FIFO Buffer和Bubble FIFO的Chisel实现
随机推荐
【iOS】Organization of interviews
Overseas media publicity. What problems should domestic media pay attention to?
Pod生命周期
Solve the idea that unit tests cannot use Scanner
StarRocks on AWS 回顾 | Data Everywhere 系列活动深圳站圆满结束
Detailed explanation of es6-promise object
什么是云流化?
Drive IT Modernization with Low Code
[Collection] HashSet and ArrayList lookup Contains() time complexity
如何让别人看不懂你的 JS 代码?把你当大佬!
LT8911EXB MIPI CSI/DSI to EDP signal conversion
来看Prada大秀吗?在元宇宙里那种!
大佬们有遇到过这个问题吗? MySQL 2.2 和 2.3-SNAPSHOT 都这样,貌似是
2022 Recruitment Notice for Academician Zhao Guoping Group of Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences
iTextSharp操作PDF
Polygon zkEVM工具——PIL和CIRCOM
CV复习:空洞卷积
海外邮件发送指南(二)
Keithley DMM7510精准测量超低功耗设备各种运作模式功耗
AICOCO AI Frontier Promotion (8.10)