当前位置:网站首页>BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文笔记
BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection 论文笔记
2022-08-11 00:26:00 【byzy】
原文链接:https://arxiv.org/abs/2206.10092
1.引言
目前的图像3D目标检测方法在深度估计上的效果很差。基于深度3D检测器特点:
- 若无真实深度的监督,虽然最终的3D检测结果鼓励模型输出正确的深度,但要学习到精确的深度是很困难的;
- 此外,理论上深度子网络应该根据相机内外参推断深度,但目前方法都没有这么做;
- 深度估计后的视图转换子网络很低效,比不基于深度的方法有更慢的速度。
本文的BEVDepth网络使用来自点云的稀疏深度监督;考虑到运动时的外参扰动引起的真实深度扰动,提出深度校正网络;为了在预测深度时利用相机参数,使用了相机感知注意力模块;提出高效体素池化操作,快速将图像特征投影到BEV,减小视图转换的时间和计算量。
3.BEVDepth
总体结构:原始的BEVDepth就是LSS主干加上CenterPoint检测头。如上图所示,BEVDepth包含图像编码器(提取图像特征)、DepthNet(用图像特征估计离散的图像深度图
)、视图转换器(将图像特征按
转换到3D空间得到
,并池化为BEV表达)、3D检测头(预测类别、边界框偏差和其他属性)。
显式的深度监督:使用点云数据得到深度监督
。设
和
为自车坐标(点云坐标)到第
个相机坐标的旋转和平移矩阵,
为该相机的内参。首先计算
并进一步转化为2.5D图像坐标(
为图像像素坐标)。未投影到图像上的点被丢弃。
为对齐投影点云和预测深度,在使用了最小池化和独热编码(记为操作
),则真实离散深度图为
。
深度估计损失使用二元交叉熵损失。
深度校正:由于上一步中使用的和
参数可能由于自车运动而不精确,从而导致
和
不对齐,这在DepthNet的感受野很小的时候存在大问题。深度校正网络通过增大DepthNet的感受野来解决不对齐问题,即在DepthNet中使用多个残差块和可变形卷积,如下图的右下角所示。
相机感知的深度预测:经典相机模型中,估计深度需要相机内参。首先将相机内参通过MLP放大到特征图的尺寸,然后通过Squeeze-and-Excitation模块(见此文第三点)用其重新加权图像特征。此外,将相机的外参与内参拼接,帮助DepthNet感知在自车坐标系下的空间位置。因此整个相机感知的深度预测可写为
高效体素池化:该模块将3D特征转化为2D BEV特征,即将落在每个BEV网格内的3D特征求和。在LSS中使用累加求和技巧,但其排序操作和累加求和的顺序性都引入了额外计算时间。本文的高效体素池化如下图所示,思想是为每个棱台特征分配一个CUDA线程,将其添加到相应的BEV网格中。
4.实验
4.1 实验设置
深度估计任务的评价指标为尺度不变对数误差(SILog)、平均相对误差绝对值(Abs Rel)、均方相对误差(Sq Rel)、平均log10误差(log10)和均方根误差(RMSE)。
使用图像数据增广如随机裁剪、缩放、翻转、旋转,以及BEV特征数据增广如随机缩放、翻转和旋转。
4.2 消融研究
显式深度监督和深度校正:原始的BEVDepth的深度估计误差很大;增加显式深度监督和深度校正后,总体和各项检测精度均有所提升,且深度估计误差大幅减小。
相机感知:引入相机内外参的编码后,检测精度和深度估计精度也都有一定提升。
高效体素池化:该操作使得训练和推断速度均能加快到3至4倍。
多帧融合:直接拼接相邻两帧的BEV特征会导致自车运动带来的空间不对齐;本文通过对齐中间的点云(即将上一帧的点转换到当前帧的自车坐标下:,其中
为平移-旋转矩阵),然后进行体素池化,得到对齐的BEV特征。
实验表明多帧方法能减小速度/属性估计误差,并提高检测精度。
4.3 主要结果
相比于其余方法,本文的定位误差大幅下降,表明深度预测的精度高。
边栏推荐
- Only lazy and hungry. You still don't understand the singleton pattern!
- nodejs项目连接mysql数据库
- 微信小程序强制更新版本
- SQL injection base
- Analysis of LENS CRA and SENSOR CRA Matching Problems
- How to easily obtain the citation format of references?
- SQL injection base - order by injection, limit, wide byte
- 关于科研学习中的几个问题:如何看论文?如何评价工作?如何找idea?
- Is there a way out in the testing industry if it is purely business testing?
- 微信小程序内部A页面向内嵌H5页面跳转,并且传参
猜你喜欢
[Excel知识技能] 将“假“日期转为“真“日期格式
Lens filter---about day and night dual-pass filter
"NIO Cup" 2022 Nioke Summer Multi-School Training Camp 3 DF Problem Solving
【考虫 六级英语】语法课笔记
Go项目配置管理神器之viper使用详解
15. Interceptor - HandlerInterceptor
Mysql.慢Sql
nodejs项目连接mysql数据库
sqlmap combined with dnslog fast injection
YOLOv5的Tricks | 【Trick12】YOLOv5使用的数据增强方法汇总
随机推荐
In 22 years, the salary of programmers nationwide in January was released, only to know that there are so many with annual salary of more than 400,000?
14. Thymeleaf
nodejs项目连接mysql数据库
微信小程序自定义navigationBar
Lens filter---about day and night dual-pass filter
[Data Visualization] Chart Design Principles
20张图,全面掌握MVCC原理!
【爬虫】scrapy创建运行爬虫、解析页面(嵌套url)、自定义中间件(设置UserAgent和代理IP)、自定义管道(保存到mysql)
C# JObject解析JSON数据
软件测试证书(1)—— 软件评测师
镜头之滤光片---关于日夜两用双通滤光片
LeetCode_优先级队列_692.前K个高频单词
[Excel知识技能] 将数值格式数字转换为文本格式
Summary of Confused Knowledge Points for "High Items" in the Soft Examination in the Second Half of 2022 (2)
关于科研学习中的几个问题:如何看论文?如何评价工作?如何找idea?
networkmanager无法打开
Jvm. Profiling tools (jconsole, jvisualvm, arthas, jprofiler, mat)
① 数据库介绍 及 关系型数据库的关系代数表达式
"NIO Cup" 2022 Nioke Summer Multi-School Training Camp 3 DF Problem Solving
HGAME 2022 Final Pokemon v2 writeup