当前位置:网站首页>【论文阅读】【3d目标检测】Voxel Transformer for 3D Object Detection
【论文阅读】【3d目标检测】Voxel Transformer for 3D Object Detection
2022-04-23 04:08:00 【Lukas88664】
论文标题:Voxel Transformer for 3D Object Detection
iccv2021
现在点云的做法大多是在点云上进行 例如首先将点云group化 然后进行分组地transformer 而这篇文章提出了一种基于voxel的transformer 可以应用于基于voxel的检测器上 方便进行voxel 3d环节的提取全局特征。
老规矩 上图!
可以看出文章的主要创新之处在于3d的backbone 这就意味着我们可以将这个模块应用到所有的基于voxel的一阶段 二阶段检测器上面。
点云voxel的3d卷积主要分为两个类别的处理:sparse and submanifold。
他们的操作也是基本一样的 除了attending voxel不同而已,这两种类别的3d操作可以先参考SECOND 三维目标检测器。
简单的来说就是用sparse进行下采样 用submanifold在保持稀疏度的情况下进行3d卷积。
对于非空的voxel 我们对于attending voxel(什么是attending voxel呢 我们下面进行定义)进行transformer操作 位置编码选择相对位置编码 有transformer基础的同学看一下下面的公式就明白~
对于submanifold层来说
它的querying voxel就所有的非空voxel ,那么首先对于他们进行两种attention操作 输出结果与输入进行相加 (一个res层操作)随后进行batch Norm。再输入到前向传播层 进行submanifold卷积 再一个res层 batch norm层 最后relu激活 然后进行proj 注意的是 我们这里使用的是批量norm 且取消了神经元的随机识货 作者认为这样是会帮助学习过程的。(文中提到的两种attention 我们在下面进行解释)
对于sparse层来说
它需要在一些空的voxel上进行querying操作 而这些voxel是没有feature的 我们便采用了一个估计函数 文章中说可以对于attending voxel进行插值等操作 网络中则直接采用 max pool 显然经过自注意力层 输出结果已经与输出的结构有所不同 所以网络框架就是取消了前面的一个res层。
接着我们来解释一下两种attention模块
这两种attention模块主要是由attend voxel的不同来进行划分的
local attention
参与此模块的voxel是我们当前的query voxel的附近的voxel 大概就是一个卷积大小内的所有非空voxel
对他们进行一个transformer操作,显然 对于当前query voxel来说 他的feature融合是结合了当前感受野内的所有voxel 而transformer相对于卷积来说 更能接受来自附近的feature。
dilated attention
这一部分的卷积则可以参考稀疏卷积 名字也是类似的 主要是为了扩大感受野:
文中说一个稀疏attention经过合理的attending voxel选择 可以使得query范围达到15m。
最后可以结合文章的图理解一下上述的卷积:
经过上面的两项卷积操作 我们便实现了localfeature和 较宽大感受野的feature的融合。
随后作者还提出了一种voxel query的快速取non empty voxel的方法 主要思想就是把非空voxel取出来 进行一个编码 后面要对某个voxel进行attention处理时 直接对于attending voxel取他们的编码就行 这样 模型复杂度就显著降低了:
实验结果很好:
消融实验做了不同卷积的必要性对比
随机失活层的必要性:
attending voxel的数目
最后比较了相对于传统模型的推理速度与大小
第一次看到用voxel做trans 比较新颖
版权声明
本文为[Lukas88664]所创,转载请带上原文链接,感谢
https://blog.csdn.net/hgj1h/article/details/124349110
边栏推荐
- Let matlab2018b support the mex configuration of vs2019
- 使用大华设备开发行AI人流量统计出现时间不正确的原因分析
- 列表、元组、字典和集合的区别
- STM32 upper μ C / shell transplantation and Application
- 减治思想——二分查找详细总结
- IEEE Transactions on Systems, Man, and Cybernetics: Systems(TSMC)投稿须知
- Network principle | connection management mechanism in TCP / IP important protocol and core mechanism
- The great gods in acmer like mathematics very much
- AI CC 2019 installation tutorial under win10 (super detailed - small white version)
- [AI vision · quick review of today's sound acoustic papers issue 1] Thu, 14 APR 2022
猜你喜欢
Xiaomi, qui a établi le plus grand volume de ventes de téléphones portables domestiques sur le marché d'outre - mer, se concentre de nouveau sur le marché intérieur
Set经典小题目
The great gods in acmer like mathematics very much
Add the compiled and installed Mysql to the path environment variable
[AI vision · quick review of NLP natural language processing papers today, issue 31] Fri, 15 APR 2022
[echart] Introduction to echart
Single chip microcomputer serial port data processing (2) -- ucosiii + cyclic queue receiving data
Qtspim manual - Chinese Translation
Matlab minimalist configuration of vscode configuration
STM32 upper μ C / shell transplantation and Application
随机推荐
【NeurIPS 2019】Self-Supervised Deep Learning on Point Clouds by Reconstructing Space
[AI vision · quick review of robot papers today, issue 28] wed, 1 Dec 2021
UDP protocol and TCP protocol
Express中间件②(中间件的分类)
【BIM+GIS】ArcGIS Pro2. 8 how to open Revit model, Bim and GIS integration?
[AI vision · quick review of robot papers today, issue 32] wed, 20 APR 2022
STM32 upper μ C / shell transplantation and Application
PolarMask is not in the models registry
CRF based medical entity recognition baseline
Matlab reads multiple fig graphs and then combines them into one graph (in the form of sub graph)
网络原理 | TCP/IP中的连接管理机制 重要协议与核心机制
[latex] differences in the way scores are written
MySQL 2013 lost connection to MySQL server during query
創下國產手機在海外市場銷量最高紀錄的小米,重新關注國內市場
Alibaba cloud IOT transfer to PostgreSQL database scheme
matlab讀取多張fig圖然後合並為一張圖(子圖的形式)
Photoshop installation under win10
2021-09-03 crawler template (only static pages are supported)
Mysql---数据读写分离、多实例
Man's life