当前位置:网站首页>【论文阅读】【3d目标检测】point transformer
【论文阅读】【3d目标检测】point transformer
2022-04-23 04:08:00 【Lukas88664】
论文标题:Point Transformer
iccv2021
用transformer做点云工作
出于点云的随机性 transformer正好处理此类问题

但是 很显然对于大规模的点云 直接使用transformer计算量是巨大的 所以作者提出来一种新的transformer处理形式,那便是knn查找临近点。
首先 作者介绍了transformer的背景 自注意力操作主要可以分为scalar和vector attention
scalar就是我们常说的注意力机制

而vector attention则还考虑两个token之间的关系

β为关系函数(相减) γ为一个mapping函数
而 作者提出的point transformer layer则主要是利用了vector attention的模块 考虑两个token之间的关系 同时将位置编码加入到value中 意思是既考虑位置关系又考虑值的关系:


具体操作是对于输入的主次点 我们首先进行linear的特征编码 将它们相减得到他们之间的relation,随后加上位置编码 进行mlp操作后取他们的编码后的值 然后进行norm的权重矩阵 让权重矩阵与值函数和位置编码相乘得到编码了k临近点的输出点特征 注意 进行transformer的点是首先进行了一个knn查询的 选取主点附近的k个点来进行value加权。
作者的位置编码采用的是相对位置 再进行一个线性层编码:

文章的总体框架是:

可以看到网络框架主要是pointnet++的框架
SA层便是替换成了tranformer加对于knn临近点的max pooling 进行下采样 而上采样感觉就完全是FP层。

后面的ablation比较了k个临近点的选取


位置编码的有效性

attention模块的必要性
总的来说 文章创新在提出point transformer层
然而这个层主要能在点云密集的室内进行操作 对于一些自动驾驶的场景 点云十分稀疏 在这些场景下使用knn查询临近点是不明智的 而且计算量巨大。
位置编码的方式可以学习!
版权声明
本文为[Lukas88664]所创,转载请带上原文链接,感谢
https://blog.csdn.net/hgj1h/article/details/124338499
边栏推荐
- 【BIM入门实战】Revit建筑墙体:构造、包络、叠层图文详解
- A function second kill 2sum 3sum 4sum problem
- [AI vision · quick review of NLP natural language processing papers today, issue 29] Mon, 14 Feb 2022
- How to introduce opencv into cmake project
- Basic introduction to spot gold
- matlab读取多张fig图然后合并为一张图(子图的形式)
- Writing latex with vscode - the latest tutorial 2022 / 4 / 17
- Common string processing functions in C language
- [AI vision · quick review of robot papers today, issue 29] Mon, 14 Feb 2022
- 单极性非归零NRZ码、双极性非归零NRZ码、2ASK、2FSK、2PSK、2DPSK及MATLAB仿真
猜你喜欢

无线键盘全国产化电子元件推荐方案

Express中间件②(中间件的分类)

【NeurIPS 2019】Self-Supervised Deep Learning on Point Clouds by Reconstructing Space

Xiaohongshu was exposed to layoffs of 20% as a whole, and the internal volume among large factories was also very serious

VSCode配置之Matlab极简配置

单片机串口数据处理(2)——uCOSIII+循环队列接收数据

为什么推荐你学嵌入式

QT program integration easyplayer RTSP streaming media player screen flicker what is the reason?

Stm32f4 MCU ADC sampling and FFT of ARM-DSP Library

LabVIEW 小端序和大端序区别
随机推荐
Matlab reads multiple fig graphs and then combines them into one graph (in the form of sub graph)
php导出Excel表格
【BIM入门实战】Revit中的墙体层次以及常见问题解答
CRF based medical entity recognition baseline
What if you encounter symbols you don't know in mathematical formulas
Set经典小题目
Does China Mobile earn 285 million a day? In fact, 5g is difficult to bring more profits, so where is the money?
Cause analysis of incorrect time of AI traffic statistics of Dahua Equipment Development Bank
【BIM入门实战】Revit建筑墙体:构造、包络、叠层图文详解
TreeSet after class exercises
STM32 MCU ADC rule group multi-channel conversion DMA mode
Express中间件②(中间件的分类)
【BIM+GIS】ArcGIS Pro2.8如何打开Revit模型,BIM和GIS融合?
RuntimeError: output with shape [4, 1, 512, 512] doesn‘t match the broadcast shape[4, 4, 512, 512]
Xiaomi, which has set the highest sales record of domestic mobile phones in overseas markets, paid renewed attention to the domestic market
Thought of reducing Governance -- detailed summary of binary search
How to introduce opencv into cmake project
The latest price trend chart and trading points of London Silver
PolarMask is not in the models registry
[Li Hongyi 2022 machine learning spring] hw6_ Gan (don't understand...)