当前位置:网站首页>论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection
论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection
2022-08-11 05:25:00 【pontoon】
(可见图像和热成像)
右侧的热图像可以在光照不足的情况下捕捉到更清晰的行人轮廓。 此外,热图像还捕捉到被柱子遮挡的行人。在光线充足的白天,视觉图像比热图像具有更多的细节,例如边缘、纹理和颜色。有了这些细节,我们可以很容易地找到隐藏在机动三轮车中的司机,而这在热图像中是很难找到的。
1.瓶颈问题:
现实世界中环境是不断变化的,比如雨天,雾天,晴天,阴天等等,算法很难在仅仅用可见传感器数据(如相机拍下来的图像),在动态的环境变化中检测目标。因此,多光谱成像技术正逐渐被采用,因为它能够提供来自多光谱相机的组合信息,例如可见光和热成像。并且通过融合不同模态的互补性,可以进一步提高检测算法的可感知性、可靠性和鲁棒性。
然而,多光谱数据的引入将产生新的问题:
a.如何整合表示以充分利用不同模态之间的内在互补性?
b.以及如何设计一种有效的跨模态融合机制以实现最大性能形成增益?
使用卷积网络将它们扩展到跨模态融合或模态交互以充分利用固有的互补性并非易事。由于卷积算子具有非全局感受野,因此信息仅在局部区域内融合。
2.本文贡献:
(1) 引入了一种新的强大的双流backbone,在Transformer方案的基础上从另一种模态中增强了一种模态。
(2) 我们提出了一个简单而有效的CFT模块,并对其进行了理论分析,表明CFT模块同时融合了模态内和模态间特征。
(3) 实验结果在三个公共数据集上实现了最先进的性能,这证实了所提出方法的有效性。
3.解决方案:
在yolov5的基本网络框架下进行更改
其输入为不同模态的图像对,backbone改为双流网络,并且将CFT(Cross-Modality Fusion Transformer)嵌入其中
将两个模态图像经过卷积后的特征图拉平并concat在一起(记为I,(2HW * C)),添加位置编码组成CFT的输入
将I复制三份分别与相应W(C*C)相乘得到QKV。
Transformer机制能够使不同模态的特征进行交互。
因此,不需要仔细设计模态融合模块。 我们只需要简单地将多模态特征拼接成一个序列,然后Transformer就可以自动同时进行模态内和模态间信息融合,并鲁棒地捕捉RGB和Ther-之间的潜在交互。
实验:
在三个公开数据集上进行实验(FILP. LLVIP. VEDAI.)
训练参数:
We use SGD optimizer with an initial learning rate of 1e-2, a momentum of 0.937, and a weight decay of 0.0005. As for data augmentation, we use the Mosaic method which mixes four training images in one image.
在yolov5上做了消融实验:
在FILP.数据集上的实验结果对比:(红色箭头为漏检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络
在LLVIP.数据集上的实验结果对比:(红色箭头为漏检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络
在VEDAI.数据集上的实验结果对比:(红色箭头为漏检,蓝色箭头为过检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络
在三个不同数据集上的实验指标,证明提出的方法最优:
边栏推荐
- CMT2380F32模块开发1-硬件
- CVPR2022——A VERSATILE MULTI-VIEW FRAMEWORK
- 解决jupyter中import torch出错问题
- 关于if(x)和while(x)的解释
- 推出 Space Marketplace 测试版 | 新发布
- win10 配置tensorflow(GPU) anaconda3 cuda9.0 cudnn for 9.0
- 珍爱网App竞品分析报告
- Joint 3D Instance Segmentation and Object Detection for Autonomous Driving
- STM32学习总结(二)——GPIO
- 蓝牙技术-简介
猜你喜欢
Safety helmet recognition system
CNN-based Point Cloud De-Noising
The selection points you need to know about the helmet identification system
红外线一认识
解决jupyter中import torch出错问题
ActiveReports报表分类之页面报表
Joint 3D Instance Segmentation and Object Detection for Autonomous Driving
从概念认识AI
STM32学习笔记(白话文理解版)—按键控制
USB 枚举过程中8 字节标准请求解析
随机推荐
珍爱网App竞品分析报告
支付牌照是什么意思
Node-3.构建Web应用(一)
360° large field of view helmet recognition system-deep learning intelligent video analysis
梅科尔工作室-华为云ModelArts第一次培训
ARM 汇编指令 ADR 与 LDR 使用
Maykel Studio - Django Web Application Framework + MySQL Database Second Training
EMQX企业版试用笔记
LiDAR Snowfall Simulation for Robust 3D Object Detection
Waymo dataset usage introduction (waymo-open-dataset)
Diagnostic Log and Trace——为应用程序和上下文设置日志级别的方法
推出 Space Marketplace 测试版 | 新发布
arduino的esp32环境搭建(不需要翻墙,不需要离线安装)
CMT2380F32模块开发7-reset例程
跨应用间调用: URL Scheme
STM32-库函数-SetSysClock(void)函数解析-正点原子探索者
产品经理人物推荐
NUC980-镜像烧录
【调试记录1】提高MC3172浮点运算能力,IQmath库的获取与导入使用教程
微信和抖音都到十亿级用户了,作为产品经理的你们觉得哪个产品更成功?