当前位置:网站首页>论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection
论文解读:跨模态/多光谱/多模态检测 Cross-Modality Fusion Transformer for Multispectral Object Detection
2022-08-11 05:25:00 【pontoon】

(可见图像和热成像)
右侧的热图像可以在光照不足的情况下捕捉到更清晰的行人轮廓。 此外,热图像还捕捉到被柱子遮挡的行人。在光线充足的白天,视觉图像比热图像具有更多的细节,例如边缘、纹理和颜色。有了这些细节,我们可以很容易地找到隐藏在机动三轮车中的司机,而这在热图像中是很难找到的。
1.瓶颈问题:
现实世界中环境是不断变化的,比如雨天,雾天,晴天,阴天等等,算法很难在仅仅用可见传感器数据(如相机拍下来的图像),在动态的环境变化中检测目标。因此,多光谱成像技术正逐渐被采用,因为它能够提供来自多光谱相机的组合信息,例如可见光和热成像。并且通过融合不同模态的互补性,可以进一步提高检测算法的可感知性、可靠性和鲁棒性。
然而,多光谱数据的引入将产生新的问题:
a.如何整合表示以充分利用不同模态之间的内在互补性?
b.以及如何设计一种有效的跨模态融合机制以实现最大性能形成增益?
使用卷积网络将它们扩展到跨模态融合或模态交互以充分利用固有的互补性并非易事。由于卷积算子具有非全局感受野,因此信息仅在局部区域内融合。
2.本文贡献:
(1) 引入了一种新的强大的双流backbone,在Transformer方案的基础上从另一种模态中增强了一种模态。
(2) 我们提出了一个简单而有效的CFT模块,并对其进行了理论分析,表明CFT模块同时融合了模态内和模态间特征。
(3) 实验结果在三个公共数据集上实现了最先进的性能,这证实了所提出方法的有效性。
3.解决方案:

在yolov5的基本网络框架下进行更改
其输入为不同模态的图像对,backbone改为双流网络,并且将CFT(Cross-Modality Fusion Transformer)嵌入其中
将两个模态图像经过卷积后的特征图拉平并concat在一起(记为I,(2HW * C)),添加位置编码组成CFT的输入
将I复制三份分别与相应W(C*C)相乘得到QKV。



Transformer机制能够使不同模态的特征进行交互。
因此,不需要仔细设计模态融合模块。 我们只需要简单地将多模态特征拼接成一个序列,然后Transformer就可以自动同时进行模态内和模态间信息融合,并鲁棒地捕捉RGB和Ther-之间的潜在交互。
实验:
在三个公开数据集上进行实验(FILP. LLVIP. VEDAI.)
训练参数:
We use SGD optimizer with an initial learning rate of 1e-2, a momentum of 0.937, and a weight decay of 0.0005. As for data augmentation, we use the Mosaic method which mixes four training images in one image.
在yolov5上做了消融实验:

在FILP.数据集上的实验结果对比:(红色箭头为漏检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络

在LLVIP.数据集上的实验结果对比:(红色箭头为漏检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络

在VEDAI.数据集上的实验结果对比:(红色箭头为漏检,蓝色箭头为过检)
第一行:真实标签
第二行:未加CFT的检测网络
第三行:加了CFT的检测网络

在三个不同数据集上的实验指标,证明提出的方法最优:

边栏推荐
- 解决jupyter中import torch出错问题
- CMT2380F32模块开发6-flash例程
- LiDAR Snowfall Simulation for Robust 3D Object Detection
- Maykle Studio - Second Training in HarmonyOS App Development
- 跨应用间调用: URL Scheme
- CVPR2020: Seeing Through Fog Without Seeing Fog
- USB中用NRZI来编码数据
- typescript学习日记,从基础到进阶(第二章)
- 使用ActiveReports制作第一张报表
- The selection points you need to know about the helmet identification system
猜你喜欢

Maykle Studio - HarmonyOS Application Development Third Training

STM32学习总结(一)——时钟RCC

梅科尔工作室-Pr第一次培训笔记(安装及项目创建)

Maykle Studio - Second Training in HarmonyOS App Development

The selection points you need to know about the helmet identification system

梅科尔工作室-第四次PR培训笔记(字幕和标题动画,关键帧动画和声音处理)

typescript学习日记,从基础到进阶(第二章)

MSP430学习总结——时钟UCS

目标检测——LeNet

关于openlayer中swipe位置偏移的问题
随机推荐
STM32-库函数-SetSysClock(void)函数解析-正点原子探索者
Mei cole studios - fifth training DjangoWeb application framework + MySQL database
产品版本号是如何确定的
STM32学习笔记(白话文理解版)—USART通信接口
梅科尔工作室-华为云ModelArts第一次培训
产品经理人物推荐
net6 的Web MVC项目中事务功能的应用
vmware不可恢复错误vmui
CKEditor富文本编辑器工具栏自定义笔记
微文案也能提升用户体验
CMT2380F32模块开发1-硬件
C语言的编译
华为IOT平台温度过高时自动关闭设备场景试用
js写四位随机数能有多少种可能性?并列出所有可能性
STM32学习笔记(白话文理解版)—外部IO中断实验
ASP.NET MVC 4中实现action的事务功能
产品经理的基础知识
珍爱网App竞品分析报告
Wisdom construction site safety helmet identification system
小程序技术原理分析