当前位置:网站首页>论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
2022-08-11 05:25:00 【pontoon】
1.瓶颈问题:
小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般
CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了
2.本文贡献:
提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用
在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率图像与伪造图像,预测对象类别和细化边界框。 更重要的是,分类和回归损失被反向传播,以进一步指导生成器网络产生超分辨率图像,以便更容易分类和更好的定位。
最后,证明了MTGAN在目标检测的有效性,其中检测性能比几个最先进的检测器(主要用于小物体)提高了很多
3.解决方案:
(A) 整体网络输入图像
(B) 检测器将输入图像中的目标和背景分离(裁剪方式,相当于RPN提取ROI),之后将其用于训练生成器和判别器,或者是测试时提取ROI
(C) 检测器生成的正样本和负样本
(D) 生成器是一个超分辨率网络,将低分辨率图像生成超分辨率
(E) 判别器是一个多任务网络,其输入来自生成器生成的超分辨率图像,判断图像真假,图像分类,图像回归(相当于在原始判别器上加了分类和回归的分支,引入检测任务)
判别器是一个多任务网络,其梯度反传给生成器,让生成器生成的图像朝着以下方向生成(高分辨率,易于分类和回归)
判别器三个分支(检测图像真假分支最后用sigmoid输出,分类分支最后用softmax输出,回归分支最后输出为 (x,y,w,h))
生成器和判别器网络结构:(x5表示含有五层卷积的残差块)
总体设计目标函数:(这个只是大概的函数,后面会具体的拆分)
I^{LR}表示低分辨率图像
I^{HR}表示高分辨率图像
u 表示类别标签值
v 表示检测框回归标签值
θ 表示判别器网络参数
w 表示生成器参数
目标函数细节:
(1) MSE-LOSS 最小化使其接近真实图像,但缺点是比较模糊
(2) Adversarial Loss 加入对抗损失提高细节重建能力,骗过判别器
(3) Classification Loss 分类损失
和 分别代表生成的图像属于u类别的概率,真实图像输入u类别的概率。
(4)Regression Loss 回归损失,SR表示生成的超分,ui=0时是背景类无回归值
smmoth L1 loss
总体目标函数:其中 α、β 和 γ 是权衡不同项的权重(α = 0.001, β = γ = 0.01)
4.实验:
在COCO数据集上进行实验
初期GAN不太稳定,为了避免局部最优,首先训练一个基于MSE的SR网络来初始化生成器网络。
COCO minival subset
第一列:真实低分辨率图像
第二列:真实高分辨率图像
第三列:生成高分辨率图像
消融实验:
对比SOTA检测模型:
红色:模型预测
绿色:真实标签
作者结尾说还有不少改进的空间...
边栏推荐
- 360° large field of view helmet recognition system-deep learning intelligent video analysis
- CNN-based Point Cloud De-Noising
- ActiveReports报表分类之页面报表
- 珍爱网App竞品分析报告
- Pay “Attention” to Adverse Weather
- 如何快速转行做产品经理
- 目标检测——卷积神经网路基础知识
- Generic kernel and userspace Makefiles
- pip安装报错:is not a supported wheel on this platform
- net6 的Web MVC项目中事务功能的应用
猜你喜欢
实时姿态估计--基于空洞卷积的人体姿态估计网络
张小龙的微信公开课(2019年)
gerrit 配置SSH Key和账号、邮箱信息
Pay “Attention” to Adverse Weather
【调试记录1】提高MC3172浮点运算能力,IQmath库的获取与导入使用教程
物联网IOT 固件升级
小程序技术原理分析
SCNet: Semantic Consistency Networks for 3D Object Detection
STM32学习笔记(白话文理解版)—外部IO中断实验
Mei cole studios - fifth training DjangoWeb application framework + MySQL database
随机推荐
Maykel Studio - Django Web Application Framework + MySQL Database Third Training
CMT2380F32模块开发3-GPIO例程
张小龙的微信公开课(2019年)
推出 Space Marketplace 测试版 | 新发布
TAMNet: A loss-balanced multi-task model for simultaneous detection and segmentation
跨应用间调用: URL Scheme
The selection points you need to know about the helmet identification system
目标检测——Faster-RCNN 之 RCNN
SCNet: Semantic Consistency Networks for 3D Object Detection
STM32-库函数-SetSysClock(void)函数解析-正点原子探索者
Maykle Studio - Second Training in HarmonyOS App Development
The selection points you need to know about the helmet identification system
LAGRANGIAN FLUID SIMULATION WITH CONTINUOUS CONVOLUTIONS
CMT2380F32模块开发0-总览
目标检测——Faster R-CNN 之 Fast R-CNN
Typescript学习日记,typescript从基础到进阶(第一章)
OpenPCDet installs the latest version: spconv in one step
解决jupyter中import torch出错问题
mount命令--挂载出现只读,解决方案
STM32学习总结(二)——GPIO