当前位置:网站首页>论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network
2022-08-11 05:25:00 【pontoon】
1.瓶颈问题:
小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般
CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了
2.本文贡献:
提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用
在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率图像与伪造图像,预测对象类别和细化边界框。 更重要的是,分类和回归损失被反向传播,以进一步指导生成器网络产生超分辨率图像,以便更容易分类和更好的定位。
最后,证明了MTGAN在目标检测的有效性,其中检测性能比几个最先进的检测器(主要用于小物体)提高了很多
3.解决方案:
(A) 整体网络输入图像
(B) 检测器将输入图像中的目标和背景分离(裁剪方式,相当于RPN提取ROI),之后将其用于训练生成器和判别器,或者是测试时提取ROI
(C) 检测器生成的正样本和负样本
(D) 生成器是一个超分辨率网络,将低分辨率图像生成超分辨率
(E) 判别器是一个多任务网络,其输入来自生成器生成的超分辨率图像,判断图像真假,图像分类,图像回归(相当于在原始判别器上加了分类和回归的分支,引入检测任务)
判别器是一个多任务网络,其梯度反传给生成器,让生成器生成的图像朝着以下方向生成(高分辨率,易于分类和回归)
判别器三个分支(检测图像真假分支最后用sigmoid输出,分类分支最后用softmax输出,回归分支最后输出为 (x,y,w,h))
生成器和判别器网络结构:(x5表示含有五层卷积的残差块)
总体设计目标函数:(这个只是大概的函数,后面会具体的拆分)
I^{LR}表示低分辨率图像
I^{HR}表示高分辨率图像
u 表示类别标签值
v 表示检测框回归标签值
θ 表示判别器网络参数
w 表示生成器参数
目标函数细节:
(1) MSE-LOSS 最小化使其接近真实图像,但缺点是比较模糊
(2) Adversarial Loss 加入对抗损失提高细节重建能力,骗过判别器
(3) Classification Loss 分类损失
和 分别代表生成的图像属于u类别的概率,真实图像输入u类别的概率。
(4)Regression Loss 回归损失,SR表示生成的超分,ui=0时是背景类无回归值
smmoth L1 loss
总体目标函数:其中 α、β 和 γ 是权衡不同项的权重(α = 0.001, β = γ = 0.01)
4.实验:
在COCO数据集上进行实验
初期GAN不太稳定,为了避免局部最优,首先训练一个基于MSE的SR网络来初始化生成器网络。
COCO minival subset
第一列:真实低分辨率图像
第二列:真实高分辨率图像
第三列:生成高分辨率图像
消融实验:
对比SOTA检测模型:
红色:模型预测
绿色:真实标签
作者结尾说还有不少改进的空间...
边栏推荐
- Robust 3D Object Detection in Cold Weather Conditions
- TAMNet: A loss-balanced multi-task model for simultaneous detection and segmentation
- 物联网基础知识学习
- Hard hat identification
- ASP.NET MVC 4中实现action的事务功能
- Joint 3D Instance Segmentation and Object Detection for Autonomous Driving
- aPaaS和iPaaS的区别
- 目标检测——Faster-RCNN 之 RCNN
- 目标检测——Faster R-CNN 之 Fast R-CNN
- Hardhat Recognition System - Solving Regulatory Conundrums
猜你喜欢
随机推荐
蓝牙技术-简介
Maykle Studio - HarmonyOS Application Development First Training
OpenPCDet installs the latest version: spconv in one step
STM32 基于固件库的工程模板的建立
The kernel communicates with user space through character devices
CMT2380F32模块开发6-flash例程
目标检测前言
Wisdom construction site safety helmet identification system
关于if(x)和while(x)的解释
Diagnostic Log and Trace——DLT 离线日志存储
Zhejiang University School of Software 2020 Guarantee Research Computer Real Question Practice
umi约定式路由规则修改
珍爱网App竞品分析报告
USB中用NRZI来编码数据
Pay “Attention” to Adverse Weather
支付牌照是什么意思
关于接口响应内容的解码
stm32-WS2812 PWM+DMA(自己写库函数)
EMQX企业版试用笔记
华为IOT平台温度过高时自动关闭设备场景试用