当前位置:网站首页>论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

论文解读:GAN与检测网络多任务/SOD-MTGAN: Small Object Detection via Multi-Task Generative Adversarial Network

2022-08-11 05:25:00 pontoon

1.瓶颈问题:

小尺度目标,受限于缺乏足够的目标特征信息,使之很难从背景中区分出来,且小尺度目标一般都是低分辨率、模糊不清的,因此检测性能一般

CNN-based目标检测算法都需要使用到下采样操作,导致小尺度目标不仅损失了空间位置信息,且本来很少的目标特征几乎被背景上的特征给淹没了

2.本文贡献:

提出了一种用于小物体检测的新型统一端到端多任务生成对抗网络(MTGAN),可以与任何现有的检测器结合使用

在MTGAN中,生成器网络生成超分辨率图像,并引入多任务判别器网络,以同时区分真实的高分辨率图像与伪造图像,预测对象类别和细化边界框。 更重要的是,分类和回归损失被反向传播,以进一步指导生成器网络产生超分辨率图像,以便更容易分类和更好的定位。

最后,证明了MTGAN在目标检测的有效性,其中检测性能比几个最先进的检测器(主要用于小物体)提高了很多

3.解决方案:

 

(A) 整体网络输入图像

(B) 检测器将输入图像中的目标和背景分离(裁剪方式,相当于RPN提取ROI),之后将其用于训练生成器和判别器,或者是测试时提取ROI

(C) 检测器生成的正样本和负样本

(D) 生成器是一个超分辨率网络,将低分辨率图像生成超分辨率

(E) 判别器是一个多任务网络,其输入来自生成器生成的超分辨率图像,判断图像真假,图像分类,图像回归(相当于在原始判别器上加了分类和回归的分支,引入检测任务)

判别器是一个多任务网络,其梯度反传给生成器,让生成器生成的图像朝着以下方向生成(高分辨率,易于分类和回归)

判别器三个分支(检测图像真假分支最后用sigmoid输出,分类分支最后用softmax输出,回归分支最后输出为 (x,y,w,h))

生成器和判别器网络结构:(x5表示含有五层卷积的残差块)

 

 

总体设计目标函数:(这个只是大概的函数,后面会具体的拆分)

I^{LR}表示低分辨率图像

I^{HR}表示高分辨率图像

u 表示类别标签值

v 表示检测框回归标签值

θ 表示判别器网络参数

w 表示生成器参数

目标函数细节:

(1) MSE-LOSS 最小化使其接近真实图像,但缺点是比较模糊

(2) Adversarial Loss 加入对抗损失提高细节重建能力,骗过判别器

 

(3) Classification Loss 分类损失

 

和 分别代表生成的图像属于u类别的概率,真实图像输入u类别的概率。

(4)Regression Loss 回归损失,SR表示生成的超分,ui=0时是背景类无回归值

 

smmoth L1 loss 

 

总体目标函数:其中 α、β 和 γ 是权衡不同项的权重(α = 0.001, β = γ = 0.01)

4.实验: 

在COCO数据集上进行实验

初期GAN不太稳定,为了避免局部最优,首先训练一个基于MSE的SR网络来初始化生成器网络。

COCO minival subset

 

第一列:真实低分辨率图像

第二列:真实高分辨率图像

第三列:生成高分辨率图像

 

消融实验:

 

对比SOTA检测模型:

红色:模型预测

绿色:真实标签

 

作者结尾说还有不少改进的空间...

原网站

版权声明
本文为[pontoon]所创,转载请带上原文链接,感谢
https://blog.csdn.net/pontoon/article/details/123332116