卷积神经网络 (CNN) 在许多计算机视觉任务(例如图像分类和目标检测)中取得了巨大成功。然而,它们的性能在图像分辨率低或目标很小的任务中迅速下降。

在本文中指出这源于现有 CNN 架构中存在缺陷但常见的设计,即使用Stride卷积和/或池化层,这会导致细粒度信息的丢失和学习效率较低的特征表示。为此,本文提出了一个名为 SPD-Conv 的新 CNN 构建块来代替每个Stride卷积层和池化层(因此完全消除了它们)。

SPD-Conv 由空间到深度 (SPD) 层和非Stride卷积 (Conv) 层组成,可以应用于大多数(如果不是全部)CNN 架构。作者在两个最具代表性的计算机视觉任务下解释了这种新设计:目标检测和图像分类。然后,通过将 SPD-Conv 应用于 YOLOv5 和 ResNet 来创建新的 CNN 架构,并通过经验证明本文的方法明显优于最先进的深度学习模型,尤其是在具有低分辨率图像和小目标的任务上。

论文链接:

https://arxiv.org/abs/2208.03641