当前位置:网站首页>弱监督语义分割CLIMS(CVPR2022)
弱监督语义分割CLIMS(CVPR2022)
2022-08-11 05:24:00 【Sierkinhane】
开源仓库:https://github.com/CVI-SZU/CLIMS
CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation

图 1 CAM与CLIMS的对比图
摘要:众所周知,类别激活图(Class Activation Map, CAM) 通常只激活物体的判别性区域并且包含了许多与物体相关的背景误激活。仅有图像级标注信息的弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)模型很难抑制那些多样化的背景区域。因此,基于对比语言图像预训练模型(Contrastive Language Image Pretraining, CLIP),本文提出了一个新颖的跨语言图像匹配(CLIMS)的弱监督语义分割框架。框架的核心思想是引入自然语言监督和设计物体、背景区域和文本标签匹配损失来获得更完整的类别激活图。并设计了区域正则化和背景抑制损失,以防止模型在CAM图中激活与类别相关的背景区域。这些设计使CLIMS 为目标对象生成更完整和紧凑的激活图。

图 2 CLIMS的网络结构图
图5 展示了本文提出的基于跨文本图像匹配(Cross Language Image Matching for WSSS, CLIMS)框架。它由一个骨干网络和一个文本驱动的评估器组成,其中评估器包括三个基于大型文本图像匹配预训练模型CLIP的损失函数,即对象区域和文本标签匹配损失 (LOTM
)、背景区域和文本标签匹配损失(LBTM
)、共现背景抑制损失(LCBS
)和区域正则化损失(LREG
)。核心思想是通过文本驱动评估器的监督来学习初始CAM图的生成。首先,给定一张图像X
,主干网络预测初始 CAM图p
,它表示每个像素属于一个类别的概率,如图5(a)所示。然后将p
输入图像X
相乘后的结果,作为文本驱动评估器的输入。如图5(b) 所示。将掩码后的结果及其对应的文本类别标签分别输入到 CLIP 模型的图像编码器特征向量vkio
以及文本编码器提取特征向量vkto
并计算它们之间的余弦相似度。我们可以根据数据集定义前景对象的文本标签,例如“train”、“cat”和“person”等。在训练期间,L_OTM 旨在最大化前景对象区域和给定文本标签之间的相似性,例如“a photo of train”:
(1)
(2)
L_OTM虽然能使CAM图可以逐渐接近图像中的目标对象,但不能保证物体激活区域的完整性。例如,即使只有鸟的头部可见,图像仍然可以被CLIP模型识别成一只鸟。因此,我们提出L_OTM来最小化掩码前景区域后的 X
*(1-p
) 和“a photo of train”之间的相似性:
(3)
(4)
这可以去除 1-p
中激活的物体区域,即在 p
中激活更多可能的物体区域。然而,当物体区域被激活时,与物体密切相关的背景,例如火车和铁路、船和河流等,通常也会被激活,因为没有可用像素级标签。为了解决这个问题,我们额外定义了一组与类相关的背景文本标签,例如“railroad”(火车的共现背景)和“river”(船的共现背景)等。基于这些文本标签,我们设计了L_CBS以最小化X
*(1-p
)和这些同时出现的背景文本标签提取的特征向量vkio
和vktb
的相似性:
(5)
(6)
这使得CLIMS 能够抑制CAM中与类别相关的背景,例如“railroad”。最后,为了保证类别激活图的紧凑性,我们设计了区域正则化损失LREG
:
(7)
最终,整体损失如下:
(8)

图 3 损失函数的消融实验效果图

图 4 类别激活图和伪标签质量的比较

图 5 在PASCAL VOC2012数据集上的评估结果与比较

图 6 类别激活图的可视化比较

图 7 损失函数超参数的敏感度分析
边栏推荐
- 四大组件之一BroadCast(其一)
- @2022-02-22:每日一语
- 梅科尔工作室-DjangoWeb 应用框架+MySQL数据库第二次培训
- 内核与用户空间通过字符设备通信
- TAMNet:A loss-balanced multi-task model for simultaneous detection and segmentation
- Waymo dataset usage introduction (waymo-open-dataset)
- Fragment 和 CardView
- 动画(其二)
- >>数据管理:读书笔记|第一章 数据管理
- Robust 3D Object Detection in Cold Weather Conditions
猜你喜欢

CVPR2020:Seeing Through Fog Without Seeing Fog

Reconstruction and Synthesis of Lidar Point Clouds of Spray

安全帽识别-施工安全的“监管者”

Mei cole studios - fifth training DjangoWeb application framework + MySQL database

基于ijkplayer 0.8.8编译的完整so. libijkffmpeg.so等,支持ssl h265, rm, rmvb

Pay “Attention” to Adverse Weather

Toward a Unified Model

梅科尔工作室-HarmonyOS应用开发第三次培训

AI智能图像识别的工作原理及行业应用

MGRE环境下的OSPF综合实验
随机推荐
GBase 8s是如何保证数据一致性
Thread Handler
The kernel communicates with user space through character devices
Safety helmet recognition - construction safety "regulator"
目标检测——Faster R-CNN 之 Fast R-CNN
数据库(其二)
梅科尔工作室-Pr第一次培训笔记(安装及项目创建)
OpenPCDet安装最新版:spconv一步到位
GBase 8s与Oracle存储对比
Reconstruction and Synthesis of Lidar Point Clouds of Spray
AIDL 简介以及使用
Mei cole studios - fifth training DjangoWeb application framework + MySQL database
安全帽识别系统-为安全生产保驾护航
Zhejiang University School of Software 2020 Guarantee Research Computer Real Question Practice
智慧工地 安全帽识别系统
梅科尔工作室-DjangoWeb 应用框架+MySQL数据库第三次培训
安全帽识别-施工安全的“监管者”
Maykle Studio - Second Training in HarmonyOS App Development
LAGRANGIAN FLUID SIMULATION WITH CONTINUOUS CONVOLUTIONS
更新GreenDAO实体类导致的编译错误