当前位置:网站首页>弱监督语义分割CLIMS(CVPR2022)
弱监督语义分割CLIMS(CVPR2022)
2022-08-11 05:24:00 【Sierkinhane】
开源仓库:https://github.com/CVI-SZU/CLIMS
CLIMS: Cross Language Image Matching for Weakly Supervised Semantic Segmentation
图 1 CAM与CLIMS的对比图
摘要:众所周知,类别激活图(Class Activation Map, CAM) 通常只激活物体的判别性区域并且包含了许多与物体相关的背景误激活。仅有图像级标注信息的弱监督语义分割(Weakly Supervised Semantic Segmentation, WSSS)模型很难抑制那些多样化的背景区域。因此,基于对比语言图像预训练模型(Contrastive Language Image Pretraining, CLIP),本文提出了一个新颖的跨语言图像匹配(CLIMS)的弱监督语义分割框架。框架的核心思想是引入自然语言监督和设计物体、背景区域和文本标签匹配损失来获得更完整的类别激活图。并设计了区域正则化和背景抑制损失,以防止模型在CAM图中激活与类别相关的背景区域。这些设计使CLIMS 为目标对象生成更完整和紧凑的激活图。
图 2 CLIMS的网络结构图
图5 展示了本文提出的基于跨文本图像匹配(Cross Language Image Matching for WSSS, CLIMS)框架。它由一个骨干网络和一个文本驱动的评估器组成,其中评估器包括三个基于大型文本图像匹配预训练模型CLIP的损失函数,即对象区域和文本标签匹配损失 (LOTM)、背景区域和文本标签匹配损失(LBTM)、共现背景抑制损失(LCBS)和区域正则化损失(LREG)。核心思想是通过文本驱动评估器的监督来学习初始CAM图的生成。首先,给定一张图像X,主干网络预测初始 CAM图p,它表示每个像素属于一个类别的概率,如图5(a)所示。然后将p输入图像X相乘后的结果,作为文本驱动评估器的输入。如图5(b) 所示。将掩码后的结果及其对应的文本类别标签分别输入到 CLIP 模型的图像编码器特征向量vkio以及文本编码器提取特征向量vkto并计算它们之间的余弦相似度。我们可以根据数据集定义前景对象的文本标签,例如“train”、“cat”和“person”等。在训练期间,L_OTM 旨在最大化前景对象区域和给定文本标签之间的相似性,例如“a photo of train”:
(1)
(2)
L_OTM虽然能使CAM图可以逐渐接近图像中的目标对象,但不能保证物体激活区域的完整性。例如,即使只有鸟的头部可见,图像仍然可以被CLIP模型识别成一只鸟。因此,我们提出L_OTM来最小化掩码前景区域后的 X*(1-p) 和“a photo of train”之间的相似性:
(3)
(4)
这可以去除 1-p 中激活的物体区域,即在 p中激活更多可能的物体区域。然而,当物体区域被激活时,与物体密切相关的背景,例如火车和铁路、船和河流等,通常也会被激活,因为没有可用像素级标签。为了解决这个问题,我们额外定义了一组与类相关的背景文本标签,例如“railroad”(火车的共现背景)和“river”(船的共现背景)等。基于这些文本标签,我们设计了L_CBS以最小化X*(1-p)和这些同时出现的背景文本标签提取的特征向量vkio和vktb的相似性:
(5)
(6)
这使得CLIMS 能够抑制CAM中与类别相关的背景,例如“railroad”。最后,为了保证类别激活图的紧凑性,我们设计了区域正则化损失LREG:
(7)
最终,整体损失如下:
(8)
图 3 损失函数的消融实验效果图
图 4 类别激活图和伪标签质量的比较
图 5 在PASCAL VOC2012数据集上的评估结果与比较
图 6 类别激活图的可视化比较
图 7 损失函数超参数的敏感度分析
边栏推荐
猜你喜欢
MGRE环境下的OSPF综合实验
Safety helmet identification system - escort for safe production
HTTP缓存机制详解
Introduction of safety helmet wearing recognition system
AI智能图像识别的工作原理及行业应用
The selection points you need to know about the helmet identification system
2022年最新安全帽佩戴识别系统
Hard hat identification
OpenPCDet安装最新版:spconv一步到位
Robust 3D Object Detection in Cold Weather Conditions
随机推荐
基于uniapp开发的聊天界面
关于安全帽识别系统,你需要知道的选择要点
AI-based intelligent image recognition: 4 different industry applications
梅科尔工作室-HarmonyOS应用开发第一次培训
梅科尔工作室-DjangoWeb 应用框架+MySQL数据库第二次培训
Introduction of safety helmet wearing recognition system
GBase 8s与Oracle锁对比
@2022-02-22:每日一语
Mysql导入UTF8编码数据库命令总结
Waymo数据集使用介绍(waymo-open-dataset)
LiDAR Snowfall Simulation for Robust 3D Object Detection
Maykle Studio - Second Training in HarmonyOS App Development
Reconstruction and Synthesis of Lidar Point Clouds of Spray
架构设计杂谈
LiDAR Snowfall Simulation for Robust 3D Object Detection
基于ijkplayer 0.8.8编译的完整so. libijkffmpeg.so等,支持ssl h265, rm, rmvb
对MySQL查询语句的分析
360° large field of view helmet recognition system-deep learning intelligent video analysis
小程序技术原理分析
Redis分布式锁