当前位置：网站首页>MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

MIT：用无监督为世界上每个像素都打上标签！人类：再也不用为1小时视频花800个小时了

2022-04-23 11:01:00 【智源社区】

趁着ICLR 2022颁奖之际，MIT、康奈尔、谷歌和微软「炫耀」了一篇全新的SOTA——给世界上每一个像素都打上标签，而且无需人工！

论文地址：https://arxiv.org/abs/2203.08414

从对比图的效果来看，这个方法有时候甚至比人工还细致啊，甚至连阴影都做了标注。

不过遗憾是的是，虽然看着十分酷炫，但并没有入围获奖名单（包括提名）。

说回到CV领域，其实，给数据做标注这个问题已经困扰了学界很久。

对于人类来说，不管是牛油果还是土豆泥，甚至是「外星母舰」，只需要看一眼，就能认出来。

但是对于机器，就没这么简单了。

想制作一个用于训练的数据集，就需要在图像中把特定的内容框出来，而这件事目前来说基本只能靠人工手动进行。

比如，一只坐在草地上的狗，这时你就需要先把这只狗圈出来，并备注上——「狗」，然后再给后面那片地备注上「草」。

基于此，训练出的模型才能将「狗」和「草地」区分开。

而且，这件事情非常令人头疼。

你不去做吧，模型就很难识别出物体、人类或其他重要的图像特征。

做吧，又非常麻烦。

对人类标注者而言，分割图像比分类或目标检测要花费约100倍的精力。

仅仅是标注1个小时的数据就需要花费800个小时。

数据标注打工人：我也要毕业了？

为了让人类不用再去忍受「标注」的折磨（当然主要还是为了推进技术的进步），刚才提到的这群科学家便提出了一种新的基于Transformer的方法「STEGO」，从而在无监督的情况下完成图像语义分割任务。

无监督语义分割的目的是在图像语料库中发现并定位具有语义意义的类别，而无需任何形式的标注。

为了解决这一问题，STEGO算法必须为每个像素生成具有重要意义且足够紧凑的特征，以形成不同的簇。

与以往的端到端的模型不同，STEGO提出了将特征学习与聚类分离的方法，会寻找出现在整个数据集中的相似图像，然后，它将这些相似的对象关联在一起，以做到像素级别的标签预测。

在CocoStuff数据集上，27种类别的无监督语义分割任务（包括地面、天空、建筑、草坪、机动车、人、动物等）。

基线方法对比Cho等人2021年提出的PiCIE方法，图片结果显示，STEGO的语义分割预测结果在没有忽略关键对象的同时，保留了局部细节特征。

版权声明
本文为[智源社区]所创，转载请带上原文链接，感谢
https://hub.baai.ac.cn/views/16615