当前位置:网站首页>MIT:用无监督为世界上每个像素都打上标签!人类:再也不用为1小时视频花800个小时了
MIT:用无监督为世界上每个像素都打上标签!人类:再也不用为1小时视频花800个小时了
2022-04-23 11:01:00 【智源社区】
趁着ICLR 2022颁奖之际,MIT、康奈尔、谷歌和微软「炫耀」了一篇全新的SOTA——给世界上每一个像素都打上标签,而且无需人工!

论文地址:https://arxiv.org/abs/2203.08414
从对比图的效果来看,这个方法有时候甚至比人工还细致啊,甚至连阴影都做了标注。

不过遗憾是的是,虽然看着十分酷炫,但并没有入围获奖名单(包括提名)。
说回到CV领域,其实,给数据做标注这个问题已经困扰了学界很久。
对于人类来说,不管是牛油果还是土豆泥,甚至是「外星母舰」,只需要看一眼,就能认出来。
但是对于机器,就没这么简单了。
想制作一个用于训练的数据集,就需要在图像中把特定的内容框出来,而这件事目前来说基本只能靠人工手动进行。
比如,一只坐在草地上的狗,这时你就需要先把这只狗圈出来,并备注上——「狗」,然后再给后面那片地备注上「草」。
基于此,训练出的模型才能将「狗」和「草地」区分开。

而且,这件事情非常令人头疼。
你不去做吧,模型就很难识别出物体、人类或其他重要的图像特征。
做吧,又非常麻烦。
对人类标注者而言,分割图像比分类或目标检测要花费约100倍的精力。
仅仅是标注1个小时的数据就需要花费800个小时。
数据标注打工人:我也要毕业了?
为了让人类不用再去忍受「标注」的折磨(当然主要还是为了推进技术的进步),刚才提到的这群科学家便提出了一种新的基于Transformer的方法「STEGO」,从而在无监督的情况下完成图像语义分割任务。
无监督语义分割的目的是在图像语料库中发现并定位具有语义意义的类别,而无需任何形式的标注。
为了解决这一问题,STEGO算法必须为每个像素生成具有重要意义且足够紧凑的特征,以形成不同的簇。
与以往的端到端的模型不同,STEGO提出了将特征学习与聚类分离的方法,会寻找出现在整个数据集中的相似图像,然后,它将这些相似的对象关联在一起,以做到像素级别的标签预测。
在CocoStuff数据集上,27种类别的无监督语义分割任务(包括地面、天空、建筑、草坪、机动车、人、动物等)。
基线方法对比Cho等人2021年提出的PiCIE方法,图片结果显示,STEGO的语义分割预测结果在没有忽略关键对象的同时,保留了局部细节特征。

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/16615
边栏推荐
- 如何使用JDBC CallableStatement.wasNull()方法调用来查看最后一个OUT参数的值是否为 SQL NULL
- Jupyter Lab 十大高生产力插件
- C语言之结构体(进阶篇)
- Notes on concurrent programming of vegetables (IX) asynchronous IO to realize concurrent crawler acceleration
- RESTful和SOAP的区别
- About the three commonly used auxiliary classes of JUC
- vm设置静态虚拟机
- SQL server query database deadlock
- Read integrity monitoring techniques for vision navigation systems
- MySQL common statements
猜你喜欢

A diary of dishes | 238 Product of arrays other than itself

Visual Road (XII) detailed explanation of collection class

Jinglianwen technology - professional data annotation company and intelligent data annotation platform

Visualized common drawing (II) line chart

Introduction to wechat applet, development history, advantages of applet, application account, development tools, initial knowledge of wxml file and wxss file

JVM - common parameters

【leetcode】102.二叉树的层序遍历

比深度学习更值得信赖的模型ART

Visual common drawing (I) stacking diagram

Visualization Road (10) detailed explanation of segmentation canvas function
随机推荐
Precautions for latex formula
【leetcode】199. Right view of binary tree
Mysql8.0安装指南
语雀文档编辑器将开源:始于但不止于Markdown
Deploy jar package
Visual Road (XII) detailed explanation of collection class
SWAT - Introduction to Samba web management tool
JDBC – PreparedStatement – 如何设置 Null 值?
Image processing - Noise notes
SSH uses private key to connect to server without key
MySql常用语句
Alarm scene recognition
Jupyter Lab 十大高生产力插件
Wonderful review | deepnova x iceberg meetup online "building a real-time data Lake based on iceberg"
Source insight 4.0 FAQs
SVN的使用:
比深度学习更值得信赖的模型ART
主流手机分辨率与尺寸
全栈交叉编译X86完成过程经验分享
第六站神京门户-------手机号码的转换