当前位置:网站首页>听声辨物,这是AI视觉该干的???|ECCV 2022
听声辨物,这是AI视觉该干的???|ECCV 2022
2022-08-09 11:55:00 【QbitAl】
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。
能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?
来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)。
视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。
相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench。
新任务、新的数据集,搞算法的又有新坑可以卷了。
据最新放榜结果,该论文已被ECCV 2022接受。
精准锁定发声物
听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。
视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。
这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。
但无论哪一种,离精细化的视听场景理解都差点意思。
△ AVS 任务与 SSL 任务的比较
视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——
即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。
AVSBench 数据集
要怎么研究这个新任务呢?
鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:
1、单声源(Single-source)下的视听分割
2、多声源(Multi-sources)下的视听分割
数据集中的每个视频时长5秒。
单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。
△AVSBench单源子集的数据分布
多声源子集则包含了424个视频。
结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。
研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。
对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。
△对单声源子集和多声源子集进行不同人工标注
这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。
一个简单的baseline方法
有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。
吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。
△视听分割框架图
这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。
另外,还有两个网络优化目标。
一是计算预测图和真实标签的损失。
而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。
部分实验结果
光说不练假把式,研究人员进行了广泛实验。
首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。
实验结果表明,视听分割在多个指标下取得了最佳结果。
△和来自相关任务方法进行视听分割的对比结果
其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。
△引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)
对于新任务的视听匹配损失函数,实验还验证了其有效性。
△视听匹配损失函数的有效性
One More Thing
文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型。
研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2。
一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~
论文地址:
https://arxiv.org/abs/2207.05042
GitHub地址:
https://github.com/OpenNLPLab/AVSBench
项目主页:
https://opennlplab.github.io/AVSBench/
边栏推荐
- redis的线程模型
- Apexsqlrecover cannot connect to database
- 父类的main方法可以被继承么?有什么特殊?
- Gumbel_Softmax 概要
- We really need DApp?Really can't meet our fantasy App?
- [现代控制理论]2_state-space状态空间方程
- Blazor Server (9) from scratch -- modify Layout
- BISS绝对值编码器_TI方案_线路延迟补偿
- 鹅厂机器狗花式穿越10m梅花桩:前空翻、单桩跳、起身作揖...全程不打一个趔趄...
- 智驾科技完成C1轮融资,此前2轮已融4.5亿元
猜你喜欢
Byte Qiu Zhao confused me on both sides, and asked me under what circumstances would the SYN message be discarded?
二重指针-char **、int **的作用
[现代控制理论]6_稳定性_李雅普诺夫_Lyapunov
放下手机吧:实验表明花20分钟思考和上网冲浪同样快乐
Fapi_StatusType Fapi_issueProgrammingCommand使用注意事项
Shell之常用小工具(sort、uniq、tr、cut)
电解电容漏电流及均压
MongoDB-查询中$all的用法介绍
[Essence] Analysis of the special case of C language structure: structure pointer / basic data type pointer, pointing to other structures
专业人士使用的 11 种渗透测试工具
随机推荐
Blazor Server (9) from scratch -- modify Layout
【概率论】一元概率分布的平均化
微信小程序支付及退款整体流程
The redis library cannot be imported
修改VOT2018.json文件,去掉图片路径中的color
ThreadLocal类
The latest interview summary in 20022 brought by Ali senior engineer is too fragrant
Semaphore SIGCHLD use, how to make the parent that the child performs over, how to make the distinction between multiple child processes. The end
程序员的专属浪漫——用3D Engine 5分钟实现烟花绽放效果
F280049库函数API编程、直接寄存器控制编程和混合编程方法
【Data augmentation in NLP】——1
Ways to prevent data fraud
Win10调整磁盘存储空间详解
虚拟机安装出现的问题汇总
网页控制台控制编辑框
Django cannot link mysql database
Two ways to enter the Oracle database
LeetCode #101. Symmetric Binary Tree
HAproxy: load balancing
Byte Qiu Zhao confused me on both sides, and asked me under what circumstances would the SYN message be discarded?