当前位置:网站首页>多模态 参考资料汇总
多模态 参考资料汇总
2022-08-03 19:24:00 【friedrichor】
介绍
数据集
- The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database
数据库范围:情绪表达的识别与分析、人类二元互动分析、情绪敏感的人机界面和虚拟代理的设计
信息:关键词:情感、多模式、表演、二元;语言:英语;10名演员:5男5女;情绪激发技巧:即兴创作和脚本
可用的方式:动作捕捉人脸信息;演讲;视频;头部运动和头部角度信息;对话转录;词级、音节级和音素级对齐 - MS COCO (Microsoft Common Objects in Context)
MS COCO 数据集的第一个版本于 2014 年发布。它包含 164K 图像,拆分为训练 (83K)、验证 (41K) 和测试 (41K) 集。2015 年发布了额外的 81K 图像测试集,包括以前的所有测试图像和 40K 新图像。
目标检测:具有 80 个对象类别的边界框和每个实例的分割掩码,
字幕:图像的自然语言描述(参见 MS COCO 字幕),
关键点检测:包含超过 200,000 张图像和 250,000 个用关键点标记的人员实例(17 个可能的关键点,例如左眼、鼻子、右臀部、右脚踝),
填充图像分割: 具有 91 个填充类别的每像素分割掩码,例如草、墙、天空,
全景:全场景分割,有 80 个事物类别(例如人、自行车、大象)和 91 个事物类别的子集(草、天空、道路),
dense pose:超过 39,000 张图像和 56,000 个使用 DensePose 注释标记的人员实例——每个标记的人员都使用实例 ID 以及属于该人体的图像像素与模板 3D 模型之间的映射进行注释。注释仅对训练和验证图像公开可用。
论文+代码
- 多模态预训练模型综述(论文+代码汇总)
- Recent Advances in Vision and Language PreTrained Models (VL-PTMs)(视觉和语言预训练模型 (VL-PTM) 的最新进展)(论文+代码汇总,最后更新于2021/06/14)
…
边栏推荐
- 要想成为黑客,离不开这十大基础知识
- [Dataset][VOC] Rat dataset voc format 3001 sheets
- 盘点在线帮助中心对企业能够起到的作用
- 虚拟机vmware设置nat模式上网
- ADS 2023 Download Link
- 虚拟机vmware设置桥接模式上网
- 按需视觉识别:愿景和初步方案
- Teach you to locate online MySQL slow query problem hand by hand, package teaching package meeting
- Zhong Hua, senior architect of Ali: China-Taiwan strategic thinking and architecture practice; including internal implementation manual
- Kettle 读取 Excel 数据输出到 Oracle 详解
猜你喜欢

mysql跨库关联查询(dblink)
![选出表中的中位数记录[构造左右边界 || 问题转换]](/img/02/8d8e515c994c8a1a364f1e299d73f7.png)
选出表中的中位数记录[构造左右边界 || 问题转换]

傅里叶变换(深入浅出)

MySQL 主从,6 分钟带你掌握!

如何理解即时通讯开发移动网络的“弱”和“慢”

虚拟机vmware设置nat模式上网

高效目标检测:动态候选较大程度提升检测精度(附论文下载)

Network protocol-TCP, UDP difference and TCP three-way handshake, four wave

When does MySQL use table locks and when to use row locks?You should know this

基于移动GIS的环保生态管理系统
随机推荐
读取 resources 目录下的文件路径的九种方式,你知道多少?
多线程和并发编程(四)
七夕之前,终于整出了带AI的美丽秘笈
虚拟机vmware设置nat模式上网
Zhong Hua, senior architect of Ali: China-Taiwan strategic thinking and architecture practice; including internal implementation manual
CentOS 7 安装mysql
网络协议-TCP、UDP区别及TCP三次握手、四次挥手
ctfshow php features
【C语言学习笔记(六)】分支与跳转(if、else、continue、break、switch)
CS kill-free pose
MYSQL误删数据恢复
利用net-snmp的库实现snmpget,snmpset
U-Net生物医学图像分割讲解(Convolutional Networks for BiomedicalImage Segmentation)
Unity获取canvas 下ui 在屏幕中的实际坐标
ECCV 2022 Oral | 满分论文!视频实例分割新SOTA: IDOL
Brush the topic of mobile zero power button
线上一次JVM FullGC搞得整晚都没睡,彻底崩溃
盘点在线帮助中心对企业能够起到的作用
Solution for no navigation bar after Word is saved as PDF
LeetCode 622. Designing Circular Queues