当前位置:网站首页>CVPR2022 | 跨模态检索的协同双流视觉语言预训练模型
CVPR2022 | 跨模态检索的协同双流视觉语言预训练模型
2022-04-22 18:50:00 【智源社区】

论文链接:https://arxiv.org/abs/2204.07441
大规模的单塔预训练模型,在跨模态检索中取得惊人的检索效果。遗憾的是,由于它们大多采用耗时的实参跨模态交互方式,检索效率非常低。最近,像CLIP和ALIGN这样具有高推理效率的双塔模型也表现出了良好的效果,然而,它们只考虑了模态之间的实例级对齐(因此仍有改进的余地)。为了克服这些限制,我们提出了一个新颖的协同式双塔视觉语言预训练模型,简称为COTS。总的来说,我们提出的COTS是通过加强模态间的交互来提高图像-文本检索效果的。除了通过动量对比学习进行实例级的对齐之外,我们还提出了两种额外的跨模态交互。(1)Token级的交互—在不使用实参交互模型的情况下,我们设计了一个遮蔽视觉语言建模(MVLM)的学习目标,其中变分自编码器用于视觉编码,可为每个图像生成视觉token级别的标记。(2)任务级的交互—在文本到图像和图像到文本的检索任务之间设计了一个KL-对齐学习目标,其中每个任务的概率分布是用动量对比学习中的负样本队列计算的。在公平比较下,我们提出的COTS在所有双塔方法中取得了最好的结果,与最新的单塔方法相比,COTS表现出相当的能力(但推理速度快10,800倍)。同时,我们提出的COTS也适用于从文本到视频的检索,在广泛使用的MSR-VTT数据集上取得了目前最好的结果。

版权声明
本文为[智源社区]所创,转载请带上原文链接,感谢
https://hub.baai.ac.cn/views/16611
边栏推荐
- 大话测试数据(一)
- Server side password encryption
- SegAttnGAN Text to Image Generation with Segmentation Attention
- IM即时通讯开发如何设计能支撑百万并发的数据库
- Type description file of module code
- Jsonobject data guarantee order of fastjson
- How to design API interface to realize uniform format return
- Talk about the pit of cache Boolean value
- 2022语言与智能技术竞赛再升级,推出NLP四大前沿任务
- 使用RectclerView的一些问题记录
猜你喜欢
![[drive] TX2 transplants EC20 startup module](/img/f1/5ef4a9bc5deb84523dc935719b9dea.png)
[drive] TX2 transplants EC20 startup module

华为设备配置策略路由引流到旁挂防火墙

PostgreSQL 15即将支持SQL标准中的MERGE语句

The Sandbox 与 Apex Athletes 达成合作关系

Classes and objects - 5

Take you to understand the principle of highly flexible spark architecture

Win10 problems: one-time permanent shutdown and automatic update of win10 system

redis发布订阅

我们需要什么样的数据库产品

The sandbox has entered into a cooperative relationship with apex athetes
随机推荐
[extensive reading of papers] eating embedded learning by comprehensive transcription of heterogeneous information networks
100 days of code-day26
Kellerman Software . NET SFTP Library
2022福建省安全员A证(主要负责人)考试模拟100题及在线模拟考试
我们需要什么样的数据库产品
不产桩不建桩,充电服务商NaaS靠什么崛起?
C language precompiling (preprocessing) define
SegAttnGAN Text to Image Generation with Segmentation Attention
STC目前所有系列的中断列表
Some indicators in text classification
JSP learning (IX. filter, wildcard and cookie processing)
redis主从复制
AWSL!这波回忆杀真的爱了!
There may be some reasons why foreign websites such as zenodo download too slowly.
MySQL数据库中的索引(含SQL语句)
描述文件中的全局类型
The sandbox has entered into cooperative relations with slipknot and knotfest to jointly build knotverse
【Spark】(task6)Spark RDD完成统计逻辑
The Sandbox 与 Apex Athletes 达成合作关系
Micro star small aircraft performance monitoring settings