当前位置:网站首页>dalle2:hierarchical text-conditional image generation with clip
dalle2:hierarchical text-conditional image generation with clip
2022-08-06 07:47:00 【Kun Li】
DALL·E 2【论文精读】_哔哩哔哩_bilibili更多论文:https://github.com/mli/paper-reading, 视频播放量 30350、弹幕量 256、点赞数 1767、投硬币枚数 1318、收藏人数 751、转发人数 344, 视频作者 跟李沐学AI, 作者简介 ,相关视频:博一研究生 求偶视频,如何做好文献阅读及笔记整理,在线求偶|26岁985副教授,开组会时,师兄SCI见刊了,生成对抗网络GAN开山之作论文精读,GAN论文逐段精读【论文精读】,对比学习论文综述【论文精读】,01 机器学习编译概述 【MLC-机器学习编译中文版】,导师对不起,您评院士的事可能得缓缓了,【精读AI论文】知识蒸馏
https://www.bilibili.com/video/BV17r4y1u77B?spm_id_from=333.999.0.0&vd_source=4aed82e35f26bb600bc5b46e65e25c22看到市面上的一些关于dalle2的的解释其实都不太好,没说的很明白,生成模型的三大方向分别是vae,gan和扩散模型,其中ae->dae->vae->vqvae->diffusion,扩散模型的ddpm->improved ddpm->diffusion beets GAN->glide->dalle2.
1.introduction
clip对图像分布变化具有鲁棒性,可以zero-shot,扩散模型能满足样本多样性且保真度也不错。dalle2结合了这两个模型的优良特性。
2.method

上面这张图画的很好,结合这个图来看,首先虚线上面是一个clip,这个clip是提前训练好的,在dalle2的训练期间不会再去训练clip,是个权重锁死的,在dalle2的训练时,输入也是一对数据,一个文本对及其对应的图像,首先输入一个文本,经过clip的文本编码模块(bert,clip对图像使用vit,对text使用bert进行编码,clip是基本的对比学习,两个模态的编码很重要,模态编码之后直接余弦求相似度了),在输入一个图像,经过clip的图像编码模块,产生了图像的vector,这个图像vector其实是gt。产生的文本编码输入到第一个prior模型中,这是一个扩散模型,也可以用自回归的transformer,这个扩散模型输出一组图像vector,这时候通过经过clip产生的图像vector进行监督,此处其实是一个监督模型,后面是一个decoder模块,在以往的dalle中,encoder和decoder是放在dvae中一起训练的,但是此处的deocder是单训的,也是一个扩散模型,其实虚线之下的生成模型,是将一个完整的生成步骤,变成了二阶段显式的图像生成,作者实验这种显式的生成效果更好。这篇文章称自己为unclip,clip是将输入的文本和图像转成特征,而dalle2是将文本特征转成图像特征再转成图像的过程,其实图像特征到图像是通过一个扩散模型实现的。在deocder时既用了classifier-free guidence也用了clip的guidence,这个guidence指的是在decoder的过程中,输入是t时刻的一个带噪声的图像,最终输出是一个图像,这个带噪声的图像通过unet每一次得到的一个特征图可以用一个图像分类器去做判定,此处一般就用交叉熵函数做一个二分类,但是可以获取图像分类的梯度,利用这个梯度去引导扩散去更好的decoder。
边栏推荐
猜你喜欢

推荐系统-排序层-2017:NFM模型【FM家族】

我在yml里设置了全局映射表前缀,但数据库识别不到

Cesium从已知的自定义材质扩展其他效果(二)

推荐系统-排序层-2018:MMOE【多任务学习模型】

Why do interviewers keep asking technical questions on your resume until they can't answer them?

记录自己LitJson解析Json的方法

最新爆火的阿里、蚂蚁、京东、美团的面试,你必须要知道啊,不然还想进大厂吗

推荐系统-排序层-2010:因子分解机(FM)【LR(逻辑回归)模型的改进版】【解决在稀疏数据的场景下模型参数难以训练的问题。考虑了特征的二阶交叉,弥补了LR表达能力差的缺陷】

《UnityShader入门精要》总结(2):初级篇

超好用R包(grafify)
随机推荐
UNITY物体上下漂浮工具
文档翻译-文档翻译软件
快速学会文件操作模块
JMeter集合点
记录自己LitJson解析Json的方法
【matlab的积分,傅里叶,拉普拉斯变换,信号分析】
unity中复制就能用的定时执行脚本
Check the inverse relationship between the shift distance and the number of iterations
How to ensure the security of NFT from the suspected abolition of the magic core
数据库中的外键是否必要存在
js模拟动态删除留言功能
Use Specification and Example to implement dynamic conditional query cases
R语言统计与绘图:生存曲线的两两比较
vscode configure typescript and simple use
I set the global mapping table prefix in yml, but the database does not recognize it
Cesium从已知的自定义材质扩展其他效果(二)
Cesium关于Entity中的parent、isShowing、entityCollection和监听事件的探讨
推荐系统-排序层-2017:DCN(Deep&Cross)【对Wide&Deep模型的改进】【Wide部分需人工特征工程;而Cross部分可以进行特征的自动交叉, 避免了基于业务理解的人工特征组合】
WinForm(三)揭开可视化控件的面纱
【愚公系列】2022年08月 Go教学课程 030-对象继承