当前位置:网站首页>【Postgraduate Work Weekly】(Week 9)
【Postgraduate Work Weekly】(Week 9)
2022-08-09 16:48:00 【wangyunpeng33】
学习目标:
- CVPR 2020 | 几篇 image-to-image 论文
- Li Hongyi's course study notes Domain Adaptation
- Some advanced models for image translation in recent years:
- StarGAN v2
- ALAE
- HIDT
- ConSinGAN
学习内容:
- The most basic image translation modelUNIT,MUNIT
- A typical image translation modelDAI2I,NICE-GAN,DUNIT
- StarGAN v2
学习时间:
- 7.3~7.9
学习产出:
- CSDN 总结博客 1 篇
Basic Image to Image Translation
- UNIT
Unsupervised Image-to-Image Translation Networks (UNIT)的特征如下:
●Two distinct domains 两个不同的domain
● Unpaired training data 数据不对应,就是一个domain中图片,There is no other counterpart to himdomain的照片
● Share the same latent space z
● Domain Invariant feature
这里相当于一个VAE+GAN
要找到两个domain的share latent space,通过VAE loss,GAN loss,cycle consistency lossthree aspectsloss来进行训练.
- MUNIT
Multimodal Unsupervised Image-to-Image Translation (MUNIT)特点
● Two distinct domains (Diverse image)
● Unpaired training data
● Disentangle features into content and style features
- 两个Encoder,分别提取Content Feature和Style Feature,Then combine them,do after combiningup-sampling,还原得到Reconstructed image.
- 涉及到的lossIncluding the reconstruction loss within the domain,Cross-domain reconstruction loss,对抗训练损失
图像翻译相关论文
1. Domain Adaptive Image-to-image Translation
不成对训练下的图像转换image-to-image translation (I2I)在各种应用中都取得了巨大的成功.但其泛化能力仍然是一个悬而未决的问题.
本文证明了现有的I2I模型不能很好地推广到训练域之外的样本,首先,当测试样本超出其有效输入域时,I2I模型可能无法正常工作.其次,如果预期输出与模型训练的结果相距甚远,则结果不可靠.
为了解决这些问题,提出了一种域自适应图像到图像转换(DAI2I)框架,该框架使I2I模型适用于域外样本.框架引入了两个子模块-一个将测试样本映射到I2I模型的有效输入域,另一个将I2I模型的输出转换为预期结果.
2. Fine-grained Image-to-Image Transformation towards Visual Recognition
现有的图像转换方法主要集中在:如何在合成视觉上有让人感到自然的效果.而生成具有正确身份标签的图像具有挑战性,且相关探索少得多.
在保持身份不变的情况下,对于姿势、视角或尺寸(缩放)具有较大变形的图像转换任务,更具挑战性,例如面部旋转和对象视图变形.
本文的目标是对具有细粒度类别的图像进行转换,以合成保留输入图像身份的新图像,从而可以为后续的细粒度图像识别和少样本学习任务带来好处.
3. Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation
训练结束后,大多数当前的图像转换框架将丢弃鉴别器.
本文通过重复使用鉴别器来对目标域的图像进行编码,提出NICE-GAN.与以前的方法相比,方法具有两个好处:首先,由于不需要独立的编码组件,因此结构更紧凑;其次,这种插入式编码器直接受对抗损失训练,如果应用了多尺度鉴别器,则其信息量更大,训练更有效.
4. DUNIT: Detection-based Unsupervised Image-to-Image Translation
大多数图像转换方法将图像视为一个整体,这使得它们生成的效果内容丰富,却不够逼真现实.
This paper introduces a detection-based unsupervised image-to-image translation(DUNIT)方法,该方法在转换过程中明确考虑了对象实例.方法为全局图像和实例分别提取各自表示,然后再将它们融合.
5. High-Resolution Daytime Translation Without Domain Labels
- 对高分辨率照片中的白天变化进行建模,例如在白天,夜晚或黎明的典型光照下重新渲染同一场景,是一项具有挑战性的图像处理任务.- 本文为此任务提供了高分辨率的白天转换(HiDT)模型.HiDT结合了生成式图像转换模型和新的上采样方案,后者可以高分辨率应用于图像转换.
- 项目地址
StarGAN v2
StarGAN v2 由四部分组成:生成器 G G G ,映射网络 F F F ,风格编码器 E E E 判别器 D D D
First, the mapping network learns the style encoding of the target domain images s ^ = F y ^ ( z ) \hat{s} = F_{\hat{y}}(z) s^=Fy^(z) ,其中 y ^ ∈ Y \hat{y}\in Y y^∈Y,This is the style encoding of the target domain image learned by the mapping network.
The style encoding as a reference to the real target domain image is obtained by the style encoder s = E y ( y ) s = E_y(y) s=Ey(y),Got style coding s ^ \hat{s} s^Combine the source domain input image x x xcan be sent to the generator.
The output of the generator is the transformed target domain image G ( x , s ^ ) G(x,\hat{s}) G(x,s^),The discriminator is to distinguish whether the generated target domain images are real from the real target domain.
StarGAN v2模型结构:
小结
近年来,Image translation enables more granular task implementation,StarGAN v2 在 StarGAN Based on the multi-source domain to multi-target domain image conversion;ALAE Extends autoencoders to highly refined image transformations.
HiDT Provides a detailed summary of the network logic and loss function under image translation under multi-domain image translation;ConSinGAN Represents a collection of state-of-the-art models trained on a single image,The image conversion task under single image training is realized.
边栏推荐
- 用广搜和动态规划写个路径规划程序
- 从数组到js基础结束
- 【深度学习】介绍六大类损失函数(九)
- How to ensure that the data cannot be recovered after the computer hard drive is formatted?
- 鸡生蛋,蛋生鸡问题。JS顶级对象Function,Object关系
- Simply record offsetof and container_of
- 抱抱脸(hugging face)教程-中文翻译-任务总结
- 自定义指令,实现默认头像和用户上传头像的切换
- Qt control - QTextEdit usage record
- AsyncTask 串行还是并行
猜你喜欢
随机推荐
你知道亚马逊代运营的成本是多少吗?
XGB系列-XGB参数指南
抱抱脸(hugging face)教程-中文翻译-使用 Tokenizers 的 tokenizers
.Net Core 技巧小结
桥接模式下虚拟机连接不上网络的解决方法(WIFI)
抱抱脸(hugging face)教程-中文翻译-分享一个模型
YOLOV1详解
【深度学习】SVM解决线性不可分情况(八)
A shortcut method for writing menu commands in C
cropperjs裁剪上传头像使用方法
类别特征编码分类任务选择及效果影响
The difference between show and exec in Qt dialog
【研究生工作周报】
More than pytorch from zero to build neural network to realize classification (training data sets)
关于初级程序员职场如何提升技能的几点建议?
工作不等于生活,但生活离不开工作 | 2022 年中总结
如何选择可靠的亚马逊代运营
面试合集
flex布局总结
对导入的 excel 的时间的处理 将excel表中的时间,转成 标准的时间