当前位置：网站首页>S TYLE N E RF: A S TYLE - BASED 3D-A WARE G ENERA - TOR FOR H IGH - RESOLUTION I MAGE S YNTHESIS

S TYLE N E RF: A S TYLE - BASED 3D-A WARE G ENERA - TOR FOR H IGH - RESOLUTION I MAGE S YNTHESIS

2022-04-21 12:48:00 【_Summer tree】

在这里插入图片描述

Abstract

StyleNeRF:

具有多视图一致性的3D感知生成模型
基于没有组织的2D图像进行训练。
结合NeRF和基于风格的生成器，用于：提升高分辨率图像的渲染效果和3D一致性（目标）
仅使用volume rendering来产生低分辨率的特征映射，然后逐渐在2D上采样来解决渲染效果的问题。
缓解不一致性的方法：
- a better unsampler
- 新的正则化损失
- ……
达到的效果： StyleNerf可以快速和合成高分辨率图像，并且保留3Ｄ一致性。
可以控制相机poses 和不同层级的风格。这可以用生成看不见的视角。
它还支持具有挑战性的任务，包括放大和缩小、样式混合、反转和语义编辑

现有方法的问题：

不能合成高分辨率的图像
产生明显的3D不一致的伪影。
缺少对风格属性和明确相机姿势的控制

Method

在这里插入图片描述

上采样方法和其他方法的对比，我们的方法能够保持较好的3D一致性。

3.1 IMAGE SYNTHESIS AS NEURAL IMPLICIT FIELD RENDERING

基于风格生成的 NeRF

为了建模高频细节，我们映射x和d的每个维度到傅里叶特征（fourier feature）
我们通过使用样式向量 w 调节 NeRF 来形式化 StyleNeRF 表示，如下所示
- f是个映射网络，将噪音向量从球形高斯空间映射到风格空间 W。
- $g_w^i(\cdot)$ 表示第i个通过输入风格向量 $\omega$ 进行调整的MLP层
- $\phi_{\omega}^n(x)$ 是x点的第n层特征。
我们使用提取的特征来预测密度和颜色。
其中 hσ 和 hc 可以是线性投影或 2 层 MLP。
前min(nσ, nc) 层在网络中共享。

Volume Rendering

我们假设相机位于单位球体上，指向具有固定视场 (FOV) 的原点。
我们根据数据集从均匀或高斯分布中采样相机的俯仰和偏航（pitch & yaw）。
渲染图像Ｉ。　（和基本公式一致）
- 和NeRF一样，使用了 stratified 和 hierarchical sampling

Challenges

these models cost much more computation to render an image at the exact resolution
consumes much more memory to cache the intermediate results for gradient back-propagation during
training

3.2 高分辨率图像生成的近似值

2D 图像生成快的原因

每个像素只需要单次前向通过网络；
图像特征是由粗到细逐步生成的，分辨率越高的特征图通常通道数越少，以节省内存。

通过在计算最终颜色之前将特征早期聚合到 2D 空间中来部分实现第一点。 ，我们将公式4调整为：
在这里插入图片描述

我们使用up-sample 将低分辨率的特征空间近似到高分辨率的特征空间。

递归插入上采样算子可实现高效的高分辨率图像合成，因为计算量大的体积渲染只需要生成低分辨率特征图。
当使用更少的通道以获得更高的分辨率时，效率会进一步提高。

虽然早期聚合和上采样操作可以加速高分辨率图像合成的渲染过程，但它们会破坏 NeRF 的固有一致性。
不一致性是如何导致的？

,the resulting model contains non-linear transformations to capture spurious correlations in 2D observation, mainly when substantial ambiguity exists.
Second, such a pixel-space operation like up-sampling would compromise 3D consistency.

3.3 PRESERVING 3D CONSISTENCY

Unsampler design

We achieve the balance between consistency and image quality by combining these two approaches (see Figure 2).
对于任意输入的特征映射 $\in R^{N * N * D}$ :
在这里插入图片描述

$\psi_{\theta}:R^D \rightarrow R^{4D}$ 是一个科学系的两层MLP。
K是固定的模糊内核

NeRF path regularization

正则化模型输出以匹配原始路径（等式（4））。
这是通过对输出上的像素进行二次采样并将它们与 NeRF 生成的像素进行比较来实现的：
在这里插入图片描述

S是随机采样的像素集合。
Rin 和Rout 是通过NeRF生成的低分辨率的图像和 StyleNeRF生成的高分辨率的图像对应的像素的光速。

Remove view direction condition

Predicting colors with view direction condition would give the model additional freedom to capture spurious correlations and dataset bias, especially if only a single-view target is provided.

使用视图方向条件预测颜色将为模型提供额外的自由来捕获虚假相关性和数据集偏差，尤其是在仅提供单视图目标的情况下。因此我们移除了视角方向来提高一致性。如图8所示。
在这里插入图片描述

Fix 2D noise injection

已有研究表明：注入每像素噪声可以提高模型对随机变化（例如头发、胡茬）的建模能力
我们的默认解决方案是通过消除噪声注入来交换模型捕获变化的能力。
我们还提出了一种基于 StyleNeRF 估计表面的新型几何感知噪声注入。（见附录A3）

3.4 StyleNeRF 架构

Mapping Network

从标准的高斯分布中采样 latent codes，并经过mapping network进行处理。最后输出向量被广播到synthesis network
在这里插入图片描述

Synthesis Network

我们用 NeRF++作为 styleNeRF的骨干。
NeRF++ 由一个单位球体中的前景 NeRF 和一个用倒转球体参数化表示的背景 NeRF 组成。
两个MLP用于预测密度，其中BG 比 FG参数要少。
然后一个共享的MLP用来预测颜色。
每个风格条件块由一个仿射变换（affine transformaton）层和一个1×1卷积层（Conv）组成。
Conv的群中用放射变换风格来进行调整。
Leaky_Relu用于非线性激活。
块的数量依赖于输入和目标图像的分辨率。

Discriminator & Objectives

StyleNeRF采用带有R1 正则的非饱和的GAN 目标。
新的NeRF路径正则化被应用来增3D一致性。
最终的损失函数定义入下：
在这里插入图片描述

G是包含了 Mapping和 synthsis network的生成器。

Progressive training

从底到高分辨率开始训练。
我们提出了一种新的三阶段渐进训练策略：

对于前T1张图片，不做低分辨率的近似。
在T1-T2张图片，生气城和判别器增加输出分辨率直到到达目标分辨率。
最后，我们固定架构，持续训练模型在高分辨率，直到T3 张图片。
细节参考附录Ａ４。

实验

用FFHQ、 MetFaces、AFHQ、CompCars 评估styleNeRF
baseline：

HoloGAN
GRAF
pi-GAN
CIRAFFE
batch_size 64, T1 = 500k , T2 = 5000k, T3=25000k.
输入分辨率固定为32x 32

结果

在这里插入图片描述

高分辨率合成

可控图像合成
相机控制：（这个效果并不好）
在这里插入图片描述
风格混合和插值：

在这里插入图片描述

重要参考文献

Michael Niemeyer and Andreas Geiger. Giraffe: Representing scenes as compositional generative neural feature fields. In Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, pp. 11453–11464, 2021b.

Kai Zhang, Gernot Riegler, Noah Snavely, and Vladlen Koltun. Nerf++: Analyzing and improving
neural radiance fields. arXiv preprint arXiv:2010.07492, 2020.