当前位置:网站首页>【论文精读】Deep Surface Normal Estimation with Hierarchical RGB-D Fusion
【论文精读】Deep Surface Normal Estimation with Hierarchical RGB-D Fusion
2022-04-21 06:27:00 【sxxblogs】
【Abstract】
RGB-D商业相机的普及促进了其在场景理解领域的发展。然而,基于RGB-D数据的surface normal estimation作为场景理解领域的基础任务,却缺乏深入的研究。本论文,提出了一种具有自适应特征权重的分层融合网络,用于单个RGB-D图像的surface normal estimation。其中,彩色图像的特征与深度图像的特征在多个尺度上依次融合,以确保整体表面平滑的同时保有视觉显著细节。同时,深度特征在合并到彩色分支之前,使用深度估计的置信图重新加权,以避免输入的深度存在缺失所造成的伪影。此外,设计了一种融合多尺度的损失函数,用于在有噪声的Groung truth数据集下学习准确的normal estimation。大量的实验结果证明了融合策略与损失函数设计的有效性,本文所提出的方法由于目前的方法。
【Introduction】
近年来,surface normal estimation得到了广泛的研究,以往的normal estimation的研究大多采用single RGB image作为输入,尽管在高亮以及昏暗区域存在特征丢失或错误估计的问题,让在大部分场景下取得了令人满意的结果。
(指出surface normal estimation是主流研究课题之一,但之前的方法存在弊端。下段将引出本文如何解决此弊端。)
RGB-D相机已经商用,在场景理解的语义分割、目标检测、三维重建等方面性能均有很大提升。根据RGB-D相机给出的深度,发现能够通过最小而成优化很容易地被算出来,正如在NYUv2数据集中所使用的那样。但普通图像的质量会受到深度腐蚀的影响,例如沿着物体边缘的传感器固有的造成或由于光滑、黑色、透明以及远距离的表面而丢失的像素。
(哦本段指出RGB-D相机应用已经广泛,那么本文使用RGB-D相机做研究对后人启发性很大并且成本不高,并指出了加入深度(depth)之后的巨大优势:可以快速求出normal)
这就促使我们结合Color与深度的有点,同时弥补normal estimation的不足。具体来说,利用RGB信息对缺失的像素进行深度填充,同时深度信息会帮助增强结果的边缘锐利性,纠正错误估计,从而得到一个完整、惊喜的法线地图,然而结合color与depth的normal estimation的研究很少。据我们所知,唯一的工作是考虑将RGB-D输入使用早融合的融合方式,将深度作为RGB的另一个通道,从而组成四通道的RGB-D。但这种早融合的操作性能并未提升。RGB与depth作为输入,缺乏一个合适的网络以更好地利用深度的几何信息,并使之与RGB完美结合。
(引出了本文方法的由来:①结合RGB与depth②解决现有的基于RGB与depth方法缺乏合适的网络设计的缺陷)
不同于之前的使用早融合的方法,本文在RGB与depth分支的解码器端合并多尺度特征,以分层的形式,该做法的目的是为了保证全局表面平滑度以及局部特征。此外,在合并到RGB分支之前,会从深度输入中估计像素级置信度,从新加权深度特征,以较小的置信度减少深度伪影缺失像素和物体边缘的伪影。除了缺失RGB-D 融合方案之外,缺乏能供提供depth与ground truth深度对的数据集是RGB-D normal estimation的另一个障碍,因为DNN方法依赖于数据集质量。目前广泛使用的normal estimation数据集是NYU v2数据集但该数据集并未提供完全的ground-truth normal,因为它是直接从深度插值计算得来的,如果在NYUv2数据集上训练,网络将近似于inpainting算法,所以本文使用Matterport 3D以及ScanNet数据集。由于多视图像重建存在误差,Ground-truth并不完美,尤其是在物体边缘处。为了克服ground-truth中的伪影,提出了一种基于噪声的混合多尺度损失函数,利用大分辨率下的L1损失获得更清晰的结果,利用小分辨率下的L2损失保证尺度精度。
本文主要贡献:① 提出分层融合网络
② 利用置信度对深度特征进行加权
③ 设计了一种混合多尺度损失函数
【Method】
本文网络架构:

分层RGB- D融合网络由RGB分支、depth分支和置信度地图估计三个模块组成。RGB图像被输入到RGB分支,depth图像被输入到depth分支。由上图可知,RGB分支与深度分支的网络结构并不相同。RGB分支采用的是与FCN网络相似的网络结构。Depth分支的网络结构与RGB分支相似,但depth分支缺少最后一个convolution block。 融合发生在解码器一侧进行,将解码器中每个尺度上的深度特征(绿色表示)传递到融合模块,用下采样的置信图(紫色表示)重新加权,并重复到与深度特征相同的分辨率。然后将重新加权的深度特征与具有相同分辨率的颜色特征串联起来,通过反卷积层得到融合输出特征。
【创新点】
① 提出分层融合网络
② 利用置信度对深度特征进行加权
③ 设计了一种混合多尺度损失函数
【碎碎念】
这篇文章属于surface normal estimaton ,而我研究的是hand pose estimation。虽然研究主题与我的并不相同,但该文章提供了新的RGB融合的思路。由涉及RGB-D融合的小伙伴可以作为参考。
根据之前的研究,“早融合”这一RGB与depth的融合方式的确对于效果提升没有帮助。多模态融合领域公认的有融合方法便是feature level的融合。多尺度特征的融合对提高多模态融合效果有所帮助。
版权声明
本文为[sxxblogs]所创,转载请带上原文链接,感谢
https://blog.csdn.net/sunnyblogs/article/details/124106861
边栏推荐
猜你喜欢
随机推荐
PowerShell - because running scripts is prohibited on this system
Implémenter un tableau en tant que fonction JS. Prototype. Foreach (),. Map (),. Filtre ()
Sakura Substring思维
Learn Ruixin micro rk3399pro record (10)
验证码的生成
Judge whether the resource is referenced and whether the resource is circularly referenced
WordPress插件-Display Posts
图形学基础|基于SDF的卡通阴影图
动画—Keyframes介绍
获取进程最后一次执行的 cpu 核的方法及原理
WordPress插件-WP Mail SMTP
图形学基础|实时阴影渲染
systemd如何使用/etc/init.d脚本
Substring Inversion (Easy Version)
Unreal Engine notes summary (continuously updated...)
POJ - 2955 Brackets 区间dp
虚幻引擎之多线程渲染机制
Eal:Error reading from file descriptor 33: Input/output error
dpdk 问题分析:ice 100G 网卡 rx_packets 与 rx_bytes 统计问题
基于领域的方法-评分预测








