当前位置:网站首页>【Subpixel Dense Refinement Network for Skeletonization】CVPR2020论文解读
【Subpixel Dense Refinement Network for Skeletonization】CVPR2020论文解读
2022-08-09 10:55:00 【[email protected]】
摘要
骨架化是将形状图像缩小到其近似中轴表示的过程,同时保持图像的拓扑和几何形状。骨架化是拓扑和几何形状分析的重要步骤。作者提出了一种新的骨架提取结构——亚像素密集细化网络,它是在像素骨架挑战数据集上进行训练和评估的。所提出的架构是一个三级编码器-解码器网络,在每一级的解码器网络之间具有密集的互连。该结构用子像素卷积代替了一般的上采样层和转置卷积层,以最小化编码特征的上采样期间的信息损失。深层网络在每一个阶段都是由中级监管人员进行端到端培训的。在像素骨架挑战数据集的验证集上,建议的单个架构获得了0.7708的F_score。
前言
多年来,深度学习在计算机视觉的三个主要领域——图像识别、目标检测和图像分割——取得了显著的进步。虽然最先进的深度学习方法能够在这些领域的许多任务中与人类水平的性能相竞争,但在拓扑和几何形状分析方面没有做太多的研究。
骨架化是提取或生成形状的近似几何表示(骨架)的过程,方法是将其简化为干净的骨架像素,以保持原始形状的范围和连通性。骨架化融合了形状的局部和全局知识。骨架是形状的紧凑而直观的中轴表示,它保留了形状的拓扑和几何形状。形状的这种表示用于各种目的,例如建模、操纵、合成、匹配、配准、压缩和分析。基于图像处理的计算骨架化算法对边界噪声敏感,需要人为干预来手动调整参数,以便从形状中提取合适的骨架。这是一个耗时的过程,需要大量的人力和技能。深度神经网络可以自动完成这项任务,并学会直接输出更好的骨架表示,而不受噪声影响。下面一节将探讨一些基于深度学习的方法。他们中的大多数使用分割方法来解决这个问题。骨架分割的任务比标准图像分割任务困难得多,因为提取的骨架预计为1像素宽度,并且必须保持形状的拓扑和几何形状。
数据集
该数据集包含1725幅单通道分割的二值形状图像及其对应的二值骨架图像。图像采用便携式网络图形格式,每个图像的尺寸为256x256。数据集分为1218个样本的训练集、241个样本的验证集和266个测试样本的测试集。地面真实骨架图像仅提供给训练集。验证集和测试集用于在SkelNetOn挑战赛的CodaLab评估服务器上进行评估。因为只有地面真实图像可用于训练集,所以原始训练集被进一步分成1000个样本的训练分割和218个样本的验证分割。模型在此训练分割上训练,并在验证分割上调整。该模型在评估服务器上的原始验证集上进行测试。由于测试集直到比赛的最后阶段才可用,因此不用于比较。
图像在0-1之间归一化,这是唯一的预处理。由于只有1000个样本可用于训练,我们使用数据扩充将样本数量增加到3000个。同时应用于输入图像和骨架图像的空间级变换用于此目的。这是防止模型过度拟合的重要步骤。随机翻转、随机旋转、随机转置、随机移位、随机缩放、弹性变换、网格变形和分段仿射变换的组合用于增强。
网络结构
如图2所示,所提出的亚像素密集细化网络是一个建立在U-网[5,6]设计基础上的三阶段分割体系结构。堆叠架构的概念[7]并不新鲜,但是简单的堆叠策略在骨架化任务中没有太大帮助。我们提出了一种新颖的堆叠架构设计,专门用于骨架提取,优于所有以前的骨架提取方法。
在这种三阶段架构中,第一阶段倒数第二层的要素图被传递到第二阶段。倒数第二个图层的要素地图包含的信息比上一个图层输出的信息多。该特征图与原始形状图像连接,并被传递到第二阶段的输入。将原始形状图像与先前的特征图连接起来可以提高预测的精度。类似地,第二阶段倒数第二层的特征图被传递到第三阶段,并与原始输入图像连接。最终预测从第三级的输出层获得
基于插值的上采样方法或可学习的转置卷积方法被有效的子像素卷积所取代。图3所示的子像素卷积层只是一个标准的1×1卷积层,之后是像素混洗操作,该操作将像素从深度维度重新排列到空间维度。子像素卷积不同于以前的插值方法或转置卷积方法,它使解码器网络中图像上采样期间的信息损失最小化。
三个解码器网络的并行层通过密集连接[9,10,11]连接。这通过允许每个阶段的解码器使用来自以下位置的特征地图来改进通过模型的空间知识传递前一级的解码器。每个后续阶段都比前一阶段浅,因为它使用了许多来自早期阶段的先验知识。每个阶段都有自己的输出层,模型是端到端训练的,每个阶段都有中间监督,这有助于高效训练和提高收敛性。
实验结果
版权声明
本文为[[email protected]]所创,转载请带上原文链接,感谢
https://blog.csdn.net/CharmsLUO/article/details/112094336
边栏推荐
- cesium加载地图
- AQS同步组件-FutureTask解析和用例
- Probably 95% of the people are still making PyTorch mistakes
- 在webgis中显示矢量化后的风险防控信息
- 乘积量化(PQ)
- 15.10 the POSIX semaphore Unix environment programming chapter 15
- verbose np.matmul/np.dot/np.multiply/tf.matmul/tf.multiply/*
- 如何在gazebo进行 joint的转动控制
- centos7.5 设置Mysql开机自启动
- faster-rcnn中的RPN原理
猜你喜欢
Netscope:神经网络结构在线可视化工具
Netscope: Online visualization tool for neural network structures
信息系统项目的十大管理
非科班毕业生,五面阿里:四轮技术面+HR一面已拿offer
b站up主:空狐公子 --矩阵求导(分母布局)课程笔记
MATLAB中如何把cftool拟合的函数输出到命令行(解决如何导出拟合后的曲线数据)
Tensorflow realize parameter adjustment of linear equations
[Error record] Solve the problem that ASRock J3455-ITX cannot be turned on without a monitor plugged in
自从我使用HiFlow场景连接器后,在也不用担心成为“落汤鸡”了
人物 | 从程序员到架构师,我是如何快速成长的?
随机推荐
golang 三种指针类型具体类型的指针、unsafe.Pointer、uintptr作用
依赖注入(Dependency Injection)框架是如何实现的
faster-rcnn中的RPN原理
【 original 】 VMware Workstation implementation Openwrt soft routing, the ESXI, content is very detailed!
margin出bug---margin失效
vite的原理,手写vite
在webgis中显示矢量化后的风险防控信息
Unix Environment Programming Chapter 15 15.3 Functions popen and pclose
b站up主:空狐公子 --矩阵求导(分母布局)课程笔记
linux mysql操作的相关命令
prometheus接入mysqld_exporter
cesium加载地图
使用pip成功安装某个库,但pycharm中找不到,此问题的解决方案
jvm-类加载系统
人物 | 从程序员到架构师,我是如何快速成长的?
The complete grammar of CSDN's markdown editor
MySQL查询性能优化七种武器之索引潜水
faster-rcnn learn
Probably 95% of the people are still making PyTorch mistakes
实测办公场景下,国产远程控制软件的表现力如何?(技术解析)