当前位置:网站首页>深度学习中的模型设计
深度学习中的模型设计
2022-08-11 02:03:00 【陈壮实的编程生活】
文章目录
注:
记录 视频课程中的一些知识。
1. 如何学会深度学习模型设计与优化
1.1 深度学习之模型设计
1.1.1 模型深度——性能提升的关键

1.1.2 通道维度变换——基础设计单元

1.1.3 模型宽度——模型表达能力与压缩关键
增加模型宽度:
(1)增加通道数
(2)增加分支,如:由一路变成多路
1.1.4 残差网络——深层模型训练关键技术

1.1.5 分组网络——模型压缩核心技术

1.1.6 多尺度与非正常卷积——复杂任务模型性能提升的核心技术

1.1.7 动态推理与注意力机制网络——模型优化核心技术

1.1.8 生成对抗网络——新一代深度学习基础技术

2. 深度学习之模型优化
2.1 工业级网络的要求

2.2 模型精简与优化的技术要点

2.2.1 卷积核的使用
(1)全连接与全局池化
(2)小卷积替换大卷积
(3)维度变换
2.2.2 卷积拓扑结构设计

2.2.3 迁移学习

2.2.4 自动化搜索

3. 如何设计性能更强的CNN结构
3.1 网络深度的设计
3.1.1 为什么加深可以提升性能

3.1.2 从什么样的深度开始
(1)超过30层的网络很少见
(2)通常选择深度可以从5~8层开始
3.1.3 网络加深容易出现的问题

3.2 网络宽度的设计
3.2.1 为什么需要足够的宽度——更多的宽度可以学习到更加丰富的特征

图中左边部分表示AlexNet第一个卷积层96个通道的可视化,可见:
有的通道的是提取的图片的形状特征,有的则是颜色信息。
所以如果没有足够的通道,则提取不了那么多特征。
3.2.2 网络宽度的特点

(1)模型宽度的增加,其计算量也会指数增加。
(2)提高网络宽度可以提高模型性能,但在达到一定临界点后会饱和。
3.2.3 宽度设计原则

3.3 Dropout和BN层设计
3.3.1 Dropout的好处
(1)增加泛化能力
(2)缓解ReLU的dead issue
(3)减少了神经元之间的complex co-adaption
图中a表示有dropout,其神经元表现更加丰富,图b表示没有dropout,其神经元表示则非常少。
3.3.2 使用Dropout的问题
dropout相当于增加了噪声,造成了梯度损失,所以需要使用更大的学习率和动量项,训练更久才能收敛。
3.3.3 BN为什么好

3.3.4 BN使用注意事项

3.4 卷积核大小、步长、池化的设计
3.4.1 步长和池化如何影响性能
(1)一般第一个卷积层不超过2
3.4.2 如何选择池化方案

3.4.3 如何设计步长

3.4.4 卷积核大小如何影响模型性能


3.4.5 如何设计卷积核大小

3.5 残差结构的理解和设计
3.5.1 残差结构为什么有效



3.5.2 如何设计残差网络



3.6 多尺度与信息融合
3.6.1 如何设计多尺度网络

3.7 其他
3.7.1 Attention



3.7.2 感受野控制



3.7.3 AutoML

3.8 GAN网络
4.如何获得更加高效的CNN模型结构
4.1 什么是更加高效的CNN网络

4.2 通道补偿与通道重用


4.3 分组卷积
分组卷积可以大幅降低计算量。
分组卷积的类型有:
(1)
(2)
(3)
(4)
(5)
4.4 剪枝



4.5 量化





4.6 知识蒸馏



4.7 动态推理
边栏推荐
猜你喜欢

惨遭面试官吊打高并发系统设计,回来学习 2400 小时后成功复仇

Qt 中的隐式共享
![[The method of calling the child page from the parent page of the iframe] Stepping on the pit: It is the key to use `[x]` when getting elements. You cannot use `.eq(x)`, otherwise it will not be obtai](/img/ec/0cca8c7011770429c34a6aa1f36460.png)
[The method of calling the child page from the parent page of the iframe] Stepping on the pit: It is the key to use `[x]` when getting elements. You cannot use `.eq(x)`, otherwise it will not be obtai

经典面试题 之 GC垃圾收集器

漏洞管理计划的未来趋势

请讲一讲JS中的 for...in 与 for...of (下)

从键入网址到网页显示的详细过程

Alibaba 最新神作!耗时 182 天肝出来 1015 页分布式全栈手册太香了

nvidia-smi详解

测试3年,开口就要25k?面试完最多给15k...
随机推荐
Geogebra 教程之 04 Geogebra 小程序
OpenHarmony啃论文俱乐部-啃论文心得
js原型和原型链及原型继承
备战“金九银十”,软件测试功能 / 数据库 /linux/ 接口 / 自动化 / 测试开发面试真题解析
联盛德W801系列6-从微信小程序的角度来分析W801的蓝牙通信源码(indicate方式)
请讲一讲JS中的 for...in 与 for...of (下)
想进阿里?先来搞懂一下分布式事务
wincc如何实现远程监控1200PLC
Qt 中的隐式共享
小幻美图 API
sql 使用到where和groupby时到底怎么建立索引?
两日总结九
思念家乡的月亮
13.cuBLAS开发指南中文版--cuBLAS中的Level-1函数copy()和dot()
软件测试面试题:对 RUP,CMM,CMMI,XP,PSP,TSP 的认识?
sql 使用到where和groupby时建立索引结果为啥是这样,原理是什么?
How to realize the repeatable design of FPGA
HPSO and multi-core LSSVM based network intrusion detection
如何开展性能测试,你知道吗?
漏洞管理计划的未来趋势