当前位置:网站首页>正向传播和反向传播
正向传播和反向传播
2022-08-08 09:09:00 【ZhangJiQun&MXP】
为什么使用梯度下降来优化神经网络参数?
反向传播(用于优化神网参数):根据损失函数计算的误差通过反向传播的方式,指导深度网络参数的更新优化。
采取反向传播的原因:首先,深层网络由许多线性层和非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数(非线性来自于非线性激活函数),因此整个深度网络可以视为是一个复合的非线性多元函数。
我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,很自然的就会想到使用梯度下降来解决。
梯度消失、爆炸会带来哪些影响
举个例子,对于一个含有三层隐藏层的简单神经网络来说,当梯度消失发生时,接近于输出层的隐藏层由于其梯度相对正常,所以权值更新时也就相对正常,但是当越靠近输入层时,由于梯度消失现象,会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时,只等价于后面几层的浅层网络的学习。
产生的原因
梯度消失和梯度爆炸本质上是一样的,都是因为网络层数太深而引发的梯度反向传播中的连乘效应。
解决办法
解决梯度消失、爆炸主要有以下几种方案:
换用Relu、LeakyRelu、Elu等激活函数
ReLu:让激活函数的导数为1
边栏推荐
- COMSOL Multiphysics 6.0 software installation package and installation tutorial
- 数据治理(三):数据质量管理
- 【AGC】开放式测试示例
- 推荐100首好听英文歌
- 斯坦福21秋季:实用机器学习【第5章】
- 设计圆类,求圆的周长
- To make people's consumption safer, more assured and more satisfied
- .json()的使用
- 小白求助,关于Go编译的顺序
- DBeaver 22.1.4 released, a visual database management platform
猜你喜欢
随机推荐
VPP static mapping to realize DNAT
Use of .json()
等式变换(2015届华为校园招聘机试题第三题 )
X射线聚焦系统
VPP源地址NAT
BLOB, TEXT, GEOMETRY or JSON column ‘xxxx‘ can‘t have a default value
【无标题】
巧用Prometheus来扩展kubernetes调度器
写在 26 岁生日
ACWing 198. Antiprime Problem Solution
PCL 计算两空间直线的交点
Debug 调式程序
攻防世界——leaking
DOM操作--防抖和节流
22-08-06 西安 EasyExcel实现字典表导入、导出
【图像分类】2021-CoAtNet NeurlPS
在数学里,minimum 和 minimal 有啥区别吗?
SSRF漏洞
mysql-cdc 换2.2.x 版本 怎么读不到 数据 咋回事
【回归预测】基于GPML工具箱的高斯过程回归附matlab代码









