当前位置:网站首页>正向传播和反向传播
正向传播和反向传播
2022-08-08 09:09:00 【ZhangJiQun&MXP】
为什么使用梯度下降来优化神经网络参数?
反向传播(用于优化神网参数):根据损失函数计算的误差通过反向传播的方式,指导深度网络参数的更新优化。
采取反向传播的原因:首先,深层网络由许多线性层和非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数(非线性来自于非线性激活函数),因此整个深度网络可以视为是一个复合的非线性多元函数。
我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,很自然的就会想到使用梯度下降来解决。
梯度消失、爆炸会带来哪些影响
举个例子,对于一个含有三层隐藏层的简单神经网络来说,当梯度消失发生时,接近于输出层的隐藏层由于其梯度相对正常,所以权值更新时也就相对正常,但是当越靠近输入层时,由于梯度消失现象,会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时,只等价于后面几层的浅层网络的学习。
产生的原因
梯度消失和梯度爆炸本质上是一样的,都是因为网络层数太深而引发的梯度反向传播中的连乘效应。
解决办法
解决梯度消失、爆炸主要有以下几种方案:
换用Relu、LeakyRelu、Elu等激活函数
ReLu:让激活函数的导数为1
边栏推荐
- 22-08-06 西安 EasyExcel实现字典表导入、导出
- 数学基础(一)矩阵对角化、SVD分解以及应用
- 文献学习(part33)--Clustering by fast search and find of density peaks
- Defense - MFW all over the world
- Practical Case: Building Churn Prediction Models with PySpark ML
- AI引领一场新的科学革命
- Offensive and defensive world - fakebook
- The entity List to excel
- 【优化调度】基于粒子群实现并网模型下微电网的经济调度优化附matlab代码
- Open source summer | Three ways to implement search in Flutter
猜你喜欢
随机推荐
【office】word
Matlab实现异构交通流
写在 26 岁生日
SeeOD应用:He-Ne激光束聚焦物镜设计
继承关系下构造方法的访问特点:
Recommended download software
优先队列的实现原理
Practical Case: Building Churn Prediction Models with PySpark ML
AI引领一场新的科学革命
【优化调度】基于粒子群实现并网模型下微电网的经济调度优化附matlab代码
COMSOL Multiphysics 6.0软件安装包和安装教程
Android Studio关于MainActivity中的“import kotlinx.android.synthetic.main.activity_main.*”出现错误提示
DBeaver 22.1.4 released, a visual database management platform
什么是DFT?FT、FS、DTFT、DFS、DFT的关系
DOM操作--防抖和节流
MySQL redo log和undo log
Web优化躬行记(6)——优化闭环实践
入职半个月的一些思考
Elasticseach实践1
idea big data tools submit flink tasks