当前位置:网站首页>正则化原理的简单分析(L1/L2正则化)
正则化原理的简单分析(L1/L2正则化)
2022-08-09 14:52:00 【pomelo33】
在机器学习和深度学习中,为了防止模型过拟合,通常有两种办法:
第一种是人工对数据进行重要性判断,保留较重要的特征,前提是有足够的先验知识。但同时这也相当于舍弃了数据中的一部分的信息。
第二种则是正则化,采取某种约束可以自动选择重要的特征变量,自动舍弃不需要的特征变量。
常用的正则化方法有:
L1 / L2正则化:直接在原来的损失函数基础上加上一个“惩罚项”。
dropout:深度学习中最常用,即在训练的过程中随机的丢弃一些神经元。
数据增强:比如将原始图像翻转、平移、拉伸,使得模型的训练数据集增大。
提前终止法:在模型训练所得到的结果已经比较不错的时候提前终止训练。需要人工监督且具备先验知识。
L2正则化:
L2 正则化,即在原的损失函数基础上加上权重参数的平方和:
Ein 是未包含正则化项的训练样本误差,λ 是正则化参数。
为什么要加一个权重参数的平方和?可以想象,在拟合一组数据的时候,一般来说,使用高阶的多项式更容易拟合这组数据曲线。然而,这样也会使得模型变得过于复杂,容易过拟合即泛化能力差。因此可以限制高阶部分的权重,使其为0。这样便从高阶问题转移至低阶问题的求解。但是这种方法在实际中比较难以实现。因此可以限定一个较为宽松的条件:
这个限定条件的含义也很简单,即所有权重的值的和小于等于C。
那么为什么这个惩罚项(约束条件)要被设置为所有权重的和呢?下面进行一个简单的解释:
如图所示,黑色椭圆圈为Ein最小化区域,其内部有一个蓝色点为Ein最小取值的点。红色圈为限制条件的区域,且最小化的点会沿着梯度▽Ein的反方向运动,由于有限定条件,最小化的点只能在红色区域内。对于上图而言,最小化的点只能沿着红色圆切线运动。当梯度Ein的反方向与圆心指向最小化点的方向(w的方向)重合时(即平行),该损失函数被最小化。(因为梯度▽Ein在切线方向没有分量了,因此不会再沿切线移动)。
因此可得:
移项后即:(符号包含在λ 内)
将这个等式整体看作是梯度,得到新的损失函数:
这就是L2正则化。类似地,L1正则化是在原来的损失函数基础上加上权重参数的绝对值:
损失函数实际上包含了两个方面:一个是训练样本误差。一个是正则化项。其中,参数 λ 起到了平衡的作用。若λ 过大,约束项的C很小,即限制区域圆的区域就很小,优化后的结果离真实最小点很远,导致欠拟合。反之亦然,若λ 过小,约束项的C很大,即限制区域圆的区域就很大,优化后的结果离真实最小点很近,正则化的作用降低,导致过拟合。因此λ值的选取也十分重要。
边栏推荐
- Two-dimensional array to realize the eight queens problem
- 常见的数学物理方程
- 6大论坛,30+技术干货议题,2022首届阿里巴巴开源开放周来了!
- OpenSSF's open source software risk assessment tool: Scorecards
- 基于FPGA的FIR滤波器的实现(2)—采用kaiserord & fir2 & firpm函数设计
- Servlet的生命周期
- 生产者/消费者问题(线程信号)
- Regular Expressions for Shell Programming
- Talking about Shallow Cloning and Deep Cloning of ArraryList
- 技术分享 | 接口自动化测试如何处理 Header cookie
猜你喜欢
随机推荐
shell------常用小工具,sort,uniq,tr,cut
基于FPGA的FIR滤波器的实现(2)—采用kaiserord & fir2 & firpm函数设计
运算符学习
股票程序化交易如何理解自己的交易系统?
浅谈ArraryList的浅克隆和深克隆
xshell7连接工具下载
What are the implications of programmatic trading rules for the entire trading system?
生产者/消费者问题(线程信号)
一些需要思考的物理问题
对程序化交易系统接口有什么误区?
How to make your quantitative trading system have probabilistic advantages and positive return expectations?
How do users correctly understand programmatic trading?
JS——循环结构经典例题解析与分享
一种基于视频帧差异视频卡顿检测方案
JVM简学笔记
防汛添利器,数字技术筑起抗洪“大堤”
方法学习笔记
常见的数学物理方程
约束性统计星号‘*’
多线程学习