当前位置:网站首页>1.2-误差来源
1.2-误差来源
2022-08-11 06:50:00 【一条大蟒蛇6666】
文章目录
一、估计量的偏置值和方差(Bias and Variance of Estimator)
- 误差(error)的来源:偏置值和方差(Bias and Variance)
- 估计量(Estimator):我们根据训练集找到的 f ∗ f^* f∗ 就是真实 f ^ \hat{f} f^的估计量
- 估计变量x的均值
- 假设x的均值是u
- 假设x的方差是 σ 2 \sigma ^2 σ2
- 估计均值u
- 取N个点:{ x 1 , x 2 , . . . , x N x^1,x^2,...,x^N x1,x2,...,xN}
- m = 1 N ∑ n x n ≠ u m=\frac{1}{N}\underset{n}{\sum }x^n\neq u m=N1n∑xn=u
- E [ m ] = E [ 1 N ∑ n x n ] = 1 N ∑ n E [ x n ] = u E\left [ m\right]=E\left [ \frac{1}{N}\underset{n}{\sum }x^n \right ]=\frac{1}{N}\underset{n}{\sum }E\left [ x^n\right ]=u E[m]=E[N1n∑xn]=N1n∑E[xn]=u,虽然每一个m都均匀散布在真实u的四周,但对它们取均值之后就等于u
- 散布程度: V a r [ m ] = σ 2 N Var[m]=\frac{\sigma ^2}{N} Var[m]=Nσ2,Var为取m的方差,其值取决于采样的数量。N越大,散布越紧密;N越小,散布越稀疏。
- 估计方差 σ 2 \sigma ^2 σ2
- s 2 = 1 N ∑ n ( x n − m ) 2 s^2=\frac{1}{N}\underset{n}{\sum }(x^n-m)^2 s2=N1n∑(xn−m)2
- E [ s 2 ] = N − 1 N σ 2 ≠ σ 2 E[s^2]=\frac{N-1}{N}\sigma ^2\neq \sigma ^2 E[s2]=NN−1σ2=σ2,N越大,估计量 s 2 s^2 s2与真实方差 σ 2 \sigma ^2 σ2的差距就越小。
1.1 方差(Variance)
- 越简单的模型,方差越小;越复杂的模型,方差越大
- 简单的模型受数据的影响更小
1.3 偏置值(Bias)
- 越简单的模型,偏置值越大;越复杂的模型,偏置值越小
- 对于简单的模型,因为其包含的函数集合范围比较小,可能根本就没有包含真实的函数,因此无论怎么找,也找不出真实的模型。这就是为什么越简单的模型,其偏置值越大的原因。
1.4 模型优化方向
- 当模型的方差(Variance)比较大时,模型就会出现过拟合(Overfitting)。
- 如果模型在训练集上的拟合效果很好,而在测试集上的效果很差,那么就是方差较大,过拟合
- 增大数据集:比如采取更多的样本数据,或者对原有数据进行数据增强,这不会改变模型的偏置值(推荐)
- 手写数字辨识:对训练集的数据进行角度翻转
- 影像辨识:对训练集的数据进行角度翻转
- 语音辨识:如果只有男生的数据,没有女生的数据,可以把男生的数据用变声器转换成女生的。如果数据没有杂音干扰,而真实场景又存在杂音干扰。那么可以把该场景的杂音录下来与训练集进行合成,那么就得到了真实场景下的数据。
- 语音翻译:当手中只有一种国家语言的数据时,却想做10种语言的语音翻译任务,那么可以采取机翻的形式得到多种语言的数据
- 正则化(Regularization):在损失函数后面加上一项term,来降低模型对输入的敏感,这样做会缩小模型的空间,也就会增大模型的偏置值。(不推荐)
- 当模型的偏置值(Bias)比较大时,模型就会出现不拟合(Underfitting)。
- 如果模型在训练集上的拟合效果很差,那么就是偏置值较大,不拟合
- 此时应该重新设计一下我们的模型,比如增大模型的复杂度:考虑更多的特征,对单个特征考虑多次方
二、交叉验证(Cross Validation)
- 交叉验证
- 将原始的训练集一分为二,分为真正的训练集和验证集。也就是不要通过公开测试集的结果来优化你的模型,而只是通过验证集的结果来优化你的模型,这样模型就不会出现过拟合,也更能反映你模型的真实情况。
- N次交叉验证(N-fold Cross Validation)
- 将原始的训练集一分为三,每次取一份数据作为验证集,其他两份做训练集。计算不同模型在以下3种情况下的平均损失值,将表现最好的那一个模型发布到公开测试集上。
边栏推荐
- tf.reduce_mean()与tf.reduce_sum()
- 基于FPGA的FIR滤波器的实现(4)— 串行结构FIR滤波器的FPGA代码实现
- 如何选择专业、安全、高性能的远程控制软件
- 3GPP LTE/NR信道模型
- 恒源云-Pycharm远程训练避坑指南
- 下一代 无线局域网--强健性
- PIXHAWK飞控使用RTK
- 1091 N-自守数 (15 分)
- Redis source code-String: Redis String command, Redis String storage principle, three encoding types of Redis string, Redis String SDS source code analysis, Redis String application scenarios
- 【深度学习】什么是互信息最大化?
猜你喜欢
随机推荐
Unity底层是如何处理C#的
LeetCode brushing series -- 46. Full arrangement
Tensorflow中使用tf.argmax返回张量沿指定维度最大值的索引
mysql视图与索引
如何选择专业、安全、高性能的远程控制软件
MySQL使用GROUP BY 分组查询时,SELECT 查询字段包含非分组字段
【LeetCode每日一题】——682.棒球比赛
从 dpdk-20.11 移植 intel E810 百 G 网卡 pmd 驱动到 dpdk-16.04 中
Shell:三剑客之awk
Tidb二进制集群搭建
伦敦银规则有哪些?
Resolved EROR 1064 (42000): You have an error in. your SOL syntax. check the manual that corresponds to yo
1003 我要通过 (20 分)
oracle19c不支持实时同步参数,请教一下大佬们有什么好的解决办法吗?
TF中的四则运算
tf.cast(), reduce_min(), reduce_max()
Discourse's Close Topic and Reopen Topic
Douyin API interface
1061 判断题 (15 分)
prometheus学习4Grafana监控mysql&blackbox了解