当前位置:网站首页>总结:交叉验证
总结:交叉验证
2022-08-11 05:13:00 【weiAweiww】
目录
WHAT
交叉验证(Cross-Validation),简称CV。
也称循环估计,是一种统计学上将数据样本切割成较小子集的使用方法。
引入三个名词:
训练集:学习样本数据集,匹配参数确立模型。
验证集:调整训练出的模型的参数,还用来确定网络结构或控制模型复杂程度的参数。
测试集:测试模型。
三个重要指标:
偏差(Bias):准确度。学习得出的模型的期望预测与真实结果的偏离程度(平均预测值与真实值之差),用于刻画算法本身的拟合程度。
方差(Variance):稳定性。使用同规模的不同训练集在训练时带来的性能变化(预测值与平均预测值之差的平方的期望),用于刻画数据扰动带来的影响。
误差(Error):整个模型的准确度。
注意:
1、Error=Bias^2+Variance+Noise
2、Bias与Variance往往不能兼顾。两个都是low是理想的状态(可见下图),但是如果要降低Bias,一定程度上Variance会提高,反之亦然。
根本原因:我们更希望的情况是用有限的样本数据集去估计预测无限的真实数据集。当我们不断地提高模型的准确度(Bias降低),就会出现过拟合的情况,模型的泛化能力就会降低,降低模型在真实数据中的表现,增加模型的不确定性(Variance提高)。反之,如果在学习模型的过程中增加更多的限制,就可以降低模型的Variance(Variance降低),提高模型的稳定性,但会使得模型的Bias增大(Bias提高)。
总结:过拟合高偏差,欠拟合高方差。
那么,如何避免这两种极端情况呢???
(1)避免欠拟合:寻找更好的特征(具有代表性),使用更多的特征(增大输入向量的维度)。
(2)避免过拟合:增大数据集(降低噪声比重),减少数据特征(减少数据维度),正则化方法(在目标函数或代价函数上加上正则项),交叉验证方法(本贴的重点部分)
三大CV方法:Hold-out Method、K-fold Cross Validation、Leave-One-Out Cross Validation
这里详细介绍K-fold Cross Validation(k折交叉验证)

1、将原始数据分为k组(一般是均分),
每个子集分别做一次验证集,其余的k-1组子集数据作为训练集
得到k个模型
2、用这k个模型最终的验证集的分类准确率的平均数作为此k-CV下分类器的性能指标
3、评估这k个模型的效果,挑选最好的超参数(超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。)。
4、使用最优的超参数,然后将k份数据全部作为训练集重新训练模型,得到最终模型。
WHY
1、交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
2、从有限的数据中获取尽可能多的有效信息。
3、仅使用训练集衡量模型性能的一个方便技术,不用建模后才使用测试集。
边栏推荐
- 网络协议1
- [FPGA tutorial case 49] Control case 1 - FPGA-based PID controller verilog implementation
- Switch and Router Technology - 22/23 - OSPF Dynamic Routing Protocol/Link State Synchronization Process
- 阿里云无法远程连接数据库MySQL错误码10060解决办法_转载
- Linux中安装redis
- Use Adobe genuine software for prostitution to reduce the slow employment and non-employment of fresh graduates
- C statement: data storage
- 将double类型的数据转为字符串
- 代理模式(简要介绍)
- Smart Pointer Notes
猜你喜欢

Switch and Router Technology - 36-Port Mirroring

HAVE FUN | “SOFA 星球”飞船计划、源码解析活动最新进展

BGP Comprehensive Experiment

四大函数式接口

【嵌入式开源库】MultiTimer 的使用,一款可无限扩展的软件定时器

Redis详解

Switch and Router Technology - 22/23 - OSPF Dynamic Routing Protocol/Link State Synchronization Process
![ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: '/data/xxxx](/img/02/3896b29a955ae84a0f0326f0d2cabf.png)
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: '/data/xxxx

MySQL must know and must know (primary articles)

Internet Protocol 1
随机推荐
元宇宙社交应用,靠什么吸引用户「为爱发电」?
面试宝典二:nlp常见知识点
普林斯顿微积分读本05第四章--求解多项式的极限问题
Mysql introductory exercise
C语言题解:谁是凶手!
Switch and Router Technology-27-OSPF Route Redistribution
DS220702-0707作业
[No 2022 Shanghai Security Officer A Certificate Exam Question Bank and Mock Exam
一个月闭关直接面进大厂,这份Android面试笔记是真的牛逼
K8s Review Notes 7--K8S Implementation of Redis Standalone and Redis-cluster
每周推荐短视频:你常用的拍立淘,它的前身原来是这样的!
BGP Comprehensive Experiment
【无标题】2022年胺基化工艺考试题模拟考试题库及在线模拟考试
Application layer protocol - DNS
Apache Commons OGNL语法说明_翻译
Unity WebGL RuntimeError: integer overflow(整数溢出问题)
Linux中安装redis
C语言:实用调试技巧
Configure checkstyle in IDEA
Switch and Router Technology - 25 - OSPF Multi-Area Configuration
