当前位置:网站首页>总结:交叉验证
总结:交叉验证
2022-08-11 05:13:00 【weiAweiww】
目录
WHAT
交叉验证(Cross-Validation),简称CV。
也称循环估计,是一种统计学上将数据样本切割成较小子集的使用方法。
引入三个名词:
训练集:学习样本数据集,匹配参数确立模型。
验证集:调整训练出的模型的参数,还用来确定网络结构或控制模型复杂程度的参数。
测试集:测试模型。
三个重要指标:
偏差(Bias):准确度。学习得出的模型的期望预测与真实结果的偏离程度(平均预测值与真实值之差),用于刻画算法本身的拟合程度。
方差(Variance):稳定性。使用同规模的不同训练集在训练时带来的性能变化(预测值与平均预测值之差的平方的期望),用于刻画数据扰动带来的影响。
误差(Error):整个模型的准确度。
注意:
1、Error=Bias^2+Variance+Noise
2、Bias与Variance往往不能兼顾。两个都是low是理想的状态(可见下图),但是如果要降低Bias,一定程度上Variance会提高,反之亦然。
根本原因:我们更希望的情况是用有限的样本数据集去估计预测无限的真实数据集。当我们不断地提高模型的准确度(Bias降低),就会出现过拟合的情况,模型的泛化能力就会降低,降低模型在真实数据中的表现,增加模型的不确定性(Variance提高)。反之,如果在学习模型的过程中增加更多的限制,就可以降低模型的Variance(Variance降低),提高模型的稳定性,但会使得模型的Bias增大(Bias提高)。
总结:过拟合高偏差,欠拟合高方差。
那么,如何避免这两种极端情况呢???
(1)避免欠拟合:寻找更好的特征(具有代表性),使用更多的特征(增大输入向量的维度)。
(2)避免过拟合:增大数据集(降低噪声比重),减少数据特征(减少数据维度),正则化方法(在目标函数或代价函数上加上正则项),交叉验证方法(本贴的重点部分)
三大CV方法:Hold-out Method、K-fold Cross Validation、Leave-One-Out Cross Validation
这里详细介绍K-fold Cross Validation(k折交叉验证)

1、将原始数据分为k组(一般是均分),
每个子集分别做一次验证集,其余的k-1组子集数据作为训练集
得到k个模型
2、用这k个模型最终的验证集的分类准确率的平均数作为此k-CV下分类器的性能指标
3、评估这k个模型的效果,挑选最好的超参数(超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。)。
4、使用最优的超参数,然后将k份数据全部作为训练集重新训练模型,得到最终模型。
WHY
1、交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
2、从有限的数据中获取尽可能多的有效信息。
3、仅使用训练集衡量模型性能的一个方便技术,不用建模后才使用测试集。
边栏推荐
- You must understand - the nine built-in objects and four domain objects of JSP
- Paper Notes: Bag of Tricks for Long-Tailed Visual Recognition with Deep Convolutional Neural Networks
- postman脚本的应用
- Win10远程连接(实现多用户同时连接)
- 提升你工作效率的技巧,你得知道——Navitcat 快捷键
- Tips to improve your productivity, you have to know - Navitcat shortcuts
- 2022建筑焊工(建筑特殊工种)考题及模拟考试
- Day38 LeetCode
- BGP综合实验
- Thymeleaf
猜你喜欢

redis分布式锁

【嵌入式开源库】cJSON的使用,高效精简的json解析库

Switches and routers technology - 26 - configure OSPF peripheral area

Redis details

The use of async (asynchronous) and await

Switch and Router Technology-33-Static NAT

How IP-Guard prohibits running U disk programs

2022年Android面试中最常问的问题是什么?

一个月闭关直接面进大厂,这份Android面试笔记是真的牛逼

ESP8266 教程3 — 通过TCP组建局域网并通信
随机推荐
Sub-database sub-table ShardingSphere-JDBC notes arrangement
Weekly recommended short video: your commonly used Polaroid, its predecessor turned out to be like this!
MFC Interprocess Communication (Shared Memory)
Apache Commons OGNL语法说明_翻译
Thymeleaf
让你代码越来越高大上的技巧——代码规范,你得知道
MySQL存储引擎概念
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory: '/data/xxxx
Redis详解
MySQL必知必会(初级篇)
Switch and Router Technology - 28 - NSSA Areas for OSPF
[Embedded open source library] The use of MultiButton, an easy-to-use event-driven button driver module
CentOS7静默安装Oracle11g_转载
金仓数据库 KingbaseGIS 使用手册(6.8. 几何对象输入函数)
IDEA中配置checkstyle
MyEclipse数据库工具使用教程:使用驱动程序
【嵌入式开源库】MultiButton的使用,简单易用的事件驱动型按键驱动模块
C语句:数据存储
guava RateLimiter uniform current limit
什么是三次握手和四次挥手(清晰易懂)
