当前位置:网站首页>深度学习调参的技巧
深度学习调参的技巧
2022-04-23 15:23:00 【moletop】
如何调参:
-
batchsize要合适
-
epoch要合适,观察收敛情况,防止过拟合
-
是否添加batch nomal
-
dropout是否需要
-
激活函数选择:除了gate之类的地方,需要把输出限制成0-1之外,尽量不要用sigmoid,可以用tanh或者relu之类的激活函数.1. sigmoid函数在-4到4的区间里,才有较大的梯度。之外的区间,梯度接近0,很容易造成梯度消失问题。2. 输入0均值,sigmoid函数的输出不是0均值的。
-
损失函数一轮加正则,一轮不加正则
-
优化器的选择:adam,adadelta等,在小数据上,实验的效果不如sgd, sgd收敛速度会慢一些,但是最终收敛后的结果,一般都比较好。如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半。 很多论文都这么搞,实验的结果也很不错. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好,adam在生成问题上效果比较好。
-
ensemble
-
同样的参数,不同的初始化方式
-
不同的参数,通过cross-validation,选取最好的几组
k折交叉详解:https://www.cnblogs.com/henuliulei/p/13686046.html
-
同样的参数,模型训练的不同阶段,即不同迭代次数的模型。
-
不同的模型,进行线性融合. 例如RNN和传统模型.
-
版权声明
本文为[moletop]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Leiroy/article/details/124241857
边栏推荐
- MySQL sync could not find first log file name in binary log index file error
- Compiling OpenSSL
- T2 icloud calendar cannot be synchronized
- Wechat applet customer service access to send and receive messages
- 买卖股票的最佳时机系列问题
- Error: unable to find remote key "17f718f726"“
- API gateway / API gateway (III) - use of Kong - current limiting rate limiting (redis)
- The life cycle of key value in redis module programming
- Functions (Part I)
- Use of common pod controller of kubernetes
猜你喜欢

nuxt项目:全局获取process.env信息

Differential privacy (background)

Leetcode exercise - 396 Rotation function

我的 Raspberry Pi Zero 2W 折腾笔记,记录一些遇到的问题和解决办法
![Detailed explanation of C language knowledge points - data types and variables [2] - integer variables and constants [1]](/img/d4/9ee62772b42fa77dfd68a41bde1371.png)
Detailed explanation of C language knowledge points - data types and variables [2] - integer variables and constants [1]

Share 20 tips for ES6 that should not be missed

How to use OCR in 5 minutes

Detailed explanation of MySQL connection query

Redis主从同步

让阿里P8都为之着迷的分布式核心原理解析到底讲了啥?看完我惊了
随机推荐
Common interview questions of operating system:
How to use OCR in 5 minutes
JSON date time date format
8.3 language model and data set
Tencent has written a few words, Ali has written them all for a month
UML learning_ Day2
Byte interview programming question: the minimum number of K
Differential privacy (background)
T2 icloud calendar cannot be synchronized
如何设计一个良好的API接口?
About UDP receiving ICMP port unreachable
Summary of interfaces for JDBC and servlet to write CRUD
Deep learning - Super parameter setting
填充每个节点的下一个右侧节点指针 II [经典层次遍历 | 视为链表 ]
22年了你还不知道文件包含漏洞?
Machine learning - logistic regression
Llvm - generate addition
Error: unable to find remote key "17f718f726"“
A series of problems about the best time to buy and sell stocks
【thymeleaf】处理空值和使用安全操作符