当前位置:网站首页>深度学习调参的技巧
深度学习调参的技巧
2022-04-23 15:23:00 【moletop】
如何调参:
-
batchsize要合适
-
epoch要合适,观察收敛情况,防止过拟合
-
是否添加batch nomal
-
dropout是否需要
-
激活函数选择:除了gate之类的地方,需要把输出限制成0-1之外,尽量不要用sigmoid,可以用tanh或者relu之类的激活函数.1. sigmoid函数在-4到4的区间里,才有较大的梯度。之外的区间,梯度接近0,很容易造成梯度消失问题。2. 输入0均值,sigmoid函数的输出不是0均值的。
-
损失函数一轮加正则,一轮不加正则
-
优化器的选择:adam,adadelta等,在小数据上,实验的效果不如sgd, sgd收敛速度会慢一些,但是最终收敛后的结果,一般都比较好。如果使用sgd的话,可以选择从1.0或者0.1的学习率开始,隔一段时间,在验证集上检查一下,如果cost没有下降,就对学习率减半。 很多论文都这么搞,实验的结果也很不错. 当然,也可以先用ada系列先跑,最后快收敛的时候,更换成sgd继续训练.同样也会有提升.据说adadelta一般在分类问题上效果比较好,adam在生成问题上效果比较好。
-
ensemble
-
同样的参数,不同的初始化方式
-
不同的参数,通过cross-validation,选取最好的几组
k折交叉详解:https://www.cnblogs.com/henuliulei/p/13686046.html
-
同样的参数,模型训练的不同阶段,即不同迭代次数的模型。
-
不同的模型,进行线性融合. 例如RNN和传统模型.
-
版权声明
本文为[moletop]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Leiroy/article/details/124241857
边栏推荐
- 分享 20 个不容错过的 ES6 的技巧
- 8.4 realization of recurrent neural network from zero
- Three uses of kprobe
- Thinkphp5 + data large screen display effect
- How to upload large files quickly?
- Basic operation of sequential stack
- Tencent has written a few words, Ali has written them all for a month
- Mysql database explanation (10)
- Deep learning - Super parameter setting
- PSYNC synchronization of redis source code analysis
猜你喜欢
8.3 language model and data set
Detailed explanation of kubernetes (XI) -- label and label selector
X509 certificate cer format to PEM format
setcontext getcontext makecontext swapcontext
Reptile exercises (1)
函数(第一部分)
Wechat applet customer service access to send and receive messages
MySQL InnoDB transaction
Thinkphp5 + data large screen display effect
Mysql database explanation (8)
随机推荐
Reptile exercises (1)
regular expression
Detailed explanation of C language knowledge points -- first understanding of C language [1] - vs2022 debugging skills and code practice [1]
API gateway / API gateway (III) - use of Kong - current limiting rate limiting (redis)
Have you learned the basic operation of circular queue?
Educational codeforces round 127 A-E problem solution
My raspberry PI zero 2W tossing notes record some problems encountered and solutions
win10 任务栏通知区图标不见了
tcp_ Diag kernel related implementation 1 call hierarchy
调度系统使用注意事项
Common interview questions of operating system:
Baidu written test 2022.4.12 + programming topic: simple integer problem
机器学习——逻辑回归
Three uses of kprobe
Kubernetes详解(九)——资源配置清单创建Pod实战
async关键字
OPPO数据湖统一存储技术实践
MySQL installation process (steps for successful installation)
Async keyword
C语言超全学习路线(收藏让你少走弯路)