当前位置:网站首页>Model based RL概述
Model based RL概述
2022-04-22 13:07:00 【CHH3213】
参考资料
https://zhuanlan.zhihu.com/p/102197348
https://zhuanlan.zhihu.com/p/45418829
1. Model based vs Model free
1. Model-based
强化学习中所说的model-based并不是已知环境模型,或者已知状态转移概率。而是要从经验中学习到一个环境模型或者其他映射,并利用这个learned model 加速策略选代的进程。
model-based 旨在高效的利用experience,提高学习效率以及实现 data-efficient。
一般来说,model-based的好处是由于其对环境的动力学特性(dynamic )进行建模,其sample efficiency更好,在样本很少的情况下学习的更好。但是一般来说其渐近表现不如model-free的算法好,即收敛之后的性能。
model-based算法有两个关键的问题,一个是建立什么样的模型,一个是怎样使用模型去做控制。
1.1 模型建立
模型的选择有:
1)nonparametric类方法,比如Bayesian nonparametric model;
2)local models,比如guided policy search,这个方法主要是反复的找更好的轨迹,并且把策略朝着该轨迹上拟合;
3)parametric models,比如使用神经网络来拟合,这种方法又分为deterministic模型和stochastic模型,deterministic计算更简单但是在样本少的时候会更容易overfit。
1.2 使用模型做控制
使用模型来做控制的方法主要有:
1)policy based method,即利用模型去探索并找到一个好的policy π : s t → a t \pi: s_t \to a_t π:st→at ,属于learning;
2)model predictive control(MPC),这种方法不去寻求一个依赖于当前状态的策略,而是每次遇到一个新的选择的时候,都基于模型去逐步预测、模拟、做选择。属于planning。
2. Model-free
Model-free就是我们常听到的 DQN, DDPG, PPO 等SOTA算法。它和model-based 的区别就在于是否利用经验做策略选代之外的事。显然,所有model-free都可以转变为
model-based, model-based只是一个框架,任意的model-free算法都可以嵌套进去。
model-free在其中就是下图的 direct RL,因此 model-free 就是value/policy->acting->experience->direct RL->value/policy 的过程。
所谓的 model-based 就是在其上增加了 model learning->model->planning 的过程。通过 experience data 学习得到一个环境的模型。

3. 经验的其他用途
除了用于策略迭代外,经验还可用于:
- 拟合环境模型以及即时奖励模型 ,作为新的数据源补充算法的训练
Dyna, ME-TRPO, NAF - 拟合未来的值函数以及即时奖励,辅助决策
VPN, I2A - 拟合未来的Q值,用于增加Q值预估的质量,将其在环境模型中展开(rollout)
MVE, STEVE, MBPO
版权声明
本文为[CHH3213]所创,转载请带上原文链接,感谢
https://blog.csdn.net/weixin_42301220/article/details/123923078
边栏推荐
- English writing artifact quillbot --- how to use the free premium function
- let、const、var的区别
- ORB_ Slam3 learning: introduction to tracking thread
- MPU6050-DMP读不出数据
- R语言使用dhyper函数生成超几何分布密度数据、使用plot函数可视化超几何分布密度数据(Hypergeometric Distribution)
- R language multiple decision curve analysis DCA (decision curve analysis) curve visualization in the same image, using PNG function to save the DCA visualization results of decision curve analysis in
- 互联网巨头的广告攻守战
- 模型的权值以及loss或者中间变量变成了nan怎么回事
- CMD命令与脚本学习笔记_Kali_B站
- Oracle NetSuite 客户说 | 让中影巴可流程控制更精细的“核心秘籍”
猜你喜欢

数商云电子招投标系统解决方案丨规范政采流程,提高工作效率

Ros2 - what is an interface

Stc8h internal eepom explanation

How to batch delete worksheets in Excel

RT thread configuration SPI flash (w25q256)

利用OpenCV的函数threshold()对图像作基于OTSU的阈值化处理---并附比较好的介绍OTSU原理的博文链接

抖音快手卧榻之侧,黄光裕难以酣睡

学习笔记——数字化工厂 4.21

Graph search of obstacles in far planner

redis的key都变成了backup,值也都不见了,这是为什么呢?
随机推荐
字符串强化训练-拷贝字符串|字符串反转实现
Leetcode 1678. Design goal parser
数商云家电商城系统解决方案,优化电器商城采购供应链管理,减低库存提升资金利用率
English writing artifact quillbot --- how to use the free premium function
When doing correlation analysis, how to exclude singular value outliers to increase the accuracy of correlation analysis
Mysql database has been started successfully, but show is not an internal or external command. How to solve it?
[dark horse morning post] it is known that it is listed in Hong Kong today; Xiaohongshu responded to layoffs of 20%; The glory of the king was accused of plagiarism; Liu Jianhong's live broadcasting r
利用OpenCV的函数threshold()对图像作基于OTSU的阈值化处理---并附比较好的介绍OTSU原理的博文链接
The difference between let, const and VaR
Chrome multi device bookmark synchronization scheme
General steps for exporting Gerber files from Altium Designer
小程序分享给好友列表以及分享到朋友圈
Type requirements for parameters pT1 and pT2 of OpenCV function line()
Digital business cloud: how can enterprises achieve local breakthroughs and run fast in small steps under the wave of digital procurement
CubeMX配置SPI-Flash(W25Q256)
RT thread configuration SPI flash (w25q256)
mysql数据库已经成功启动,可是show不是内部或外部命令,该如何解决呢?
redis 优缺点 使用场景
With the help of digital business cloud real estate industry procurement platform solution, realize simple, intelligent and compliant procurement
Redis advantages and disadvantages usage scenarios