当前位置:网站首页>强化学习_10_Datawhale稀疏奖励
强化学习_10_Datawhale稀疏奖励
2022-08-10 05:39:00 【Scc_hy】
习题
10-1 解决稀疏奖励的方法有哪些?
- 设计奖励
- 好奇心驱动的奖励
- 课程学习 / 逆课程学习
- 分层强化
10-2 设计奖励方法存在什么主要问题?
需要预先拥有领域知识,需要经验积累
10-3 内在好奇心模块是什么?我们应该如何设计这个内在好奇心模块?
内在好奇心模块: 输入状态s1、动作a1和状态s2, 输出另一个奖励ri1。总奖励包含r和ri
设计内在好奇心模块:
- 一般网络构建
- 输入s1, a1, 输出s’t+1;
- 评估: similar(s’t+1, st+1) 越大则奖励越大。
- 简述: 倾向于让智能体做一些风险比较大的动作,从而增加其探索的能力
- 增强表达的网络构建
- 内在好奇心优化为特征提取器
- feature + head
- feature 层进行特征提取 将 s -> imp_s
- head 进行优化
- forward:
- imp_s = feature(s)
- imp_s1 = feature(s1)
- a’=head(imp_s, imp_s1)
- 评估 进行下一次动作的
- similar(a1, a’) 动作跟真正的动作越接近越好
- ri = imp_s1 - Q(a, imp_s)

边栏推荐
猜你喜欢
随机推荐
vsnprint和snprintf的区别
不同场景如何使用动态代理?
动态规划、背包问题 6/25 110-115
OpenGL学习笔记(LearnOpenGL)-第四部分 着色器
unity3d著名项目-Dark Tree翻译
markdown类图学习
Hypervisor, KVM, QEMU总结
优化Mysql运行OrderBy性能
NetKeeper(创翼)开WIFI方法——2018.5
为什么游戏需要热更新?
unity瓦片地图调整图片大小
Unity2D动画生成操作(简单)
动态规划、背包问题 6/28 121-124
什么是代理ip?市面上好用的代理软件有哪些
手把手教你改内核源码--sysfs虚拟文件系统2
H3C文档NAT专题
UnityShader入门精要--Unity中的基础光照
强化学习_07_DataWhale深度Q网络进阶技巧
MySQL 免安装版/解压版的安装与配置(Win & Unix & Linux)
Myunity框架笔记3









