当前位置:网站首页>强化学习_11_Datawhale模仿学习
强化学习_11_Datawhale模仿学习
2022-08-10 05:39:00 【Scc_hy】
习题
11-1 对于模仿学习,具体的方法有哪些?
行为克隆
逆强化学习
11-2 行为克隆存在哪些问题呢?我们可以如何处理呢?
- 学习样本有限
- 无法学到特殊情况的智能体策略。
- 处理方法(聚合数据)
- 我们会希望收集更多样性的数据,而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
极端的情况下,它会采取什么样的行为
- 我们会希望收集更多样性的数据,而不是只收集专家所看到的观测。我们会希望能够收集专家在各种
- 机器会完全模仿专家的行为,不管专家的行为是否有道理,就算没有道理,没有什么用的,就算这是专家本身的习惯,机器也会硬把它记下来
- 在做行为克隆的时候,训练数据跟测试数据是不匹配的。我们可以用数据集聚合的方法来缓解这个问题
11-3 逆强化学习是怎么运行的呢?
- 构建环境
- 收集专家的示范行为序列
- 智能体和环境交互, 并基于专家示范设计奖励,使得专家奖励 > 智能体奖励
- 用一般强化学习的方法进行智能体训练
- 更改奖励函数,重复 2 3 知道 智能体和专家的奖励几乎一致
11-4 逆强化学习方法与生成对抗网络(generative adversarial networks,GAN)在图像生成中有什么异曲同工之处?
两者过程基本一致:
- 生成的图就是专家的判别结果,生成器就是演员,生成器会生成很多的图并让演员与环境进行互
动,从而产生很多轨迹。这些轨迹跟环境互动的记录等价于生成对抗网络中的生成图。 - 在逆强化学习中的奖励函数就是判别器。奖励函数要给专家的实例高分,给演员的互动结果低分。
- 考虑两者的过程,在逆强化学习中,演员会想办法,从这个已经学习到的奖励函数中得到高分,然
后迭代地去循环这其实是与生成对抗网络的过程是一致的
边栏推荐
猜你喜欢
随机推荐
剑指 Offer(第 2 版)7/4 1-4
动态规划、背包问题 6/24 106-110
链表、栈、队列
Talking about 3 common shadow rendering techniques in games (1): plane shadow
Unity2D动画生成操作(简单)
UnityShader入门精要-基础纹理
动态规划、背包问题 6/23 101-105
Unity导航与寻路系统的基本使用
unity在UI界面上展示旋转模型
Unity瓦片地图取消部分刚体效果
hanLP探索-语义距离计算的实现
Analysis of minix_super_block.s_ninodes of mkfs.minix.c
动态代理-cglib
ACPI知识(高级配置和电源接口)
UnityShader入门精要-立方体纹理、反射、折射、菲涅尔反射
手把手教你改内核源码--sysfs虚拟文件系统2
Share a professional TA's "Shader Reference"
全网可达,交换机和路由器的配置,vlan
超纯水抛光树脂
ArgumentException: GetComponent requires that the requested component ‘GameObject‘ derives from Mono