当前位置:网站首页>强化学习_12_Datawhale深度确定性策略梯度
强化学习_12_Datawhale深度确定性策略梯度
2022-08-10 05:39:00 【Scc_hy】
习题
12-1 请解释随机性策略和确定性策略。
对于随机性策略而言: 就是我们在一个状态,采取的Action是一个基于概率分布的一个抽样
确定性策略:就是我们在一个状态,采取的Action是一个基于固定了\theat的网络输出的结果
12-2 对于连续动作的控制空间和离散动作的控制空间,如果我们都采取使用策略网络的话,分别应
该如何操作?
对于输出值而言,简单讲其实有点类似随机森林的输出predict 和 predict_proba。
在网络上的话,需要输出离散动作就在顶层用softmax进行归一化输出离散动作概率 ndarray[a_dim, n]
对于连续的动作的话就输出一个值输出层将结果缩放到[-1, 1]之间(一般用激活函数tanh), 然后和真实值范围进行缩放,
返回到真实值范围 ndarray[a_dim, 1]
边栏推荐
- Talking about 3 common shadow rendering techniques in games (1): plane shadow
- 动态规划、背包问题 6/23 101-105
- unity瓦片地图调整图片大小
- A*Pathfinding插件(3D)
- Analysis of minix_super_block.s_nzones of mkfs.minix.c
- 不同场景如何使用动态代理?
- UE 游戏模式
- 浅谈游戏中3种常用阴影渲染技术(1):平面阴影
- 全网可达,交换机和路由器的配置,vlan
- Explore the origin of the garbled problem: the association between GBK, UTF8, UTF16, UTF8BOM, and ASN1
猜你喜欢
随机推荐
hanLP探索-语义距离计算的实现
Teach you to change the kernel source code--sysfs virtual file system 1
全网可达,交换机和路由器的配置,vlan
进制的前缀表示和后缀表示
关于研究鼠标绘制平滑曲线的阶段总结
OpenGL学习笔记(LearnOpenGL)-第二部分 绘制三角形
为什么游戏需要热更新?
Using parseInt() in TypeScript
Talking about 3 common shadow rendering techniques in games (2): shadow cone
Analysis of minix_super_block.s_ninodes of mkfs.minix.c
新手使用 go channel 需要注意的问题
NetKeeper(创翼)开WIFI方法——2018.5
抛光树脂应用
KDE框架介绍
全网可达,实现备份
视差映射:更逼真的纹理细节表现(上):为什么要使用视差映射
OSPF的dr和bdr
UnityShader入门精要-高级光照基础
驱动的参数传入:module_param,module_param_array,module_param_cb
如何在AdsPower中设置YiLu代理?








