当前位置:网站首页>强化学习_12_Datawhale深度确定性策略梯度
强化学习_12_Datawhale深度确定性策略梯度
2022-08-10 05:39:00 【Scc_hy】
习题
12-1 请解释随机性策略和确定性策略。
对于随机性策略而言: 就是我们在一个状态,采取的Action是一个基于概率分布的一个抽样
确定性策略:就是我们在一个状态,采取的Action是一个基于固定了\theat的网络输出的结果
12-2 对于连续动作的控制空间和离散动作的控制空间,如果我们都采取使用策略网络的话,分别应
该如何操作?
对于输出值而言,简单讲其实有点类似随机森林的输出predict 和 predict_proba。
在网络上的话,需要输出离散动作就在顶层用softmax进行归一化输出离散动作概率 ndarray[a_dim, n]
对于连续的动作的话就输出一个值输出层将结果缩放到[-1, 1]之间(一般用激活函数tanh), 然后和真实值范围进行缩放,
返回到真实值范围 ndarray[a_dim, 1]
边栏推荐
猜你喜欢
如何在AdsPower中设置YiLu代理?
NetKeeper(创翼)开WIFI方法——2018.5
Talking about 3 Common Shadow Rendering Techniques in Games (3): Shadow Mapping
QEMU guest与host通过网络通信——bridge/hostfwd/guestfwd
Talking about 3 common shadow rendering techniques in games (1): plane shadow
Can‘t find bundle for base name jdbc, locale zh_CN解决方法
Easy to master Unity of eight prior to rendering
不同场景如何使用动态代理?
Ingress Controller performance test(1)
浅谈游戏中3种常用阴影渲染技术(1):平面阴影
随机推荐
为什么游戏需要热更新?
lua的模块与类
ACPI知识(高级配置和电源接口)
网页安全证书错误但无法安装证书的解决办法
超纯水抛光树脂
优化Mysql运行OrderBy性能
强化学习_11_Datawhale模仿学习
UnityShader入门精要-阴影
氨氮吸附材料原理
XV6系统调用实现
Teach you to change the kernel source code--sysfs virtual file system 2
Teach you to change the kernel source code--sysfs virtual file system 1
计算数字区间中数字出现次数
R language cluster analysis - code analysis
unity箭头控制物体移动
Talking about 3 common shadow rendering techniques in games (1): plane shadow
全网可达,交换机和路由器的配置,vlan
Talking about 3 common shadow rendering techniques in games (2): shadow cone
markdown使用技巧
在TypeScript中使用parseInt()