当前位置:网站首页>强化学习_12_Datawhale深度确定性策略梯度
强化学习_12_Datawhale深度确定性策略梯度
2022-08-10 05:39:00 【Scc_hy】
习题
12-1 请解释随机性策略和确定性策略。
对于随机性策略而言: 就是我们在一个状态,采取的Action是一个基于概率分布的一个抽样
确定性策略:就是我们在一个状态,采取的Action是一个基于固定了\theat的网络输出的结果
12-2 对于连续动作的控制空间和离散动作的控制空间,如果我们都采取使用策略网络的话,分别应
该如何操作?
对于输出值而言,简单讲其实有点类似随机森林的输出predict 和 predict_proba。
在网络上的话,需要输出离散动作就在顶层用softmax进行归一化输出离散动作概率 ndarray[a_dim, n]
对于连续的动作的话就输出一个值输出层将结果缩放到[-1, 1]之间(一般用激活函数tanh), 然后和真实值范围进行缩放,
返回到真实值范围 ndarray[a_dim, 1]
边栏推荐
猜你喜欢
随机推荐
Myunity框架笔记
二叉树 6/15 76-80
DRM Memory Management
Qt绘制椭圆曲线的角度问题(离心角和旋转角)
hanLP探索-语义距离计算的实现
【备份】《Unity Shader入门精要》配图
lua循环
强化学习_03_表格方法实践(CartPole-v0 And MontoCarlo)
二次元卡通渲染-着色
XV6 swtch.S详解
【论文解读】滴滴智能派单-KDD2018 Large-Scale Order Dispatch in On-Demand Ride-Hailing
UnityShader入门精要-unity shader基础
求职
Unity血条跟随对象
XV6系统调用实现
ArgumentException: GetComponent requires that the requested component ‘GameObject‘ derives from Mono
Unity screen coordinates to world coordinates, mouse click to get 3D position
一种奇怪的函数声明写法
Myunity框架笔记3
Unity瓦片地图取消部分刚体效果