当前位置：网站首页>强化学习_07_DataWhale深度Q网络进阶技巧

强化学习_07_DataWhale深度Q网络进阶技巧

2022-08-10 05:39:00 【Scc_hy】

习题

7-1 为什么传统的深度Q 网络的效果并不好？可以参考其公式Q(st, at) = rt + maxa Q(st+1, a) 来描述。

因为实际上在做的时候，我们要让左边的式子跟目标越接近越好。但目标值很容易一不小心被设得太高，因为在计算目标的时候，实际采用的是哪个动作获得最大价值，就把它加上去变成我们的目标。即，每次我们都会选择哪个Q值被高估的动作，总是会选哪个奖励被高估的动作这个最大的结果去加上rt当目标，所以目标总是太大。

7-2 接着上个思考题，我们应该怎么解决目标值总是太大的问题呢？

采用双深度Q网络解决该问题。在双深度网络中，第一个Q网络决定哪一个动作的Q值最大，用第一个Q网络遍历全部的动作a，去看看那个Q值最大，依此选定动作。我们的Q值是用Q’估算的。
因为假设我们有两个Q 函数，假设第一个Q 函数高估了它现在选出来的动作a，那没关系，只要第二个Q 函数Q′ 没有高估这个动作a 的值，那你算出来的，就还是正常的值。假设反过来是Q′ 高估了某一个动作的值，那也没差