5. 强化学习之——策略优化

发布时间：2025-05-15 19:05

使用强化学习优化深度神经网络的决策策略 #生活技巧# #学习技巧# #深度学习技巧#

最新推荐文章于 2025-03-27 18:09:57 发布

TheWindOfJune 于 2020-06-15 00:19:14 发布

基于策略的强化学习：前面讲的都是基于价值的强化学习，这次讲基于策略函数去优化的强化学习

蒙特卡罗策略梯度

如何降低策略梯度的方差

Actor-Critic：同时学习策略函数和价值函数

Value-based RL 与 Policy-based RL：

Policy-based RL 的优势与劣势：

策略的分类：

（1）确定性策略

（2）概率分布性策略

对策略进行优化的过程中，优化目标是什么？

给定一个带参数的策略逼近函数（类似于值函数逼近），我们就是要找到最优的

怎么去评价一个策略呢？【废话，当然是用值函数啊】

从环境的角度去看：

（1）对于 episodic 的环境：可以用最开始的那个 value

（2）对于 continuing 环境：可以用平均的 value；也可以用平均的 reward

从轨迹的角度去看：

怎么去优化我们的目标方程呢？

（1）当目标方程

网址：5. 强化学习之——策略优化 https://www.yuejiaxmz.com/news/view/975081