5. 强化学习之——策略优化

发布时间:2025-05-15 19:05

使用强化学习优化深度神经网络的决策策略 #生活技巧# #学习技巧# #深度学习技巧#

最新推荐文章于 2025-03-27 18:09:57 发布

TheWindOfJune 于 2020-06-15 00:19:14 发布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

课程大纲

基于策略的强化学习:前面讲的都是基于价值的强化学习,这次讲基于策略函数去优化的强化学习

蒙特卡罗策略梯度

如何降低策略梯度的方差

Actor-Critic:同时学习策略函数和价值函数

基于策略的强化学习基础知识

Value-based RL 与 Policy-based RL:

Policy-based RL 的优势与劣势:

策略的分类:

(1)确定性策略

(2)概率分布性策略

 对策略进行优化的过程中,优化目标是什么?

给定一个带参数的策略逼近函数(类似于值函数逼近),我们就是要找到最优的  

怎么去评价一个策略  呢?【废话,当然是用值函数啊】

从环境的角度去看:

(1)对于 episodic 的环境:可以用最开始的那个 value

(2)对于 continuing 环境:可以用平均的 value;也可以用平均的 reward

从轨迹的角度去看:

怎么去优化我们的目标方程  呢?

(1)当目标方程 

网址:5. 强化学习之——策略优化 https://www.yuejiaxmz.com/news/view/975081

相关内容

基于强化学习的门禁策略优化
基于强化学习的保存策略优化
强化学习——策略优化(笔记)
ChatGPT强化学习大杀器——近端策略优化(PPO)
强化学习中的多目标优化策略研究
强化学习中的策略迭代算法优化研究
优化学习策略
学习策略优化.pptx
机器学习优化策略
元强化学习优化复杂环境下的推理策略

随便看看