《强化学习》学习笔记3——策略学习

发布时间:2024-11-16 14:02

定期复习以强化跨学科学习记忆 #生活技巧# #学习技巧# #跨学科学习策略#

目标函数

        策略学习的目的是获得一个尽可能优的策略函数,使得的这个策略函数在能够取得尽可能大的未来累计回报。我们需要构建一个模型去描述这个策略函数,在训练模型的过程中,需要有一个评价函数来量化评价策略函数的好坏,同时评价结果的反馈可以用于策略函数模型的参数修正。

策略函数

我们可以用π(a|s;θ)" role="presentation">π(a|s;θ)模型来近似策略函数π(a|s)" role="presentation">π(a|s), 其中θ" role="presentation">θ为模型参数。

状态价值函数

Vπ(st)=EA[Qπ(st,A)]" role="presentation">Vπ(st)=EA[Qπ(st,A)]

其中Qπ" role="presentation">Qπ在上篇笔记中有介绍,Qπ(st,at)" role="presentation">Qπ(st,at)表示在当前策略函数π" role="presentation">π下能够获得的未来累计回报的期望。

状态价值用于评价在当前策略函数和当前状态下,能够获得的未来累计回报的期望,为什么是期望?因为这里策略的函数π" role="presentation">π是一个概率分布函数。这样的话,因为当前状态是可以确定的,策略函数越优化,状态价值函数就会越大。所以模型的学习目标可以转化为:求一个尽可能大的Vπ" role="presentation">Vπ。

用神经网络近似状态价值函数

V(s;θ)=EA[Qπ(s,A)]=∫Aπ(a|s;θ)⋅Qπ(s,a)" role="presentation">V(s;θ)=EA[Qπ(s,A)]=∫Aπ(a|s;θ)⋅Qπ(s,a)

其中θ" role="presentation">θ是网络参数。

V(s;θ)" role="presentation">V(s;θ)和当前状态s有关,s的值是具有随机性的,所以我们可以对V(s;θ)" role="presentation">V(s;θ)关于S求期望,得到:

J(θ)=ES[V(S;θ)]" role="presentation">J(θ)=ES[V(S;θ)]

我们期望J(θ)" role="presentation">J(θ)的值最大,所以策略网络的目标就是

网址:《强化学习》学习笔记3——策略学习 https://www.yuejiaxmz.com/news/view/91910

相关内容

强化学习(三)—— 策略学习(Policy
学习笔记
优化学习的18个策略
一文了解强化学习
掌握高效学习的7大策略:个性化学习路径构建指南
小学语文习作教学中生活化教学策略探索
如何提高学习效率 有哪些学习策略
提高学习效率的策略(精选9篇)
小学生数学学习效率提高的策略.doc
如何提升学习效率?: 学习策略与方法

随便看看