不用公式、不用代码,白话讲讲强化学习原理
The best way to learn is to teach others.
战胜围棋高手李世石的 AlphaGo ,称霸星际争霸2的 AIphaStar…这些先进的自动控制技术都离不开“强化学习”这个算法框架。有人说,强化学习是一种“试错”技术,是在状态与动作间建立了一种高级的“哈希映射”。学习强化学习半载,我个人的心得是:强化学习让实时决策不再“鼠目寸光”,本文我们就通过“小赛能否写完假期作业”这个生活实例来谈谈。
在说强化学习之前,我们先来聊聊他的两个兄弟:监督学习和无监督学习。
监督学习监督学习就是,你喂给机器一堆有标签的数据,比如下表这样。
特征值 标签 小明, 爱穿裙子, 出门前化妆 女孩 小张, 不穿裙子, 出门前不妆 男孩 … … 小何, 爱穿裙子, 出门前不妆 男孩经过对有标签数据的训练/学习后,我们就得到了一个分类器/回归器,可以根据无标签的数据推测出其标签。
特征值 AI所推测出的标签 小钗, 爱穿裙子, 出门前化妆 女孩 小黛, 爱穿裙子, 出门前化妆 女孩 小盘, 不穿裙子, 出门前不妆 男孩 无监督学习无监督学习就是,你喂给机器一堆无标签的数据,比如下表这样。
<
特征值 标签 (1,1,1,1) None (1,4,-2,3) None (-1,2,0,0) None (1000,-2,4,1) None … … (0,1,-2,0) None