无需公式或代码，用生活实例谈谈 AI 自动控制技术“强化学习”算法框架

发布时间：2025-03-04 23:33

《谈判的逻辑：科学与艺术》：用逻辑框架指导谈判决策。 #生活技巧# #谈判技巧# #谈判策略书#

最新推荐文章于 2024-12-12 16:57:13 发布

枇杷鹭于 2020-05-07 16:13:53 发布

不用公式、不用代码，白话讲讲强化学习原理

The best way to learn is to teach others.

战胜围棋高手李世石的 AlphaGo ，称霸星际争霸2的 AIphaStar…这些先进的自动控制技术都离不开“强化学习”这个算法框架。有人说，强化学习是一种“试错”技术，是在状态与动作间建立了一种高级的“哈希映射”。学习强化学习半载，我个人的心得是：强化学习让实时决策不再“鼠目寸光”，本文我们就通过“小赛能否写完假期作业”这个生活实例来谈谈。

在说强化学习之前，我们先来聊聊他的两个兄弟：监督学习和无监督学习。

监督学习

监督学习就是，你喂给机器一堆有标签的数据，比如下表这样。

特征值标签小明, 爱穿裙子, 出门前化妆女孩小张, 不穿裙子, 出门前不妆男孩 … … 小何, 爱穿裙子, 出门前不妆男孩

经过对有标签数据的训练/学习后，我们就得到了一个分类器/回归器，可以根据无标签的数据推测出其标签。

特征值 AI所推测出的标签小钗, 爱穿裙子, 出门前化妆女孩小黛, 爱穿裙子, 出门前化妆女孩小盘, 不穿裙子, 出门前不妆男孩无监督学习

无监督学习就是，你喂给机器一堆无标签的数据，比如下表这样。

特征值标签 (1,1,1,1) None (1,4,-2,3) None (-1,2,0,0) None (1000,-2,4,1) None … … (0,1,-2,0) None

网址：无需公式或代码，用生活实例谈谈 AI 自动控制技术“强化学习”算法框架 https://www.yuejiaxmz.com/news/view/807311

⬅️上一篇：一个人生活的技能

➡️下一篇：个人如何开技术服务费发票