docs:update4.6.9.3

增加部分内容
2023-04-27 16:27:22 +08:00
parent 234bc76954
commit 6ea972c599
1 changed files with 30 additions and 2 deletions
--- a/4.人工智能/4.6.9.3基本概念介绍.md
+++ b/4.人工智能/4.6.9.3基本概念介绍.md
@@ -1,5 +1,5 @@
 # 基本概念介绍
-前面已经介绍过，强化学习难入坑的的原因之一就在于概念繁多。下面将进行基本概念的介绍，本章节最好能够理解，不理解也没有关系，但是建议作为参考章节常看常新。后续章节不理解某个概念时，便回来看看，相信一定能够做到常看常新、从而加深你对于概念的理解。下面将进行三个部分的介绍，分别为强化学习的基本过程、强化学习的基本要素、强化学习的目标。
+前面已经介绍过，强化学习难入坑的的原因之一就在于概念繁多。下面将进行基本概念的介绍，本章节最好能够理解，不理解也没有关系，但是建议作为参考章节常看常新。后续章节不理解某个概念时，便回来看看，相信一定能够做到常看常新、从而加深你对于概念的理解。下面将进行四个部分的介绍，分别为强化学习的基本过程、强化学习的基本组成内容、强化学习的基本概念以及强化学习的目标。


 ## 强化学习的基本过程
@@ -7,7 +7,7 @@
 ![](static/4.6.9.3.1.png)
 正是在这个与环境的交互过程中，智能体不断得到反馈，目标就是尽可能地让环境反馈的奖励足够大。

-## 强化学习的基本要素
+## 强化学习过程的基本组成内容
 为了便于理解，我们引入任天堂经典游戏——[新超级马里奥兄弟U](https://www.nintendoswitch.com.cn/new_super_mario_bros_u_deluxe/pc/index.html)，作为辅助理解的帮手。作为一个2D横向的闯关游戏，它的状态空间和动作空间无疑是简单的。

 ![](static/4.6.9.3.2.png)
@@ -38,6 +38,8 @@ $\pi(\mathrm{a} \mid \mathrm{s})=P(A=a \mid S=s)$

 6.奖励(Reward):这是一种反馈信号，用于表现智能体与环境交互后"表现"如何。在不同的环境中，我们需要设置不同的奖励。比如，在围棋游戏中，最后赢得游戏才会获得一个奖励。比如在量化交易中，可以直接拿收益亏损作为奖励。拿我们的马里奥游戏举例，吃到金币可以获得较小的奖励，最终通关游戏会获得一个极大的奖励，这样使得智能体以通关为目标、以吃金币为锦上添花。当然了，如果碰到怪物或者是死亡，需要设置一个极大的负奖励，因为这将直接导致游戏结束。

+我们可以得出一个结论:每一个奖励 $R_{i}$，都与当时刻的状态 $S_{i}$ 与动作 $A_{i}$ 有关。拿马里奥游戏举例，在当前状态下，是否采取什么样的动作就会决定获得什么样的奖励？马里奥如果采取"向上"，就可以获得金币奖励。如果采取"向右"，碰到小怪会死掉，会获得一个很大的负奖励。如果采取"向左"，那么可能什么事情都不会发生。
+
 7.状态转移(State transition):环境可不会在原地等你。在你操控马里奥执行一个动作后，比如"left"，那屏幕上显示的画面肯定会改变，这就发生了一个状态转移。状态转移函数记作

 <center>
@@ -56,3 +58,29 @@ iv.执行动作$a_{2}$，发生状态转移<br>
 v.不断迭代......

 该序列轨迹写作：$\langle s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},\ldots,s_{T},a_{T},r_{T} \rangle$
+
+## 强化学习的基本概念
+在阅读了前两个小节后，你可能对于强化学习的基本过程以及基本组成内容有了初步的了解。下面将进行强化学习基本概念的介绍，本章节与"基本组成内容"小节是继承关系，请一起阅读。(注:标题真难取，其实上一章就是强化学习的基本元素，这一章为基础元素推导出的基础概念)
+
+1.回报(Retrun)，需要与奖励区分开来。回报又称为"未来的累计奖励"(Cumulative future reward)，这可以在其定义中窥见端倪:
+
+<center>
+
+$U_{\mathrm{t}}=R_{t}+R_{t+1}+R_{t+2}+R_{t+3}+\ldots . R_{t+n}$
+
+</center>
+
+但是这个定义有一个很明显的问题，未来时刻的奖励和现在的一样重要吗？如果我承诺未来给你100块钱，这份**承诺**在你心里的分量和现在就给你100块钱能够等价吗？很明显不能。因此我们引入折扣因子 $\gamma$ ,用以对未来的奖励做出一个折扣。定义折扣回报(Cumulative Discounted future reward)如下：
+
+<center>
+
+$U_{t}=R_{t}+\gamma R_{t+1}+\gamma^{2} R_{t+2}+\ldots \gamma^{n} R_{t+n}$
+
+</center>
+
+这是我们在强化学习中经常使用的概念。其中，折扣率是一个超参数，会对强化学习的结果造成一定的影响。
+
+**注意格式**:如果游戏结束，每一个时刻的奖励都被观测到了——即站在任意时刻，一直到游戏结束的奖励都是可被观测的状态，那么奖励使用小写字母 $r$ 表示。如果游戏还没有结束，未来的奖励还是一个随机变量，那么我们使用大写字母 $R$ 来表示奖励。由于回报是由奖励组成的，那么我们也理所当然地用大写字母 $U_{t}$ 来表示回报。
+
+*Fix:真的理所当然吗？*
+让我们回顾一下，之前讲述"奖励"的定义时，我们得出过一个结论:每一个奖励 $R_{i}$，都与当时刻的状态 $S_{i}$ 与动作 $A_{i}$ 有关。