docs:update 4.6.9.3

打LOL去了
2023-04-27 20:16:29 +08:00
parent a4a53ec703
commit b1c3e1f4ee
1 changed files with 27 additions and 1 deletions
--- a/4.人工智能/4.6.9.3基本概念介绍.md
+++ b/4.人工智能/4.6.9.3基本概念介绍.md
@@ -87,4 +87,30 @@ $U_{t}=R_{t}+\gamma R_{t+1}+\gamma^{2} R_{t+2}+\ldots \gamma^{n} R_{t+n}$
 1.状态$S_{i}$是由状态转移函数，随机抽样得到的<br>
 2.动作$A_{i}$是由策略 $\pi$ ,以状态$S_{i}$作为输入后随机抽样输出的

-因此，$U_{t}$ 就跟 $t$ 时刻开始未来所有的状态和动作都有关，$U_{t}$的随机性也因此和未来所有的状态和动作有关。
+因此，$U_{t}$ 就跟 $t$ 时刻开始未来所有的状态和动作都有关，$U_{t}$的随机性也因此和未来所有的状态和动作有关。
+
+2.动作价值函数(Action-Value Function)
+
+$U_{t}$ 在强化学习过程中的重要性不言而喻，这就代表着总体奖励——可以用于衡量智能体总的表现水平，并且智能体的目标就是让这个回报越大越好。但是由于我们前面说过的原因，回报 $U_{t}$ 受制于状态与动作，是一个随机变量。也就是说，在 $t$ 时刻，我们无法得知 $U_{t}$ 究竟是什么。有没有一种办法，能够消除掉随机性？很自然的，我们想起了《概率论与数理统计》中的期望。从数学上来说，对 $U_{t}$ 在策略函数 $\pi$ 下求期望，就可以消掉里边所有的随机性。因此，我们得到动作价值函数 $Q_\pi$ 的定义如下：
+
+<center>
+
+$Q_\pi=E\left(U_t \mid S_t=s_t, A_t=a_t\right)$
+
+</center>
+
+动作价值函数 $Q_\pi$ 消除了不确定的未来的动作和状态，转而把已观测到的状态 $s_{t}$ 和动作 $a_{t} $ 作为被观测的变量而非随机变量来对待。动作价值函数带来的意义就在于，能够在策略 $\pi$ 下，对于当前状态 $s$ 下所有动作 $a$ 进行打分，基于分数我们就可以知道哪个动作好、哪个动作不好。
+
+3.最优动作价值函数(Optimal action-value function)
+
+动作价值函数对于回报 $U_{t}$ 关于策略 $\pi$ 求取了期望，成功地消去了状态以及动作的随机性。但是需要注意的是，使用不同的策略 $\pi$ 就会得到不同的动作价值函数 $Q_\pi$ ——其实质上受到三个参数影响,即($\pi$，$s$，$a$)。我们应该使用"效果最好"的那种函数，也就是能让 $Q_\pi$ 最大化的那个 $\pi$ ，基于此我们可以得到最优动作价值函数：
+
+<center>
+
+$Q^*\left(s_t, a_t\right)= \underset{\pi}{max} Q_\pi\left(s_t, a_t\right)$
+
+</center>
+
+我们跨出了历史性的一步。
+
+如果有了 $Q^*$ 函数，意味着可以评价动作的好坏了。我们的价值函数不再和策略有关，在观测的状态 $s$ 下，$Q^*$函数成为指挥智能体动作的“指挥官”——哪个动作的分数最高，智能体就应该执行哪个动作。学习 $Q^*$ 函数也是强化学习的最终目标之一，我们可以维护一张 $Q$ 表