diff --git a/4.人工智能/4.6.9.3基本概念介绍.md b/4.人工智能/4.6.9.3基本概念介绍.md
index 2e228d1..1bef831 100644
--- a/4.人工智能/4.6.9.3基本概念介绍.md
+++ b/4.人工智能/4.6.9.3基本概念介绍.md
@@ -82,5 +82,9 @@ $U_{t}=R_{t}+\gamma R_{t+1}+\gamma^{2} R_{t+2}+\ldots \gamma^{n} R_{t+n}$
 
 **注意格式**:如果游戏结束，每一个时刻的奖励都被观测到了——即站在任意时刻，一直到游戏结束的奖励都是可被观测的状态，那么奖励使用小写字母 $r$ 表示。如果游戏还没有结束，未来的奖励还是一个随机变量，那么我们使用大写字母 $R$ 来表示奖励。由于回报是由奖励组成的，那么我们也理所当然地用大写字母 $U_{t}$ 来表示回报。
 
-*Fix:真的理所当然吗？*
-让我们回顾一下，之前讲述"奖励"的定义时，我们得出过一个结论:每一个奖励 $R_{i}$，都与当时刻的状态 $S_{i}$ 与动作 $A_{i}$ 有关。
\ No newline at end of file
+*Fix:真的理所当然吗？*<br>
+让我们回顾一下，之前讲述"奖励"的定义时，我们得出过一个结论:每一个奖励 $R_{i}$，都与当时刻的状态 $S_{i}$ 与动作 $A_{i}$ 有关。我们又知道，状态 $S_{i}$ 与动作 $A_{i}$ 在某种意义上都是随机变量，不要忘了:<br>
+1.状态$S_{i}$是由状态转移函数，随机抽样得到的<br>
+2.动作$A_{i}$是由策略 $\pi$ ,以状态$S_{i}$作为输入后随机抽样输出的
+
+因此，$U_{t}$ 就跟 $t$ 时刻开始未来所有的状态和动作都有关，$U_{t}$的随机性也因此和未来所有的状态和动作有关。
\ No newline at end of file