fix: 4.6.9.3.3一张图片引用

2023-04-26 19:53:38 +08:00
parent 4fa116b02f
commit 6a0ac8ac92
1 changed files with 2 additions and 3 deletions
--- a/4.人工智能/4.6.9.3基本概念介绍.md
+++ b/4.人工智能/4.6.9.3基本概念介绍.md
@@ -21,9 +21,8 @@
 4.动作(Action):智能体可以采取的行为，记为 $a$。在马里奥游戏中，马里奥能采取的动作只有：上、左、右三个。这属于**离散动作**，动作数量是有限的。而在机器人控制中，机器人能采取的动作是无限的，这属于**连续动作**。

 5.策略(Policy):智能体采取动作的规则，分为**确定性策略**与**随机性策略**。确定性策略代表在相同的状态下，智能体所输出的动作是唯一的。而随机性策略哪怕是在相同的状态下，输出的动作也有可能不一样。这么说有点过于抽象了，那么请思考这个问题：在下面这张图的环境中，如果执行确定性策略会发生什么？(提示：着重关注两个灰色的格子)
-<div style="text-align:center">
-<img src="static/4.6.9.3.3.png" />
-</div>
+
+![](static/4.6.9.3.3.png)

 因此，在强化学习中我们一般使用随机性策略。随机性策略通过引入一定的随机性，使环境能够被更好地探索。同时，如果策略固定——你的对手很容易能预测你的下一步动作并予以反击，这在博弈中是致命的。
 随机性策略$\pi$定义如下：