From f3a398ac951a502ea9ea4b5f66f4b68d53dd61fd Mon Sep 17 00:00:00 2001 From: Xinlei_Zhou <105836659+ZhouXiinlei@users.noreply.github.com> Date: Sun, 23 Apr 2023 00:38:20 +0800 Subject: [PATCH 1/3] update:add 4.6.9 add contents about DRL with 4.6.9/4.6.9.1/4.6.9.2 --- .vitepress/config.js | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/.vitepress/config.js b/.vitepress/config.js index df393ee..2a4bf3c 100644 --- a/.vitepress/config.js +++ b/.vitepress/config.js @@ -419,6 +419,15 @@ export default defineConfig({ { text: '4.6.8.9MoCo v3', link: '/4.人工智能/4.6.8.9MoCo v3' }, { text: '4.6.8.10总结', link: '/4.人工智能/4.6.8.10总结' }, ] + }, + { + text: '4.6.9深度强化学习', + collapsed: true, + items: [ + { text: '4.6.9深度强化学习', link: '/4.人工智能/4.6.9深度强化学习' }, + { text: '4.6.9.1前言', link: '/4.人工智能/4.6.9.1前言' }, + { text: '4.6.9.2基础资料推荐', link: '/4.人工智能/4.6.9.2基础资料推荐' }, + ] } ] }, From 6078f6cfe30a25dc6fe1b3f5a5b4c9133447f18f Mon Sep 17 00:00:00 2001 From: Xinlei_Zhou <105836659+ZhouXiinlei@users.noreply.github.com> Date: Sun, 23 Apr 2023 00:40:20 +0800 Subject: [PATCH 2/3] docs:improve 4.6.9/4.6.9.1/4.6.9.2 add contents --- 4.人工智能/4.6.9.1前言.md | 21 +++++++++++++ 4.人工智能/4.6.9.2基础资料推荐.md | 33 +++++++++++++++++++++ 4.人工智能/4.6.9深度强化学习.md | 10 +++++++ 3 files changed, 64 insertions(+) create mode 100644 4.人工智能/4.6.9.1前言.md create mode 100644 4.人工智能/4.6.9.2基础资料推荐.md create mode 100644 4.人工智能/4.6.9深度强化学习.md diff --git a/4.人工智能/4.6.9.1前言.md b/4.人工智能/4.6.9.1前言.md new file mode 100644 index 0000000..2bfaacd --- /dev/null +++ b/4.人工智能/4.6.9.1前言.md @@ -0,0 +1,21 @@ +强化学习已经是一门很老的内容了,这从它被列为和监督学习与无监督学习并列的三大基本机器学习算法就可以看出来。但是在和深度学习结合后,强化学习焕发出了属于它的第二春。 + +虽然如此,但笔者还是必须提醒各位读者,强化学习相较于CV/NLP来说,仍然是一个非常冷门的方向,这不是没有原因的。总结原因如下: + +①强化学习概念繁多芜杂,并且没有办法绕开:作为一个研究强化学习的人,你得理解整个交互过程,绕不开的概念包括但不限于:智能体(agent)、环境(environment)、状态(state)、动作(action) + +、奖励(reward)、动作价值函数(Action-Value Function)、状态价值函数(State-Value Function)等。这足以使一个初学者头大。 + +②强化学习涉及的数学知识较为高深,需要奠定较好的数理基础才能理解公式以及概念。马尔可夫过程作为强化学习最基本的模型,所需的前置知识包括以下内容:1.概率论与数理统计,用于描述MDP模型。 + +2.线性代数,用向量来描述状态与动作。 3.统计学理论,众多算法都是基于统计学推导出来的。 4.最优化理论,众多算法都属于优化算法的范畴。 5.微积分,这是所有机器学习的内容都需要掌握的知识。 + +如果你不喜欢推导公式,那么强化学习对你来说可能并不是那么适合。 + +③强化学习应用范围以及未来就业市场较为单一。研究强化学习的方向倒是很多,博弈论、资源分配优化、游戏、推荐等领域都能见到强化学习的身影。但是根据笔者的观察,强化学习将来的就业岗位较为单一,一般只有 + +游戏公司招收强化学习相关的岗位。 + +④强化学习固有的弊端,包括但不限于采样效率令人堪忧、奖励函数的设计过于玄学、学术领域的严重灌水以及源码的难以复现等。这对初学者造成了极大的困扰。 + +综上所述,强化学习是一个“有坑”的领域,入坑需谨慎!!!当然了,如果只是喜欢训练智能体“打游戏”,那么平台上存在着众多的源代码项目可供参考,祝你玩得愉快! \ No newline at end of file diff --git a/4.人工智能/4.6.9.2基础资料推荐.md b/4.人工智能/4.6.9.2基础资料推荐.md new file mode 100644 index 0000000..3475062 --- /dev/null +++ b/4.人工智能/4.6.9.2基础资料推荐.md @@ -0,0 +1,33 @@ +①书籍:周志华《机器学习》(西瓜书)关于强化学习的部分,作为概念引导和初步理解。 + +②书籍:Sutton《Reinforcement Learning》,强化学习圣经,推荐作为参考书查阅而不是硬啃。 + +③网课:王树森《Deep Reinforcement Learning》,课件是英文的授课是中文的,概念讲的非常清楚而且形象,强推。 + +Github课件链接: + +网课链接:[深度强化学习-王树森(Youtube)](https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU)。 + +④网课:CS285,无论是csdiy还是主流资料推荐的网课,但是笔者的英语听力不怎么能跟上老师上课的语速,也没有找到有中文字幕的版本,推荐作为进阶资料使用。 + +项目链接:[CS285:Deep Reinforcement Learning](http://rail.eecs.berkeley.edu/deeprlcourse/) + +⑤书籍+网课+实操:张伟楠《Hands On RL》(动手学强化学习),有书+有代码+有网课,不错的整合。但是配套网课质量只能说还可以,代码可以看看。 + +Github主页: + +电子书版:[动手学强化学习](https://hrl.boyuai.com/chapter/intro) + +网课链接:[伯禹学习平台](https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/lesson/O1N8hUTUb4HZuchPSedea) + +⑥项目:OpenAI Spinning up,强推,动手做项目以及体会强化学习的快乐才是真谛所在。 + +项目主页:[OpenAI Spinning up](https://spinningup.openai.com/en/latest/index.html) + +⑦资源:机器之心 SOTA!模型资源站,一站式查看原理+概论+代码+论文原文。 + +网站主页:[机器之心 SOTA!](https://www.jiqizhixin.com/columns/sotaai) + +⑧论坛:RLChina,讲课的确实都是大牛,但是感觉略有枯燥。有时间表安排,适合希望自律、有规划地学习的同学。 + +论坛主页:[RLChina](http://rlchina.org/) \ No newline at end of file diff --git a/4.人工智能/4.6.9深度强化学习.md b/4.人工智能/4.6.9深度强化学习.md new file mode 100644 index 0000000..4829974 --- /dev/null +++ b/4.人工智能/4.6.9深度强化学习.md @@ -0,0 +1,10 @@ +前面已经介绍过强化学习(RL)的基本概念了,这里着重介绍深度强化学习(DRL)。 + +在笔者浅薄的理解里,深度强化学习的本质还是一个强化学习的问题,只不过引入了深度学习里的深度神经网络用于拟合函数。在传统的强化学习中,我们有一张表格用于存储状态以及动作的值函数。 + +很显然,在状态和动作空间较少的情况下,无论是存储这张表格还是查找这张表格都是轻而易举的。但是在复杂的环境下,继续使用这种方法会出现维度灾难,我们不得不使用函数逼近的办法来估计值函数。 + +这时候深度学习便加入进来与强化学习相结合,可以利用深度学习能处理高维、非线性数据与具有强大的学习能力这两个特点来逼近这个值函数并且提取特征,从而处理复杂状态下的问题。 + +也正是基于此,笔者在后续不会刻意区分强化学习与深度强化学习,因为他们的目标是一致的。这也是为什么本内容会放在深度学习的大模块下,而不是另外单独起一个强化学习模块的原因。 + From 9f8d2e4ebb2348ff21968a29ecbde3ecaae5071c Mon Sep 17 00:00:00 2001 From: camera-2018 <2907618001@qq.com> Date: Sun, 23 Apr 2023 01:06:55 +0800 Subject: [PATCH 3/3] =?UTF-8?q?fix:=20=E4=B8=80=E5=A0=86=E6=A0=BC=E5=BC=8F?= =?UTF-8?q?=E9=97=AE=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 4.人工智能/4.6.9.1前言.md | 22 ++++++------- 4.人工智能/4.6.9.2基础资料推荐.md | 35 +++++++++++---------- 4.人工智能/4.6.9深度强化学习.md | 1 + 3 files changed, 30 insertions(+), 28 deletions(-) diff --git a/4.人工智能/4.6.9.1前言.md b/4.人工智能/4.6.9.1前言.md index 2bfaacd..e4bc317 100644 --- a/4.人工智能/4.6.9.1前言.md +++ b/4.人工智能/4.6.9.1前言.md @@ -1,21 +1,21 @@ +# 前言 强化学习已经是一门很老的内容了,这从它被列为和监督学习与无监督学习并列的三大基本机器学习算法就可以看出来。但是在和深度学习结合后,强化学习焕发出了属于它的第二春。 虽然如此,但笔者还是必须提醒各位读者,强化学习相较于CV/NLP来说,仍然是一个非常冷门的方向,这不是没有原因的。总结原因如下: -①强化学习概念繁多芜杂,并且没有办法绕开:作为一个研究强化学习的人,你得理解整个交互过程,绕不开的概念包括但不限于:智能体(agent)、环境(environment)、状态(state)、动作(action) +1. 强化学习概念繁多芜杂,并且没有办法绕开:作为一个研究强化学习的人,你得理解整个交互过程,绕不开的概念包括但不限于:智能体(agent)、环境(environment)、状态(state)、动作(action)、奖励(reward)、动作价值函数(Action-Value Function)、状态价值函数(State-Value Function)等。这足以使一个初学者头大。 -、奖励(reward)、动作价值函数(Action-Value Function)、状态价值函数(State-Value Function)等。这足以使一个初学者头大。 +2. 强化学习涉及的数学知识较为高深,需要奠定较好的数理基础才能理解公式以及概念。马尔可夫过程作为强化学习最基本的模型,所需的前置知识包括以下内容: + 1. 概率论与数理统计,用于描述MDP模型。 + 2. 线性代数,用向量来描述状态与动作。 + 3. 统计学理论,众多算法都是基于统计学推导出来的。 + 4. 最优化理论,众多算法都属于优化算法的范畴。 + 5. 微积分,这是所有机器学习的内容都需要掌握的知识。 -②强化学习涉及的数学知识较为高深,需要奠定较好的数理基础才能理解公式以及概念。马尔可夫过程作为强化学习最基本的模型,所需的前置知识包括以下内容:1.概率论与数理统计,用于描述MDP模型。 + 如果你不喜欢推导公式,那么强化学习对你来说可能并不是那么适合。 -2.线性代数,用向量来描述状态与动作。 3.统计学理论,众多算法都是基于统计学推导出来的。 4.最优化理论,众多算法都属于优化算法的范畴。 5.微积分,这是所有机器学习的内容都需要掌握的知识。 +3. 强化学习应用范围以及未来就业市场较为单一。研究强化学习的方向倒是很多,博弈论、资源分配优化、游戏、推荐等领域都能见到强化学习的身影。但是根据笔者的观察,强化学习将来的就业岗位较为单一,一般只有游戏公司招收强化学习相关的岗位。 -如果你不喜欢推导公式,那么强化学习对你来说可能并不是那么适合。 - -③强化学习应用范围以及未来就业市场较为单一。研究强化学习的方向倒是很多,博弈论、资源分配优化、游戏、推荐等领域都能见到强化学习的身影。但是根据笔者的观察,强化学习将来的就业岗位较为单一,一般只有 - -游戏公司招收强化学习相关的岗位。 - -④强化学习固有的弊端,包括但不限于采样效率令人堪忧、奖励函数的设计过于玄学、学术领域的严重灌水以及源码的难以复现等。这对初学者造成了极大的困扰。 +4. 强化学习固有的弊端,包括但不限于采样效率令人堪忧、奖励函数的设计过于玄学、学术领域的严重灌水以及源码的难以复现等。这对初学者造成了极大的困扰。 综上所述,强化学习是一个“有坑”的领域,入坑需谨慎!!!当然了,如果只是喜欢训练智能体“打游戏”,那么平台上存在着众多的源代码项目可供参考,祝你玩得愉快! \ No newline at end of file diff --git a/4.人工智能/4.6.9.2基础资料推荐.md b/4.人工智能/4.6.9.2基础资料推荐.md index 3475062..6b2e107 100644 --- a/4.人工智能/4.6.9.2基础资料推荐.md +++ b/4.人工智能/4.6.9.2基础资料推荐.md @@ -1,33 +1,34 @@ -①书籍:周志华《机器学习》(西瓜书)关于强化学习的部分,作为概念引导和初步理解。 +# 深度强化学习基础资料推荐 +1. 书籍:周志华《机器学习》(西瓜书)关于强化学习的部分,作为概念引导和初步理解。 -②书籍:Sutton《Reinforcement Learning》,强化学习圣经,推荐作为参考书查阅而不是硬啃。 +2. 书籍:Sutton《Reinforcement Learning》,强化学习圣经,推荐作为参考书查阅而不是硬啃。 -③网课:王树森《Deep Reinforcement Learning》,课件是英文的授课是中文的,概念讲的非常清楚而且形象,强推。 +3. 网课:王树森《Deep Reinforcement Learning》,课件是英文的授课是中文的,概念讲的非常清楚而且形象,强推。 -Github课件链接: + Github课件链接: -网课链接:[深度强化学习-王树森(Youtube)](https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU)。 + 网课链接:[深度强化学习-王树森(Youtube)](https://www.youtube.com/watch?v=vmkRMvhCW5c&list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU)。 -④网课:CS285,无论是csdiy还是主流资料推荐的网课,但是笔者的英语听力不怎么能跟上老师上课的语速,也没有找到有中文字幕的版本,推荐作为进阶资料使用。 +4. 网课:CS285,无论是csdiy还是主流资料推荐的网课,但是笔者的英语听力不怎么能跟上老师上课的语速,也没有找到有中文字幕的版本,推荐作为进阶资料使用。 -项目链接:[CS285:Deep Reinforcement Learning](http://rail.eecs.berkeley.edu/deeprlcourse/) + 项目链接:[CS285:Deep Reinforcement Learning](http://rail.eecs.berkeley.edu/deeprlcourse/) -⑤书籍+网课+实操:张伟楠《Hands On RL》(动手学强化学习),有书+有代码+有网课,不错的整合。但是配套网课质量只能说还可以,代码可以看看。 +5. 书籍+网课+实操:张伟楠《Hands On RL》(动手学强化学习),有书+有代码+有网课,不错的整合。但是配套网课质量只能说还可以,代码可以看看。 -Github主页: + Github主页: -电子书版:[动手学强化学习](https://hrl.boyuai.com/chapter/intro) + 电子书版:[动手学强化学习](https://hrl.boyuai.com/chapter/intro) -网课链接:[伯禹学习平台](https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/lesson/O1N8hUTUb4HZuchPSedea) + 网课链接:[伯禹学习平台](https://www.boyuai.com/elites/course/xVqhU42F5IDky94x/lesson/O1N8hUTUb4HZuchPSedea) -⑥项目:OpenAI Spinning up,强推,动手做项目以及体会强化学习的快乐才是真谛所在。 +6. 项目:OpenAI Spinning up,强推,动手做项目以及体会强化学习的快乐才是真谛所在。 -项目主页:[OpenAI Spinning up](https://spinningup.openai.com/en/latest/index.html) + 项目主页:[OpenAI Spinning up](https://spinningup.openai.com/en/latest/index.html) -⑦资源:机器之心 SOTA!模型资源站,一站式查看原理+概论+代码+论文原文。 +7. 资源:机器之心 SOTA!模型资源站,一站式查看原理+概论+代码+论文原文。 -网站主页:[机器之心 SOTA!](https://www.jiqizhixin.com/columns/sotaai) + 网站主页:[机器之心 SOTA!](https://www.jiqizhixin.com/columns/sotaai) -⑧论坛:RLChina,讲课的确实都是大牛,但是感觉略有枯燥。有时间表安排,适合希望自律、有规划地学习的同学。 +8. 论坛:RLChina,讲课的确实都是大牛,但是感觉略有枯燥。有时间表安排,适合希望自律、有规划地学习的同学。 -论坛主页:[RLChina](http://rlchina.org/) \ No newline at end of file + 论坛主页:[RLChina](http://rlchina.org/) \ No newline at end of file diff --git a/4.人工智能/4.6.9深度强化学习.md b/4.人工智能/4.6.9深度强化学习.md index 4829974..4de0413 100644 --- a/4.人工智能/4.6.9深度强化学习.md +++ b/4.人工智能/4.6.9深度强化学习.md @@ -1,3 +1,4 @@ +# 深度强化学习 前面已经介绍过强化学习(RL)的基本概念了,这里着重介绍深度强化学习(DRL)。 在笔者浅薄的理解里,深度强化学习的本质还是一个强化学习的问题,只不过引入了深度学习里的深度神经网络用于拟合函数。在传统的强化学习中,我们有一张表格用于存储状态以及动作的值函数。