tft每日頭條

 > 生活

 > 極簡學習法每天一本書

極簡學習法每天一本書

生活 更新时间:2025-02-15 08:33:58

強化學習(reinforcement learningRL)讨論的問題是智能體(agent)怎麼在複雜、不确定的環境(environment)裡面去最大化它能獲得的獎勵。如圖 1.1所示,強化學習由兩部分組成:智能體和環境。在強化學習過程中,智能體與環境一直在交互。智能體在環境裡面獲取某個狀态後,它會利用該狀态輸出一個動作(action),這個動作也稱為決策(decision)。然後這個動作會在環境之中被執行,環境會根據智能體采取的動作,輸出下一個狀态以及當前這個動作帶來的獎勵。智能體的目的就是盡可能多地從環境中獲取獎勵。

強化學習的國内相關資料相對較少, 入門較為困難。因此,筆者嘗試在網上尋找公開課進行學習,在精心 挑選後,使用李宏毅老師的“深度強化學習”、周博磊老師的“強化學習綱要”以 及李科澆老師的“百度強化學習”公開課(以下簡稱 “3 門公開課”) 作為學習課 程, 獲益匪淺, 于是将所學内容結合筆者個人的理解和體會初步整理成筆記。之 後, 在衆多優秀開源教程的啟發下, 筆者決定将該筆記制作成教程來讓更多的強化學習初學者受益。這本教程就是剛剛上架的“蘑菇書”《Easy RL 強化學習教程》。

Easy RL 強化學習教程

極簡學習法每天一本書(7位強化學習領域大咖推薦的)1

萃取3門強化學習經典公開課精華

李宏毅“深度強化學習” 周博磊“強化學習綱要” 李科澆“世界冠軍帶你從零實踐強化學習”

Datawhale的開源“蘑菇書”——Easy-RL

來自中科院、清華、北大的Datawhale成員自學筆記,GitHub發布9個月下載過萬。

小白輕松入門的指南,大廠強化學習面試敲門磚

簡單生動的例子 重難點公式詳細推導 關鍵詞、習題和面試題 Python實現代碼

4項配套資源,滿滿意外收獲!

◆ 可下載Python實現代碼 ◆ 可下載習題答案

◆ 可下載面試答案 ◆ 學習交流服務

全書主要内容源于 3 門公開課, 并在其基礎上進行了一定的原創。比如, 為了盡可能地降低閱讀門檻, 筆者對 3 門公開課的精華内容進行選取并優化, 所涉及的公式都有詳細的推導過程, 對較難理解的知識點進行了重點講解和強化, 方 便讀者較為輕松地入門。此外, 為了書籍的豐富性, 筆者還補充了不少 3 門公開 課之外的強化學習相關知識。全書共 13 章, 大體上可分為 2 個部分: 第 1 部分 包括第 1 ∼ 3 章,介紹強化學習基礎知識以及傳統強化學習算法;第 2 部分包括

第 4 ∼ 13 章, 介紹深度強化學習算法以及常見問題的解決方法。第 2 部分各章 相對獨立,讀者可根據自己的興趣和時間情況選擇閱讀。

李宏毅老師是台灣大學副教授,其研究方向為機器學習、深度學習及語音識别 與理解。李宏毅老師的課程在國内很受歡迎, 很多人選擇的機器學習入門學習材料都是李宏毅老師的公開課視頻。李宏毅老師的“深度強化學習”課程幽默風趣, 他會通過很多有趣的例子來講解強化學習理論。比如李老師經常會用玩雅達利遊 戲的例子來講解強化學習算法。周博磊老師是 UCLA(University of California, Los Angeles,加利福尼亞大學洛杉矶分校)助理教授(原香港中文大學助理教授), 其研究方向為機器感知和智能決策, 在人工智能頂級會議和期刊發表了 50 餘篇 學術論文, 論文總引用數超過 1 萬次。周博磊老師的“強化學習綱要”課程理論 嚴謹、内容豐富, 全面地介紹了強化學習領域, 并且有相關的代碼實踐。李科澆 老師是飛槳強化學習 PARL 團隊核心成員,百度高級研發工程師,其所在團隊曾 兩度奪得 NeurIPS 強化學習賽事冠軍。李科澆老師的“百度強化學習”實戰性強, 通過大量的代碼來講解強化學習。經過筆者不完全統計, 本書所依托的 3 門公開 課的總播放量為 80 多萬,深受廣大初學者歡迎,3 位老師的課程均可在哔哩哔哩 (B 站)上進行觀看。讀者在觀看相關公開課的同時,可以使用本書作為教輔,進 一步深入理解公開課的内容。

本書在大部分章節的最後設置了原創的關鍵詞、習題和面試題來提高和鞏固 讀者對知識的清晰度和掌握程度。其中,關鍵詞部分總結了對應章節的重點概念, 方便讀者高效地回憶并掌握核心内容; 習題部分以問答的形式闡述了本章節中出 現的知識點,幫助讀者理清知識脈絡;面試題部分來源于大廠的算法崗面試真題, 通過還原最真實的面試場景和面試的問題, 幫助讀者開闊思路, 為讀者面試理想 的崗位助力。此外, 筆者以為, 強化學習是一個理論與實踐相結合的學科, 讀者 不僅要理解其算法背後的一些數學原理, 還要通過上機實踐來實現算法。本書配 有對應的 Python 代碼實現, 可以讓讀者通過動手實現各種經典的強化學習算法, 充分掌握強化學習算法的原理。本書經過近 1 年的更新叠代以及讀者對于我們開源版教程的上百次的反饋和交流,對您的學習和工作一定會是一個有利的加持。

本書包含什麼内容?

全書共13章,大體上可分為兩個部分:第一部分包括第1~3章,介紹強化學習基礎知識以及傳統強化學習算法;第二部分包括第4~13章,介紹深度強化學習算法及其常見問題的解決方法。第二部分各章相對獨立,讀者可根據自己的興趣和時間選擇性閱讀。

我是剛剛畢業的學生,想去“大廠”工作,本書是否有幫助?

本書習題部分以問答的形式闡述了相應章中出現的知識點,以幫助讀者理清知識脈絡;面試題部分的内容源于“大廠”的算法崗面試真題,通過還原真實的面試場景和面試問題,為讀者面試理想的崗位助力。

目錄

第 1 章緒論 1

1.1 強化學習概述 1

1.1.1 強化學習與監督學習 1

1.1.2 強化學習的例子 5

1.1.3 強化學習的曆史 7

1.1.4 強化學習的應用 8

1.2 序列決策概述 10

1.2.1 智能體和環境 10

1.2.2 獎勵 10

1.2.3 序列決策 10

1.3 動作空間 12

1.4 強化學習智能體的組成部分和類型 12

1.4.1 策略 13

1.4.2 價值函數 13

1.4.3 模型 14

1.4.4 強化學習智能體的類型 16

1.5 學習與規劃 19

1.6 探索和利用 20

1.7 強化學習實驗 22

1.7.1 Gym 23

1.7.2 MountainCar-v0 例子27

1.8 關鍵詞 30

1.9 習題 31

1.10 面試題 32

參考文獻 32

第 2 章馬爾可夫決策過程 33

2.1 馬爾可夫過程 34

2 | Easy RL:強化學習教程

2.1.1 馬爾可夫性質 34

2.1.2 馬爾可夫過程/馬爾可夫鍊 34

2.1.3 馬爾可夫過程的例子 35

2.2 馬爾可夫獎勵過程 36

2.2.1 回報與價值函數 36

2.2.2 貝爾曼方程 38

2.2.3 計算馬爾可夫獎勵過程價值的叠代算法 42

2.2.4 馬爾可夫獎勵過程的例子 43

2.3 馬爾可夫決策過程 44

2.3.1 馬爾可夫決策過程中的策略 44

2.3.2 馬爾可夫決策過程和馬爾可夫過程/馬爾可夫獎勵過程的區别 45

2.3.3 馬爾可夫決策過程中的價值函數 45

2.3.4 貝爾曼期望方程 46

2.3.5 備份圖47

2.3.6 策略評估 49

2.3.7 預測與控制 51

2.3.8 動态規劃 53

2.3.9 使用動态規劃進行策略評估 53

2.3.10 馬爾可夫決策過程控制 56

2.3.11 策略叠代 58

2.3.12 價值叠代 61

2.3.13 策略叠代與價值叠代的區别 63

2.3.14 馬爾可夫決策過程中的預測和控制總結 66

2.4 關鍵詞 67

2.5 習題 68

2.6 面試題 69

參考文獻 69

第3 章表格型方法 70

3.1 馬爾可夫決策過程 70

3.1.1 有模型71

3.1.2 免模型72

3.1.3 有模型與免模型的區别 73

3.2 Q 表格 73

3.3 免模型預測 77

3.3.1 蒙特卡洛方法 77

3.3.2 時序差分方法 80

3.3.3 動态規劃方法、蒙特卡洛方法以及時序差分方法的自舉和采樣 86

3.4 免模型控制 88

3.4.1 Sarsa:同策略時序差分控制 91

3.4.2 Q 學習:異策略時序差分控制 94

3.4.3 同策略與異策略的區别 97

3.5 使用Q 學習解決懸崖尋路問題 98

3.5.1 CliffWalking-v0 環境簡介 98

3.5.2 強化學習基本接口 100

3.5.3 Q 學習算法 102

3.5.4 結果分析 103

3.6 關鍵詞 104

3.7 習題105

3.8 面試題 105

參考文獻 105

第4 章策略梯度 106

4.1 策略梯度算法 106

4.2 策略梯度實現技巧 115

4.2.1 技巧1:添加基線 115

4.2.2 技巧2:分配合适的分數 117

4.3 REINFORCE:蒙特卡洛策略梯度 119

4.4 關鍵詞 125

4.5 習題125

4.6 面試題 125

參考文獻 126

第5 章近端策略優化 127

5.1 從同策略到異策略 127

5.2 近端策略優化 133

5.2.1 近端策略優化懲罰 134

4 | Easy RL:強化學習教程

5.2.2 近端策略優化裁剪 135

5.3 關鍵詞 138

5.4 習題139

5.5 面試題 139

參考文獻 139

第6 章深度Q 網絡 140

6.1 狀态價值函數 140

6.2 動作價值函數 145

6.3 目标網絡 150

6.4 探索152

6.5 經驗回放 154

6.6 深度Q 網絡算法總結156

6.7 關鍵詞 157

6.8 習題158

6.9 面試題 159

參考文獻 159

第7 章深度Q 網絡進階技巧 160

7.1 雙深度Q 網絡 160

7.2 競争深度Q 網絡 162

7.3 優先級經驗回放 165

7.4 在蒙特卡洛方法和時序差分方法中取得平衡 166

7.5 噪聲網絡 167

7.6 分布式Q 函數 168

7.7 彩虹170

7.8 使用深度Q 網絡解決推車杆問題 172

7.8.1 CartPole-v0 簡介 172

7.8.2 深度Q 網絡基本接口 173

7.8.3 回放緩沖區175

7.8.4 Q 網絡 175

7.8.5 深度Q 網絡算法 176

7.8.6 結果分析 178

7.9 關鍵詞 179

7.10 習題 180

7.11 面試題 180

參考文獻 180

第8 章針對連續動作的深度Q 網絡 181

8.1 方案1:對動作進行采樣182

8.2 方案2:梯度上升 182

8.3 方案3:設計網絡架構 182

8.4 方案4:不使用深度Q 網絡 183

8.5 習題184

第9 章演員-評論員算法 185

9.1 策略梯度回顧 185

9.2 深度Q 網絡回顧 186

9.3 演員-評論員算法 187

9.4 優勢演員-評論員算法 188

9.5 異步優勢演員-評論員算法 190

9.6 路徑衍生策略梯度 191

9.7 與生成對抗網絡的聯系 195

9.8 關鍵詞 196

9.9 習題196

9.10 面試題 196

第 10 章深度确定性策略梯度 197

10.1 離散動作與連續動作的區别 197

10.2 深度确定性策略梯度199

10.3 雙延遲深度确定性策略梯度 203

10.4 使用深度确定性策略梯度解決倒立擺問題 205

10.4.1 Pendulum-v1 簡介 205

10.4.2 深度确定性策略梯度基本接口 206

10.4.3 Ornstein-Uhlenbeck 噪聲 207

10.4.4 深度确定性策略梯度算法 208

10.4.5 結果分析209

10.5 關鍵詞 211

10.6 習題 211

10.7 面試題 211

參考文獻 211

第 11 章稀疏獎勵212

11.1 設計獎勵 212

11.2 好奇心 214

11.3 課程學習 216

11.4 分層強化學習 219

11.5 關鍵詞 221

11.6 習題 222

參考文獻 222

第 12 章模仿學習223

12.1 行為克隆 223

12.2 逆強化學習 226

12.3 第三人稱視角模仿學習 231

12.4 序列生成和聊天機器人 232

12.5 關鍵詞 233

12.6 習題 233

參考文獻 234

第 13 章AlphaStar 論文解讀 235

13.1 AlphaStar 以及背景簡介 235

13.2 AlphaStar 的模型輸入和輸出是什麼呢?——環境設計 235

13.2.1 狀态(網絡的輸入) 236

13.2.2 動作(網絡的輸出) 236

13.3 AlphaStar 的計算模型是什麼呢?——網絡結構 237

13.3.1 輸入部分237

13.3.2 中間過程239

13.3.3 輸出部分239

13.4 龐大的AlphaStar 如何訓練呢?——學習算法 240

13.4.1 監督學習240

13.4.2 強化學習241

13.4.3 模仿學習242

13.4.4 多智能體學習/自學習 243

13.5 AlphaStar 實驗結果如何呢?——實驗結果 243

13.5.1 宏觀結果243

13.5.2 其他實驗(消融實驗) 244

13.6 關于AlphaStar 的總結 245

參考文獻 245

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved