強化學習是什麼算法-tft每日頭條

強化學習是什麼算法

生活更新时间:2026-06-19 09:20:56

原作：Thomas Simonini

牆化栗子編譯自 FreeCodeCamp

量子位出品 | 公衆号 QbitAI

強化學習是機器學習裡面非常重要的一個派别。智能體 (agent) 會不斷執行一些操作，通過結果來學習，在不同的環境中分别應該采取怎樣的行動。

在一系列教學文章裡，我們可以了解不同的架構，來解決強化學習的問題。Q學習，深度Q網絡 (DQN) ，策略梯度 (Policy Gradients) ，演員-評論家 (Actor-Critic) ，以及近端策略優化 (PPO) 都是将要涉及的算法。

這是本系列的第一篇文章，你可以抓住的重點有：

· 什麼是強化學習，以及為什麼獎勵最重要

· 強化學習的三種方式

· 深度強化學習的“深度”是什麼意思

其實，這樣的學習過程和我們自然的經曆非常相似。想象自己是個小孩子，第一次看到了火，然後走到了火邊。

你感受到了溫暖。火是個好東西 ( 1) 。

然後就試着去摸。卧槽，這麼燙 (-1) 。

結論是，在稍遠的地方火是好的，靠得太近就不好。

這就是人類學習的方式，與環境交互。強化學習也是一樣的道理，隻是主角換成了計算機。

比如，智能體要學着玩超級馬裡奧。強化學習過程可以用一個循環 (loop) 來表示：

· 智能體在環境 (超級馬裡奧) 裡獲得初始狀态S0 (遊戲的第一幀) ；

· 在state 0的基礎上，agent會做出第一個行動A0 (如向右走) ；

· 環境變化，獲得新的狀态S1 (A0發生後的某一幀) ；

· 環境給出了第一個獎勵R1 (沒死： 1) ；

于是，這個loop輸出的就是一個由狀态、獎勵和行動組成的序列。

而智能體的目标就是讓預期累積獎勵最大化。
獎勵假說為根基
問題來了，目标為什麼是預期累積獎勵最大化？

因為，強化學習原本就是建立在獎勵假說的基礎之上。想表現好，就要多拿獎勵。

每一個時間步 (time step) 的累積獎勵都可以表示為：

或者

不過，我們沒有辦法把獎勵直接相加。因為遊戲裡，越接近遊戲開始處的獎勵，就越容易獲得；而随着遊戲的進行，後面的獎勵就沒有那麼容易拿到了。

把智能體想成一隻小老鼠，對手是隻貓。它的目标就是在被貓吃掉之前，吃到最多的奶酪。

就像圖中，離老鼠最近的奶酪很容易吃，而從貓眼皮底下順奶酪就難了。離貓越近，就越危險。

結果就是，從貓身旁獲取的獎勵會打折扣，吃到的可能性小，就算奶酪放得很密集也沒用。

那麼，這個折扣要怎麼算呢？

我們用γ表示折扣率，在0和1之間。

· γ越大，折扣越小。表示智能體越在意長期的獎勵 (貓邊上的奶酪) 。

· γ越小，折扣越大。表示智能體越在意短期的獎勵 (鼠邊上的奶酪) 。

這樣，累積獎勵表示出來就是：

簡單來說，離貓近一步，就乘上一個γ，表示獎勵越難獲得。
片段性任務還是連續性任務
強化學習裡的任務分兩種。

片段性任務 (Episodic Tasks)

這類任務，有個起點，有個終點。兩者之間有一堆狀态，一堆行動，一堆獎勵，和一堆新的狀态，它們共同構成了一“集”。

當一集結束，也就是到達終止狀态的時候，智能體會看一下獎勵累積了多少，以此評估自己的表現。

然後，它就帶着之前的經驗開始一局新遊戲。這一次，智能體做決定的依據會充分一些。

以貓鼠迷宮為例的一集：

· 永遠從同一個起點開始

· 如果被貓吃掉或者走了超過20步，則遊戲結束

· 結束時，得到一系列狀态、行動、獎勵和新狀态

· 算出獎勵的總和 (看看表現如何)

· 更有經驗地開始新遊戲

集數越多，智能體的表現會越好。

連續性任務 (Continuing Tasks)

永遠不會有遊戲結束的時候。智能體要學習如何選擇最佳的行動，和環境進行實時交互。就像自動駕駛汽車，并沒有過關拔旗子的事。

這樣的任務是通過時間差分學習 (Temporal Difference Learning) 來訓練的。每一個時間步，都會有總結學習，等不到一集結束再分析結果。
探索和開發之間的權衡
在讨論強化學習的幾種方法之前，必須講到這件事。

· 探索 (Exploration) 是找到關于環境的更多信息。

· 開發 (Exploitation) 是利用已知信息來得到最多的獎勵。

要記住，目标是将預期累積獎勵最大化。正因如此，它有時候會陷入一種困境。

小老鼠可以吃到無窮多塊分散的奶酪 (每塊 1) 。但在迷宮上方，有許多堆在起的奶酪( 1000) ，或者看成巨型奶酪。

如果我們隻關心吃了多少，小老鼠就永遠不會去找那些大奶酪。它隻會在安全的地方一塊一塊地吃，這樣獎勵累積比較慢，但它不在乎。

如果它跑去遠的地方，也許就會發現大獎的存在，但也有可能發生危險。

程序猿需要設定一種規則，讓智能體能夠把握二者之間的平衡。
強化學習的三種方法
前菜吃完了，我們終于要開始講解決強化學習問題的方法了。三種方法分别是：基于價值（value-based）、基于策略（policy-based）以及基于模型（model-based）的方法。

基于價值 (Value-Based)

這種方法，目标是優化價值函數V(s)。

價值函數會告訴我們，智能體在每個狀态裡得出的未來獎勵最大預期 (maximum expected future reward) 。

一個狀态下的函數值，是智能體可以預期的未來獎勵積累總值，從當前狀态開始算。

智能體要用這個價值函數來決定，每一步要選擇哪個行動。它會采取函數值 (就是Q值) 最大的那個行動。

在迷宮問題中，每一步我們都選取最大函數值：-7，-6，-5，以此類推，達到目标。

基于策略 (Policy-Based)

這種方式，會直接優化策略函數π(s)，抛棄價值函數。

策略就是評判智能體在特定時間點的表現。

把每一個狀态和它所對應的最佳行動建立聯系。

策略分為兩種，

· 确定性策略：某一個特定狀态下的策略，永遠都會給出同樣的行動。

· 随機性策略：策略給出的是多種行動的可能性分布。

從圖中我們可以看到，策略直接指出了每一步的最佳行動。

基于模型 (Model-Based)

這種方法是對環境建模。這表示，我們要創建一個模型，來表示環境的行為。

問題是，每個環境都會需要一個不同的模型 (馬裡奧每走一步，都會有一個新環境) 。這也是這個方法在強化學習中并不太常用的原因。
深度強化學習
所謂深度強化學習，就是在強化學習裡，加入深度神經網絡。

如圖，拿Q學習和深度Q網絡 (DQN) 來舉例。

· Q學習，是利用一個傳統算法創建Q-table，來幫助智能體找到下一步要采取的行動。

· DQN，是利用深度神經網絡來近似Q值。

恭喜你讀到現在。這第一篇文章的信息量還是不小的。

△ 根本停不下來

有興趣的同學，可以堅持服用一療程。

這裡是本系列大綱的傳送門：

https://simoninithomas.github.io/Deep_reinforcement_learning_Course/

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公衆号(QbitAI)對話界面，回複“招聘”兩個字。

量子位 QbitAI · 頭條号簽約作者

վ'ᴗ' ի 追蹤AI技術和産品新動态
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活被辣椒水噴眼睛怎麼辦
1、如果辣椒水進到眼睛，緊急處理的辦法是用流動的自來水沖洗，沖洗的時間要稍微長點，或者把患者送到醫院... 2023-06-28
生活北方的蟑螂會飛嗎
2023-06-28
生活荸荠煮多久殺死寄生蟲
1、荸荠煮10分鐘可以殺死寄生蟲。2、寄生蟲的主要成分是蛋白質和水分，不耐高溫，很容易煮熟，蛋白質在... 2023-06-28
生活碳循環減肥方法4天
1、低碳日早餐:雞蛋2個，無糖或低糖酸奶1盒，午餐:去皮雞腿2個，娃娃菜配蘸料吃到飽，晚餐:清蒸鲈魚... 2023-06-28
生活甲魚煲湯放什麼材料
1、材料：甲魚1隻，大王鴿1隻，黑木耳少許；蔥、姜、料酒、清湯、鹽、胡椒粉各少許。2、做法：甲魚洗淨... 2023-06-28
生活薄荷糖是什麼意思
1、薄荷糖是以白砂糖、薄荷為原料,調配而成的一種糖果。2、薄荷,土名叫“銀丹草”,為唇形科植物,即同... 2023-06-28
生活怎麼存放楊桃
1、常溫下：楊桃在常溫下，它會迅速的變軟、失水、腐爛，所以我們采摘下楊桃後，一定要及時的儲存，防止變... 2023-06-28
生活全棉時代是哪裡生産的
1、全棉時代是在深圳生産的。2、全棉時代是指深圳全棉時代科技有限公司是穩健醫療集團的子公司，全棉時代... 2023-06-28
生活冬季面試怎麼穿
1、技巧一：大衣+修身版長褲+短靴經典的雙排扣紅色呢子大衣，高腰線的設計，非常顯高。大口袋，小圓領更... 2023-06-28
生活飛利浦投屏設置在哪裡
1、飛利浦投屏設置在設置這個模塊裡，投屏有兩種方法，具體詳情如下：在電視設置中找到【投屏】功能，開啟... 2023-06-28
生活過期蚊香點燃會有毒嗎
2023-06-28
生活瓷磚美縫價格計算方式有哪些2022年...
2023-06-28
生活燙衣服的機器叫什麼
2023-06-28
生活 12329人工時間
2023-06-28
生活腳鐐屬于什麼警械
2023-06-28
生活地鐵不能帶什麼
1、菜刀、砍刀、美工刀等刀具，錘、斧、錐、鏟、鍬、鎬等工具，矛、劍、戟等,以及其他可造成人身被刺傷、... 2023-06-28
生活好聽的微信昵稱男生霸氣
1、傲氣逼人2、路還長别太狂3、請注意你的素質4、很酷很霸氣5、别講道理砍他6、爺′狠潇灑7、冷劍狂... 2023-06-28
生活虎皮蘭的扡插方法
1、首先扡插時要選取比較健壯的葉片。2、當然選取的葉片最好是老一些的葉片。3、把剪刀或者刀片進行消毒... 2023-06-28
生活香奈兒香水5号有幾款香奈兒5号香水的...
2023-06-28
生活牛犢喂養方法和技巧
1、牛犢出生時，一定要注意保證牛犢呼吸順暢，應立即用幹抹布将口鼻黏液擦淨，使小牛呼吸順暢，然後再擦幹... 2023-06-28
生活可燃粉塵有哪些
2023-06-28
生活簡單方法自制火柴
1、首先我們要準備質量好的火柴，蠟燭，和紙。2、點燃蠟燭将蠟燭油滴在紙上。3、用蠟燭将紙上的蠟燭塗抹... 2023-06-28
生活地暖進水涼回水熱怎麼辦
1、初次使用或長期未使用。地暖不熱的原因：地暖初次使用或長期未使用時水溫較低，加熱升溫緩慢，外界氣溫... 2023-06-28
生活草酸能除鏽嗎
2023-06-28
生活凡爾賽尾款人是什麼意思
1、通過付尾款這件事情，用反向的表述不經意透露出自己高貴、奢華的生活。2、例如：一想到還要付2億的尾... 2023-06-28
生活開機網卡自動禁用怎麼解決
1、鼠标點擊我的電腦圖标，然後選擇右鍵選擇屬性。2、再打開的屬性欄中，選擇其中的-設備管理器。3、在... 2023-06-28
生活怎麼在蘋果平闆上玩電腦闆我的世界
1、因為蘋果系統是需要專用的AppStore商店下載應用的，所以我們需要打開iPad上的AppSto... 2023-06-28
生活五岔路口怎麼看紅綠燈
2023-06-28
生活戒除網瘾最實用的方法
1、首先，要做的就是修複家長和孩子的親子關系。相當一部分網瘾孩子，和他們的家長關系非常的惡化，相互的... 2023-06-28
生活怎麼申請面試成績審核
1、從2019下半年各省發布的教師資格面試考試公告當中的内容來看，考生若對成績有異議，可以申請成績複... 2023-06-28

tft每日頭條

> 生活

> 強化學習是什麼算法

強化學習是什麼算法

相关生活资讯推荐

热门生活资讯推荐

网友关注