讀懂強化學習核心思想-tft每日頭條

讀懂強化學習核心思想

生活更新时间:2025-07-17 23:16:55

基本概念

先看差分的定義：

讀懂強化學習核心思想（讀懂強化學習核心思想）1

百度百科

差分表示一種差異，小區間上的增量，可以類比于函數中的導數，度量變化的一個指标。直覺上，當系統趨于穩定時，自變量的變化引起的函數值的變化趨近于0。

在強化學習中，差分是指

讀懂強化學習核心思想（讀懂強化學習核心思想）2

我們希望它越小越好，使系統趨于穩定。

那時序又是指什麼？在強化學習場景下，Agent不斷地與環境交互，産生數據，本身就是時序的，這是大背景。

時序差分還有更重要的特性：

讀懂強化學習核心思想（讀懂強化學習核心思想）3

時序的另一層含義是自舉(bootstrap)是基于時序的，自舉可以簡單地理解為真實分布采樣數據基礎之上，進行局部重采樣，以衡量真實分布采樣數據的感興趣的統計量特性(比如均值)，自舉之後，方差更小。

對于強化學習來說，局部的小序列使學習變得更簡單可行。基于時序的自舉示意圖如下，黑點代表原始數據，圓圈序列代表自舉之後的block:

讀懂強化學習核心思想（讀懂強化學習核心思想）4

Efron <An Introdution to the Bootstrap

block的大小也就對應于one-step, n-steps. 自舉之後的小序列用于評估期望獎賞(Expected Return)，最終差分的形式如下：

讀懂強化學習核心思想（讀懂強化學習核心思想）5

我們的目标就是找到最好的θ，使差分趨近于0，從機器學習的角度，G是V(s)的Ground Truth/Label。這個學習過程無需對p(|s,a)建模即Model-Free。

TD(0)

one-step Temporal-Difference，過程如下：

讀懂強化學習核心思想（讀懂強化學習核心思想）6

one step 是針對Excepted Return的估計來說的，隻考慮當前Action的Reward，未來的Rewards由V近似。

以上是個示意流程，采用深度機器學習的話，會先采樣數據，然後批量梯度更新，最優化方法采用最小二乘法，其中G為Label。

n-step TD

讀懂強化學習核心思想（讀懂強化學習核心思想）7

可以參照時序自舉采樣的示意圖來理解， n越大，block的序列越長，G考慮的累計future rewards越長；采用深度學習批量梯度下降方法，更新方式與one-step一緻。

TD(λ)

讀懂強化學習核心思想（讀懂強化學習核心思想）8

λ-return是對n-step的G進行了加權平均，同時為了保證權重之和為1，乘以1-λ，可以通過對等比數列的求和公式求極限推導。

總結

時序差分學習是一種通過時序自舉(bootstrap)的方式采樣數據，通過最小化差分更新參數的一種model-free學習方法。根據Expected Return的不同近似方法，分為one-step、n-step、TD(λ)、蒙特卡洛方法等，參數更新形式可以統一起來：

讀懂強化學習核心思想（讀懂強化學習核心思想）9

以上英文圖片摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活磁場是真實存在的嗎
1、磁場是真實存在的。人體的細胞中存在許多帶電離子（鉀離子、鈉離子、氯離子等），鉀離子在細胞内，鈉離... 2023-07-05
生活蛙泳蹬腿怎麼練
1、初步練習，雙手扶池邊，做漂浮動作練習收腿。2、收腿的動作是膝蓋朝向身體兩側，屈膝收腿，将腿收到和髋關節平行（根據個人的柔韌性）并勾腳尖，沖向身體側後方準備蹬夾動作。3、當收腿勾腳尖動作完成時，大腿發力，向身體的側後方用力蹬水和夾水（力量不要過猛），完成後兩腿并攏。重複多次練習。 2023-07-05
生活戶外拓展運動項目有哪些
1、空中項目：滑翔（有動力、無動力）、熱氣球、跳傘等。2、水上項目：漂流、紮筏、泅渡等。3、陸上項目... 2023-07-05
生活 2019緬甸旅遊目前危險嗎
1、緬甸是一個與我國相鄰的古老國家，這個國家處于中南半島的西部，同時也位于我國的西藏高原與馬來半島之間，除了與我國接壤，也和老撾，以及泰國，還有孟加拉國和印度相鄰，是東南亞地區一個備受遊客歡迎的國家。2、其實任何一個境外的國家，都沒有完全意義上的安全，某些地方局部發生混亂也是在所難免的。緬甸的暴亂并... 2023-07-05
生活吃貨口号簡短
1、如果你認為吃是吃貨人生的全部，那就錯了，還有睡！2、我有一個夢想，夢想有一天，全世界所有的飯店都... 2023-07-05
生活蜜汁烤排骨做法是什麼
1、排骨剁成小段，用冷水浸泡半小時，泡出血水。2、蔥姜切成絲，放到排骨裡，加2勺黃豆醬攪拌均勻。3、放入蜂蜜、生抽、老抽、蚝油攪拌均勻，确保每一塊排骨上都沾滿了醬料，蓋上保鮮膜放入冰箱腌制2小時以上。4、大蒜去皮打成蒜蓉，把排骨放到鋪了錫紙的炸籃中撒上蒜蓉。5、最後放入空氣炸鍋，180度烤18分鐘即... 2023-07-05
生活自行車平衡原理
1、無論是人騎行的情況，還是無人狀态下的自行車，對平衡保持最為關鍵的就是車把的轉角。車把的轉動會導緻... 2023-07-05
生活天冷皮膚保養小妙招
1、外出前，應在外露的皮膚上塗些油性潤膚膏，尤其在嘴唇部位使用護唇膏。2、減少用熱水洗臉的次數，每天... 2023-07-05
生活男生qq冷酷昵稱
1、耀，不動聲色的變好。2、後會無期3、不歸徒4、無所謂的魅惑5、輕似夢6、愛我的人會發光i7、執念... 2023-07-05
生活養兔子發抖怎麼辦
第一、如果你的兔子是剛剛才購買回家了的話，那麼兔子發抖就可能是對新環境的陌生，稍微熟悉一段時間就不會發抖了。第二、如果天氣比較冷的時候，兔子也是會發抖的，這個時候要給兔子進行适當保溫措施，不要長期在低溫環境下。第三、如果兔子感冒了的話，也是會發抖的，兔子感冒之後體溫一般都是在39.5℃左右，并且還可... 2023-07-05
生活認識自我的方法
1、從生理上認識自我：充分認識到自己的身體特征和生理狀況，了解每一個成長階段身體需要發生的變化和特征... 2023-07-05
生活 999跟9999黃金有什麼區别
含金量不同：足金9999是含金量大于等于999.9‰，在黃金飾品、金條上出現的印記是“Au9999”或“足金9999”；足金999是含金量大于等于999.0‰的稱為足金999，是首飾成色命名中的最高值，印記為“足... 2023-07-05
生活鹦鹉魚魚缸怎麼造景
1、所用材料：90*45超白缸，三面觀賞；日勝90厘米燈管（一紅一白）；AT加熱棒200瓦，AT10... 2023-07-05
生活拼多多步數如何和微信步數同步
1、在拼多多裡面授權步數給手機就可以了。2、拼多多是國内移動互聯網的主流電子商務應用産品。專注于C2... 2023-07-05
生活紅綠燈規則
1、十字路口是圓盤紅綠燈時，綠燈亮時，準許車輛通行，但轉彎的車輛不得妨礙被放行的直行車輛、行人通行；... 2023-07-05
生活毛孔粗該怎麼做
1、定期給皮膚去角質皮膚每天都在進行新陳代謝，代謝出來的角質會不斷積聚，慢慢地就會使皮膚變得粗糙，毛... 2023-07-05
生活辭職後社保怎麼辦
1、首先需要做的就是結算個人賬戶。繳納的社保當中養老、醫療保險有個人賬戶，而失業、工傷、生育保障是沒有個人賬戶的。那麼，我們在離職的時候，需要到公司的人事部門簽訂勞務終止合同，然後去相關的機構領取之前社保憑證，它能夠證明你之前公司給你參加過社保。未找到新工作，又不想繼續繳納社保，這時可以讓社保先中斷... 2023-07-05
生活如何去微博水印
1、打開微博，進入【我】，點擊右上角【設置】。2、點擊【客服中心】。3、點擊上方搜索框。4、點擊【設... 2023-07-05
生活瘦肉放冰箱保鮮可以放多久
瘦肉放冰箱保鮮可以放2—3天。存放的時候用保鮮膜包好，以免水分流失，如果是放在冰箱冷凍，保存時間最長為6個月，用袋子裝好存放，以免脫水。随着儲存時間的延長，豬肉的營養會流失，而且口感變差，另外在儲存過程中，還會産生一種名為李斯特菌的＂嗜冷菌＂，如果冷凍時間過長，不适合再食用。冷凍過程中經常打開冰箱對肉的保質期也有影響。營養價值各種瘦肉所含營養成分相近且較肥肉易于消化。約含蛋白質20%，脂肪1—15 2023-07-05
生活捕蠅草用什麼土養，好養嗎?
1、水苔粉：捕蠅草對基質的請求很高，平日來講，是不可以用通俗的花土來養的。養它的時分，比拟引薦運用水... 2023-07-05
生活華為nova5por清理一下怎麼沒聲...
1、插入Type-C數字耳機，耳機輸出無聲且作為輸入設備也無效。當手機用戶在設置中打“關閉USB音頻... 2023-07-05
生活寶寶英文名女孩
1、【Susan】蘇珊——來源：希伯來高貴的百合玫瑰或百合。2、【Ella】艾拉——古式英語帶有“小... 2023-07-05
生活百度網盤不小心删掉的文件為什麼回收站...
1、如果不是系統出了差錯，肯定是文件已經删除超過10天了，自動從回收站裡删除了。回收站在網盤個人中心... 2023-07-05
生活絞肉機不轉了怎麼解決
1、查看刀片是否裝反：有的絞肉機有保護機制，如果刀片裝反了，機器就會啟動自我保護，就不會轉動，正确安... 2023-07-05
生活清洗茶水杯方法
1、工具：食鹽、白醋、牙膏、柚子皮、小蘇打2、先把被子沖洗一下，然後取一勺食用鹽，用手在有茶漬的地方... 2023-07-05
生活樂視手機沒電了沒有充電器怎麼充電
1、可以使用充電寶或者外挂電池對手機充電。2、向别人借充電器，找到有插座的地方充電。3、實在是有急事... 2023-07-05
生活分居一年可以起訴離婚嗎
1、離婚有兩種方式：登記離婚和起訴離婚。2、登記離婚是去婚姻登記機關登記離婚，此種方式需雙方協商一緻同意。3、起訴離婚是去法院起訴離婚。如果就離婚意願、财産債務、子女撫養等問題有協商不一緻的，則必須去法院起訴離婚。4、起訴需提交民事起訴狀，還要提供相應的證據，比如：身份證、結婚證、财産方面的材料銀行... 2023-07-05
生活高考平行志願是怎麼錄取志願的
1、平行志願投檔模式是指在錄取過程中，根據“分數優先、遵循志願”的原則，允許考生填報若幹個平行但有順... 2023-07-05
生活柿子要怎麼保存
1、放在通風陰涼處如果買來的柿子估計1－2天内會吃掉，那麼隻要把柿子放到通風、不受日照的陰涼處就行。... 2023-07-05
生活光葉子花的寓意
1、光葉子花寓意着淡淡的悲傷，花瓣呈金黃的顔色，這是代表秋季特有的色彩，其中不僅僅包含着收獲的滿足和... 2023-07-05

tft每日頭條

> 生活

> 讀懂強化學習核心思想

讀懂強化學習核心思想

相关生活资讯推荐

热门生活资讯推荐

网友关注