tft每日頭條

 > 生活

 > 讀懂強化學習核心思想

讀懂強化學習核心思想

生活 更新时间:2024-07-20 21:22:25
基本概念

先看差分的定義:

讀懂強化學習核心思想(讀懂強化學習核心思想)1

百度百科

差分表示一種差異,小區間上的增量,可以類比于函數中的導數,度量變化的一個指标。直覺上,當系統趨于穩定時,自變量的變化引起的函數值的變化趨近于0

在強化學習中,差分是指

讀懂強化學習核心思想(讀懂強化學習核心思想)2

我們希望它越小越好,使系統趨于穩定。

那時序又是指什麼? 在強化學習場景下,Agent不斷地與環境交互,産生數據,本身就是時序的,這是大背景。

時序差分還有更重要的特性:

讀懂強化學習核心思想(讀懂強化學習核心思想)3

時序的另一層含義是自舉(bootstrap)是基于時序的,自舉可以簡單地理解為真實分布采樣數據基礎之上,進行局部重采樣,以衡量真實分布采樣數據的感興趣的統計量特性(比如均值),自舉之後,方差更小

對于強化學習來說,局部的小序列使學習變得更簡單可行。基于時序的自舉示意圖如下,黑點代表原始數據,圓圈序列代表自舉之後的block:

讀懂強化學習核心思想(讀懂強化學習核心思想)4

Efron <An Introdution to the Bootstrap

block的大小也就對應于one-step, n-steps. 自舉之後的小序列用于評估期望獎賞(Expected Return),最終差分的形式如下:

讀懂強化學習核心思想(讀懂強化學習核心思想)5

我們的目标就是找到最好的θ,使差分趨近于0,從機器學習的角度,G是V(s)的Ground Truth/Label。 這個學習過程無需對p(|s,a)建模即Model-Free

TD(0)

one-step Temporal-Difference,過程如下:

讀懂強化學習核心思想(讀懂強化學習核心思想)6

one step 是針對Excepted Return的估計來說的,隻考慮當前Action的Reward,未來的Rewards由V近似。

以上是個示意流程,采用深度機器學習的話,會先采樣數據,然後批量梯度更新,最優化方法采用最小二乘法,其中G為Label。

n-step TD

讀懂強化學習核心思想(讀懂強化學習核心思想)7

可以參照時序自舉采樣的示意圖來理解, n越大,block的序列越長,G考慮的累計future rewards越長;采用深度學習批量梯度下降方法,更新方式與one-step一緻。

TD(λ)

讀懂強化學習核心思想(讀懂強化學習核心思想)8

λ-return是對n-step的G進行了加權平均,同時為了保證權重之和為1,乘以1-λ,可以通過對等比數列的求和公式求極限推導。

總結

時序差分學習是一種通過時序自舉(bootstrap)的方式采樣數據,通過最小化差分更新參數的一種model-free學習方法。根據Expected Return的不同近似方法,分為one-step、n-step、TD(λ)、蒙特卡洛方法等,參數更新形式可以統一起來:

讀懂強化學習核心思想(讀懂強化學習核心思想)9

以上英文圖片摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved