先看差分的定義:
百度百科
差分表示一種差異,小區間上的增量,可以類比于函數中的導數,度量變化的一個指标。直覺上,當系統趨于穩定時,自變量的變化引起的函數值的變化趨近于0。
在強化學習中,差分是指
我們希望它越小越好,使系統趨于穩定。
那時序又是指什麼? 在強化學習場景下,Agent不斷地與環境交互,産生數據,本身就是時序的,這是大背景。
時序差分還有更重要的特性:
時序的另一層含義是自舉(bootstrap)是基于時序的,自舉可以簡單地理解為真實分布采樣數據基礎之上,進行局部重采樣,以衡量真實分布采樣數據的感興趣的統計量特性(比如均值),自舉之後,方差更小。
對于強化學習來說,局部的小序列使學習變得更簡單可行。基于時序的自舉示意圖如下,黑點代表原始數據,圓圈序列代表自舉之後的block:
Efron <An Introdution to the Bootstrap
block的大小也就對應于one-step, n-steps. 自舉之後的小序列用于評估期望獎賞(Expected Return),最終差分的形式如下:
我們的目标就是找到最好的θ,使差分趨近于0,從機器學習的角度,G是V(s)的Ground Truth/Label。 這個學習過程無需對p(|s,a)建模即Model-Free。
TD(0)one-step Temporal-Difference,過程如下:
one step 是針對Excepted Return的估計來說的,隻考慮當前Action的Reward,未來的Rewards由V近似。
以上是個示意流程,采用深度機器學習的話,會先采樣數據,然後批量梯度更新,最優化方法采用最小二乘法,其中G為Label。
n-step TD
可以參照時序自舉采樣的示意圖來理解, n越大,block的序列越長,G考慮的累計future rewards越長;采用深度學習批量梯度下降方法,更新方式與one-step一緻。
TD(λ)
λ-return是對n-step的G進行了加權平均,同時為了保證權重之和為1,乘以1-λ,可以通過對等比數列的求和公式求極限推導。
總結時序差分學習是一種通過時序自舉(bootstrap)的方式采樣數據,通過最小化差分更新參數的一種model-free學習方法。根據Expected Return的不同近似方法,分為one-step、n-step、TD(λ)、蒙特卡洛方法等,參數更新形式可以統一起來:
以上英文圖片摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!