今天要說的博弈論是行為主義的第三階段,在博弈論中,行為主義的智能體是人的本身,關于智能體這一點與強化學習有所不同。博弈論中智能體要優于之前強化學習中的智能體,更接近人類
在行為主義我們主要研究智能體與環境交互,智能體根據環境反饋來更新自己進行學習。
什麼是博弈博弈的定義在生活中,我們或多或少都聽過博弈,那麼能不能回答一下你對博弈認識呢?好我們先從字面上理解一下**博弈**,其中的**博**,大家可能會聯想到賭博,而**弈**自然會想到對弈。- 賭博- 棋類遊戲- 競技遊戲- 運動其實今天我們讨論的博弈是獨立于運氣、技術的一種**策略**。很多情況下,更多時候靠策略取勝而不是技術,有的時候大家技術不相上下,難分伯仲時候策略就是成為主導比賽的主要原因。例如籃球中的擋拆戰術就是屬于博弈,或者比賽要結束時雙方比分相差不多時,落後方在比賽最後關頭,通通過犯規犯規戰術來赢得一次進攻機會來取得比賽最後勝利。**策略**是為了獲勝所需要的一種智力技巧。技術都差不多,大家都是考慮策略來赢得比賽。
策略博弈我們對照強化學習中策略,在強化學習中策略是從**狀态到行為映射函數**,而在博弈中策略是一種确定性策略,**策略**本質上涉及與他人的**相互影響**。其他人在同一時間、對同一情形也在進行類似思考。
博弈論就是分析這樣的交互式決策過程,是關于相互作用情況下的**理性行為**的科學,而強化學習是時序上決策過程。- 這裡交互式決策,不同于強化學習中的**時序決策**
理性行為明白自己的**目的**和**偏好**,同時了解自己行動的限制和約束,以精心策劃的方式選擇自己的最佳行為,可以理解自私人,參與博弈的人都是理性自私的人,其實我們都不是理性自私人,這樣假設是博弈論非常重要前提,如果對方不是理性的自私人,如果對手是大公無私,直接推出比賽讓出獎勵,那麼也就是談不上什麼博弈了,隻有這樣假設我們才能展開下面研究。- 理論是在公理上推出的,沒有得到驗證,得到驗證的理論就變成科學- 博弈論對理性行為為賦予的新的含義,與其他同樣具有理性的決策者進行相互作用(發籃球)
在博弈中真的總能獲勝嗎? 有必勝策略嗎?
估計答案你也已經猜到了,沒有必勝策略,使用合适的策略可以讓我們赢得比賽概率更大而已。例如玩剪刀、石頭和布,這就是博弈,沒有必勝策略。
博弈策略的分類靜态博弈和動态博弈
競争博弈和合作博弈
完全信息博弈和不完全信息博弈
博弈的要素
一般的博弈問題由三個要素所構成:即局中人(players)又稱當事人、參與者、策略等等的集合,策略(strategies)集合以及每一對局中人所做的選擇和赢得(payoffs)集合。 其中所謂赢得是指如果一個特定的策略關系被選擇,每一局中人所得到的效用。 所有的博弈問題都會遇到這三個要素
局中人(Players)什麼樣的人是博弈中局中人,簡單理解為參與博弈的人,但是需要滿足以下幾個條件,- 在博弈中不存在僥幸心理- 不可能利用其他局中人的失誤來擴展自己的收益- 以最大化個人利益為目的
策略集合(Strategies)
策略集合有點像強化學習集合,也就是局中人的行為的集合,每一個策略行為方案。在田忌賽馬中,田忌賽馬策略集合{上中下、上下中、下中上、下上中、中上下、中下上}
效用函數(Payoff)
局勢也就是局中人的策略組合是一個局勢,在一個局勢就可以判斷出誰赢誰loss- 對于每一個參與的博弈的局中人都有一個效應函數- 通常用 U 字母表示效用函數- 效用函數在靜态博弈中一般是局勢的函數- 在動态博弈中效用函數可能是局勢的函數,也可能還有其他因素,比如時間- 每個局中人的目的都是最大化自己的效用函數
經典示例通過下面幾個具有代表性經典博弈論小示例給大家介紹什麼是博弈中三要素,局中人、策略集合和效用函數
囚徒困境囚徒困境是博弈論中經典問題,有兩個囚徒有隐瞞未報的偷盜案件,在審問過程中每個囚徒可以選擇抗拒不承認或者坦白承認。局勢就是兩個囚徒給出自己策略算一個局勢,那麼根據排列組合有(抗拒,抗拒)、(坦白,抗拒)、(抗拒,坦白)和(坦白,坦白) 如果兩個人都抗拒不承認每人會判 1 年,如果兩個人都坦白每個人會被判 3 年,如果一方坦白另一方抗拒,抗拒判 10 年而坦白會被釋放局中人:兩個囚徒
策略(抗拒 - 坦白)
效用函數矩陣
性别之戰夫妻兩個人看電視,妻子喜歡看舞蹈(換成韓劇也行),而丈夫喜歡看足球。如何兩個達成協議都看舞蹈或者足球,兩個人都會有回報,而沒有達成一緻則雙方收益都為 0。
局中人 夫妻雙方
策略 (看足球,看舞蹈)
剪刀、石頭和布(Rock-paper-scissors)
局中人 - 兩個玩家
策略 (石頭、剪刀和布)
效用函數
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!