博弈論經典案例解讀?曉書童将常年相伴在您左右,最近降溫得厲害,同學們注意保暖,保重身體.,今天小編就來說說關于博弈論經典案例解讀?下面更多詳細答案一起來看看吧!
曉書童将常年相伴在您左右,最近降溫得厲害,同學們注意保暖,保重身體.
我們正在解讀《博弈論與生活》,作者蘭·費雪。
不可能的合作
這是我們聊博弈論的最後一期節目,從一個故事開始。
話說,1914年第一次世界大戰爆發,因為有了機槍的出現,在西線戰場雙方陷入了持久的塹壕戰。兩邊挖了戰壕,把前方的樹全部砍光,留下一片開闊地帶。如果誰敢發起沖鋒,面對架好的機槍,基本就是排着隊去接受槍決,所以雙方就這麼僵持着。
奇怪的是,等到這一年聖誕節的時候,雙方士兵不但不再交火,而且自發的一起搞上了聯歡會。兩邊相互問候着新年好,走出戰壕一起唱聖誕歌,甚至還組織起了一場足球比賽。這兩國之間這可是在打仗啊,而士兵之間竟然手拉着手辦起春節聯歡晚會?
這一點都不合情,但在當時的情況下确實非常的合理。
兩軍都躲在深深的戰壕裡,無法消滅對方,長時間僵持不下,情況慢慢的出現了微妙的變化。一開始是到了開飯的時間,後勤人員要來送飯,對方是可以看到對面炊事班開車來送飯的。這個時候如果開炮攻擊是可以将其消滅,但是如果你砸了對面的飯碗,那你自己還要不要吃飯?人家也可以開炮打翻你的外賣。這樣一來大家可都要餓肚子,于是這就達成了默契,我不砸你的飯碗,你也别搞我的外賣。
“我活也讓你活”,一種特殊的合作策略出現了。
到了開飯時間就停火,炊事班的人也不用悄悄摸摸的,大搖大擺,有說有笑地來送飯。還有天氣惡劣的時候,戰壕裡陰冷潮濕,雙方士兵都遭罪,漸漸又約定俗成,天氣惡劣不打。接下來就是節假日不打,周末也不打。于是就出現了剛才我們說的一幕,大過年的兩邊從戰壕裡跑出來搞聯歡。
最後默契到什麼程度,雙方會隻在固定時間朝着對方陣營開槍射擊,每天射擊的時間準确到可以用槍聲來對表。
有一位英國士兵後來回憶說:一次自己正在和戰友曬太陽喝茶,突然聽到一陣槍炮聲。大家都很憤怒,因為按照默契約定,這個時間點是不應該開火的,對面德國佬是怎麼回事兒?這時候對面戰壕裡爬出來一個人對着這邊高喊:“不好意思,走火啦!希望沒傷到你們!”
在最不可能出現的合作的戰争雙方,竟然能夠達成這樣的合作。
阿克塞爾羅德遊戲
這個案例來自一本博弈論的必讀經典《合作的進化》,作者是羅伯特·阿克塞爾羅德。在書中,作者介紹了自己的一個實驗,尋找在重複博弈當中,什麼樣的行動策略才能才是最優的。
他用囚徒困境的規則,模拟了一個電腦遊戲。如果雙方合作,各得三分,如果相互背叛,各得一分,如果一方合作,另一方背叛。那選擇合作的0分,背叛者得5分。可見雙方都背叛收益很少,雙方都合作收益一般,而背叛遇到合作,背叛者收益最高。遊戲參與者根據自己的利益計算決定是選擇背叛還是選擇合作。
阿克塞爾羅德邀請了15位精通博弈論的專家,這些人有數學家、心理學家、經濟學家等等,據說還有美國的前國務卿基辛格。受邀者把自己的博弈策略編寫成電腦程序,參與到遊戲中來。
這些策略中有好人策略,也就是更願意合作,不首先背叛。當然也有壞人策略,總是琢磨着通過背叛獲得更多的利益。這15個策略在經過了5輪一對一的循環賽,也就是一共12萬個回合的大混戰之後,最後的結果,連阿克塞爾羅德自己都不敢相信。好人大獲全勝,前八名清一色都是好人策略,這樣的結果簡直就如童話故事一樣美好。
奪得冠軍的策略叫做“一報還一報”,它的原則非常簡單。第一次我都選擇合作。然後就是以牙還牙,你合作我就合作,你背叛我就背叛,完全複制對手在上一輪的行動。
阿克塞爾羅德不敢相信這個結果,于是又組織了一次比賽,這次參賽策略擴大到了62個,而且參賽者是知道上一次比賽的結果的,可以根據之前的經驗調整這一輪的參賽策略。經過了上百萬回合的大混戰,結果依然如此,好人策略壓倒性的獲得了優勢。而且奪得第一名的仍然是“一報還一報”。
一報還一報
這個策略看起來簡單粗暴,卻有這麼幾點高明之處。
首先是善良,不作惡。雖然他不主動背叛,但他又不好欺負,如果你背叛了他,那麼他下次就一定會背叛你。但同時,他又是寬容的,就算你之前背叛過,但隻要改過自新選擇合作,他也依然願意友好合作。最後,很重要的一點就是他模式簡單清晰, 别人一眼便知,明确地知道,在他身上占不到長期的便宜。
因此,善良、報複、寬容和清晰就是“一報還一報”策略能夠連續勝出的原因。
而依據這四條,給我們的生活帶來了啟示。
首先,生活中的博弈并非是下棋打牌這樣的零和博弈,獲勝的關鍵不在于戰勝對方,而是要在長期反複的合作中實現共赢,眼前的得失并不用太在意,因為并沒有那麼重要。
我們看“一報還一報”的策略就決定了他在遊戲裡的單個回合中,合作隻能和對手拿一樣多,或者遭遇背叛什麼都得不到。但是反複博弈之後,它積累下來的分數卻是最多的,真正的利益來自于長期的合作共赢。
在阿克塞爾羅德的遊戲中,好人策略大獲全勝,善良,不作惡很明顯是一個優勢策略。
其次,報複。别人合作我們就合作,如果别人背叛,我們當然也要用背叛予以反擊。被别人當成一個軟柿子,有事兒沒事兒就來捏你一下,這肯定不行。
學生問孔子說:“以德報怨,何如?”孔子回答:“以德報怨,何以報德?”所以我們就是應該以德報德,以直報怨。
但以直報怨不是說你是惡人,我就要成為一個比你還惡的人,你背叛了我一次,我一輩子都不與你合作。以直報怨不是冤冤相報,我們還必須有足夠的寬容,如果在背叛之後再次選擇合作,那我們就選擇原諒。
最後一點是清晰,簡單。
在阿克塞爾羅德遊戲的第一輪結束之後,不少人覺得“一報還一報”策略雖然勝出了,但不完美,因此在第二輪的時候做出了改進,用改進版的“一報還一報”策略參加遊戲,但誰也沒想到這些進化版都不如自己原始的老祖宗。這是為什麼?
因為規則越複雜,漏洞就可能越多。更重要的是我們玩的不是零和博弈,在零和博弈中,自己的策略隐藏的越深,就越容易獲勝。在阿克塞爾羅德遊戲和真實世界中是正和博弈,策略越是簡單,越是能讓别人看明白,放心與我們建立起穩固的合作關系,我們才更有可能成功。
這就是一報還一報策略給我們帶來的重要啟示,善良、報複、寬容、清晰。
簡單的好人
雖然好人大獲全勝的大團圓結局是我們期望看到的,但這也隻是對真實世界的一個好美揣測而已。
《合作的進化》作者認為,如果這個遊戲不斷的繼續進行下去,并且引入淘汰機制,好人不斷的赢,壞人不斷的輸,進而好人之間的合作越來越穩固,壞人越發的沒有可趁之機。那麼在遊戲進行1000論,也就是進化1000代之後,壞人策略就将徹底滅絕。從這個遊戲推演到人類社會,合作一旦建立起來,優勝劣汰的機制開始發揮作用,如果好人都可以在競争當中勝出,那麼人人都會争當好人,久而久之,壞人自然就消失了。這就是一個物競天擇,進化淘汰的不可逆過程。
但這個推論顯然是與現實情況不符的,人類文明誕生至今,不僅壞人沒有滅絕。甚至現在我們都沒法說到底是好人多還是壞人多。
為什麼?因為這個遊戲存在一些與現世不符的地方,比方說遠遠低估了壞人的殺傷力,遊戲中的背叛并不能讓對方徹底出局,每個人都有東山再起的機會。這就等于是讓好人自帶主角光環,而現實中呢?有多少人經受了背叛的緻命一擊以後,就再也沒有站起來過。
比方說遊戲中的背叛與合作都是放在台邊上,一目了然,可是現實中卻有多少兩面三刀僞君子。一報還一報,怎麼報?我們甚至都完全不知道到底是被誰背叛了。當好人因背叛而出局,而壞人的劣迹沒有被發現的時候,就會起到示範作用,讓很多好人都轉向壞人策略。
還有,回到文明伊始的自然狀态,那是一個一切人對一切人戰争的時代,人人都是壞人。彼此背叛其實占不到多大的便宜。這個時候有一些願意合作的人出現,抱團取暖,獲得穩定的收益,當然是比壞人策略更具優勢。
可是當好人越來越多,壞人越來越少,那壞人遇到壞人的概率就變小了,遇到好人的概率很高,那麼單方面背叛就很容易獲利,因此就有越來越多的人轉向壞人策略。所以社會合作的真實演化并非是壞人向好人的單向演化,而是一個雙向演化,不斷尋找動态平衡的過程。
在真實的世界中,永遠都不存在一勞永逸的策略,這是我們應該看到,也必須接受的。采用什麼樣的行動策略,是我們每個人由心而生的選擇,每一次的行動就決定了我最終将成為一個什麼樣的人。
每個人始終都是孤獨的,一輩子始終都要和自己相處,所謂自由就是孤獨的站立,不依戀,不懼怕。
我的選擇就是做一個簡單的好人,那你呢?
以上便是我們聊“博弈論”的全部内容。
總結
總結一下,這6期節目都說了一些什麼。
關于博弈論的探讨,是從經典的囚徒困境開始的,兩個囚徒當然都想做出最有利于自己的選擇,但是當考慮到對方的行為之後,最終雙方的行動結局卻相當悲慘。而且這是一個必然的,穩定的,任何一方都不可能改變自己策略的結果。
在不傷害任何人利益的情況下,至少使得一個人的處境變得更好,如果已經到了改無可改的完美狀态,這叫做帕累托最優。但是帕累托最優極其不穩定,因為參與者可以損害别人的利益,來讓自己獲利。
而任何一方都沒有單方面改變自己策略的局面叫做納什均衡,這是博弈論中非常重要的概念,之所以會陷入到困局,就是因為達成了納什均衡。
想想各國之間的軍備競賽,想想我們在競争領域常說的内卷,其實都是達成了納什均衡,陷入了囚徒困境。
破除困境有這麼幾條出路:
1、将單次博弈變成多次博弈,讓人們都在長期的合作中獲利。鄉土中國熟人社會的時候,周圍都是親戚朋友,每個人都注重名聲。近代之後,人口流動了起來,重複博弈變成了單次博弈,爾虞我詐的事情就多了起來。而随着市場經濟的發展,人們越來越依賴重複博弈,個人的名譽又慢慢變得透明。
2、引入懲罰機制,樹立絕對的權威,引入第三方監管,迫使人們在博弈當中達成合作,比如說政府監管,交通法規等等。
3、改變遊戲規則,秦就是用絕對的暴力一統六國之後,遊戲規則才得以改變,天下人才能從軍備競賽中脫困。
4、改變博弈的報償,調整個人的價值效用,有人追求廟堂之高功名利祿,有人想要江湖之遠自在逍遙,同樣一塊蛋糕,有人鐘愛奶油下的雞蛋糕,有人偏愛那一朵奶油花。如果人人都能各得其所,也就沒必要在一個狹小的空間内拼命“内卷”。
很多時候,問題需要在發展的過程中解決,着眼更大的面,才能解決之前局部範圍内無法擺脫的困局。
5、想到達成長期穩定的合作關系,靠思想教育、嚴刑峻法都是遠遠不夠的,隻有找到博弈中的納什均衡并且善加利用,讓多方的合作自行運作起來。所以,理想主義者追求帕累托最優,而現實主義者能看到納什均衡。
除了囚徒困境之外,我們還說到了公地的悲劇,搭便車,懦夫博弈,志願者困境和兩性戰争。
公地悲劇似乎看起來是否定了亞當斯密“看不見的手”,但其實最後市場的力量也不會讓災難性的結果發生,但是在這個過程中确實造成了大量的公共資源的價值耗散,通過人為幹預是可以避免的。
我們強調了第三方監管的力量,有一種困境叫自由,有一種解放叫禁止。人們最應該關注的是市場和政府之間的界限應該劃在哪裡,而不是對一邊極力追捧,同時對另一邊徹底的否定。
對于搭便車行為,一方面我們強調通過懲罰和獎勵落實到個人的方式,來解決利益集體共享,而成本卻難以均分的問題。另一方面我們也從智豬博弈的角度分析了,作為弱勢的小豬,就應該采用跟随戰略,懂得合理的搭便車,而作為大豬則必須約束小豬心态,時刻關注自己的核心競争力。
關于懦夫博弈,拆下自己的方向盤扔出窗外,抛棄選項斷絕後路,确實是很有效的博弈策略。但是這也很可能激發對方跟進,雙方都使用邊緣策略,會讓整個局面越發的危險。勇士再往前一步不是成烈士就是成瘋子。
在生活中遇到懦夫博弈,我說我願意選擇當一個懦夫,為什麼?因為幸福感降低鬥争性,擁有幸福就是我們懂得謙讓的最好理由。
在懦夫博弈中,想要讓對方給我們讓路,除了破釜沉舟之外,更加符合中國人智慧的辦法是示弱,展示艱辛,隐藏幸福。
關于志願者困境,需要用到調整個人的價值效用的辦法,不妨讓自己效用涵蓋的範圍大一些,為别人做出一點犧牲,對自己而言并非是隻有損失,為此我們還可以收獲快樂,勇氣和自信。求仁而得仁,又何怨?
關于兩性戰争,是如何在多個納什均衡中選擇其中一個。可以從以往慣例,同類平均,政府指導,甚至是抽簽随機,找到一個聚焦點,就能夠引發行動,達成合作。
進一步我們說了鷹鴿博弈,博弈是一個動态的過程,沒有什麼無往不利的終極策略,選擇當老鷹還是鴿子,不是感性的偏好,而是理性的計算。
最後就是今天所說的,在衆多的博弈策略中,一報還一報就是一個優秀的選擇,善良、以直報怨、寬容、清晰,我選擇做一個簡單的、善良的人。
最後,借用一句餘秀華的話:我從不指望吸引别人,因為我覺得這樣很淺薄,我得吸引我自己,當對自己有了熱愛,才能完成以後一個個孤單而漫長的日子。
希望通過這6期節目的分享,能讓博弈論對你有所幫助。
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!