tft每日頭條

 > 生活

 > 博弈論完美的納什均衡

博弈論完美的納什均衡

生活 更新时间:2025-02-22 15:48:24

納什均衡(Nash Equilibrium):在非合作類博弈中,存在一種策略組合,使得每個參與人的策略是對其他參與人策略的最優反應。如果參與者當前選擇的策略形成了“納什均衡”,那麼對于任何一位參與者來說,單方更改自己的策略不會帶來任何好處。

上面那段話值得仿佛閱讀體會,在看完例子後可以再多讀幾遍上面這段話。

具體例子如下:囚徒困境、智豬博弈、範式博弈、餓獅博弈、硬币正反博弈。

囚犯的困境

假設有兩個小偷A和B聯手闖入民宅盜竊被抓,警方将兩人置于不同的房間進行審訊,并給出如下政策:如果一個犯罪嫌疑人坦白并交出了贓物,兩人都會被判有罪。如果另一個犯罪嫌疑人也坦白,則兩人各被判刑8年;如果另一個犯罪嫌人抵賴,再加刑2年,而坦白者有功,會被立即釋放。如果兩人都抵賴,偷竊罪證據不足,但會因私入民宅而各判入獄1年。即:

博弈論完美的納什均衡(什麼是博弈論和納什均衡)1

表中的數字表示A,B各自的判刑結果。博弈論分析中一般都用這樣的表來表示。

此時有人會覺得雙方都抵賴就好了,但問題是雙方被隔離,都會懷疑對方會出賣自己以求自保。

兩個人都會怎麼想?

假如對方坦白,此時如果我抵賴得坐10年監獄,如果我坦白才坐8年監獄;假如對方抵賴,此時如果我也抵賴會被判1年,如果我坦白可以被釋放。綜合以上考慮,不管對方坦白與否,對我而言都是坦白比較劃算。此時最後的“納什均衡”隻能是兩個人都坦白,共同被判8年刑期。

智豬博弈

豬圈裡有兩頭豬,一頭大豬,一頭小豬。豬圈的一邊有個踏闆,每踩一下踏闆,在遠離踏闆的豬圈的另一邊的投食口就會落下少量的食物。如果一隻豬去踩踏闆,另一隻豬就有機會搶先吃到另一邊落下的食物。但當小豬踩踏闆時,大豬會在小豬跑到食槽之前剛好吃光所有的食物;大豬踩動了踏闆,則有機會在小豬吃完落下的食物之前跑到食槽,争取吃到另一半食物。

那麼,兩隻豬各會采取什麼策略?

當然是小豬等在食槽邊,而大豬不知疲倦地奔忙于踏闆和食槽之間。因為,小豬踩踏闆将一無所獲,不踩踏闆反而能吃上食物。對小豬而言,無論大豬是否踩動踏闆,不踩踏闆總是好的選擇。反觀大豬,已明知小豬不會去踩動踏闆,自己親自去踩踏闆還有點吃的,總比不踩強,所以隻好去踩踏闆。

範式博弈

GOO公司和SAM公司存在利益關系,二者的收益會随着博弈的變化而不斷更替。如下圖:

博弈論完美的納什均衡(什麼是博弈論和納什均衡)2

雙方各有兩個可選策略“合作”與“背叛”,格中的四組數據表示四個博弈結局的各自收益,。每組數據的第一個數字表示GOO公司的收益,後一個數字表示SAM公司的收益。

現在我們站在GOO公司的角度來思考整個博弈策略。假如SAM選擇合作,那麼我方合作的收益是3,而我方背叛的收益是5,我方應該選擇背叛;假如SAM選擇背叛,那麼我方合作的收益是 -3,而我方背叛的收益是-1,我方還是應該選擇背叛。

同理,SAM公司也會做出相同的選擇。最後我們發現,本次博弈的雙方都采取了背叛策略,各自的收益都為-1,這是一個比較糟糕的結局,盡管對任何一方來說都不是最糟糕的那種。

但博弈的次數往往不止一次,當二家公司經曆了多次背叛策略的博弈之後,發現公式上還有一個(3,3)收益的雙赢局面,這個結果顯然要好很多,因此二家公司在之後的博弈過程中必然會嘗試互建信任,從而驅使雙方都選擇合作策略。

但假使雙方都知道博弈次數是有限的,也許下一次博弈就是最後一次,那麼為了避免對方在最後一輪博弈中選擇背叛而使我方遭受-3的損失,于是雙方都會采取了背叛策略,最後的博弈結果又回到了(-1,-1)。

由此可見,随着次數的變化,博弈的性質也會發生變化,納什均衡點會發生變化。

餓獅博弈

假設有A、B、C、D、E、F六隻獅子(強弱從左到右依次排序)和一隻綿羊。假設A吃掉綿羊後就會打盹,這時比A稍弱的B就會趁機吃掉A,接着B也會打盹,然後比B稍弱的C就會吃掉B,以此類推。問:獅子A敢不敢吃綿羊?

該題須采用逆向分析法,從最弱的F開始分析,依次前推。假設E睡着了,F肯定會吃掉E,因為在F的後面已沒有其它獅子了,不用擔心自己被吃掉。繼續前推,既然E知道自己睡着會被F吃掉,那麼E必然不敢吃睡着了的D。既然E不敢吃掉D,那麼D則可以放心去吃睡着的C。依次前推,得出C不吃,B吃,A不吃。所以答案是獅子A不敢吃掉綿羊。

博弈論完美的納什均衡(什麼是博弈論和納什均衡)3

但是,如果我們在獅子F的後面增加了一隻獅子G,總數變成7隻,用逆向分析法按照上題步驟再推一次,如下圖。這次的答案變成了獅子A敢吃掉綿羊。

博弈論完美的納什均衡(什麼是博弈論和納什均衡)4

對比兩次博弈我們發現,獅子A敢不敢吃綿羊取決于獅子總數的奇偶性:當總數為奇數時,A敢吃;總數為偶數時,A則不敢吃。因此,總數為奇數和總數為偶數的獅群博弈結果形成了兩個穩定的納什均衡點。

硬币正反博弈

假如你和一個美女一起玩個數學遊戲。美女提議:讓我們各自亮出硬币的一面,如果我們都是正面,那麼我給你3元;如果我們都是反面,我給你1元;剩下的情況你給我2元。那麼你該不該和這位美女玩這個遊戲呢?

這裡需要講一下納什均衡的分類:

(1)純戰略納什均衡,也就是說玩家都能夠采取固定的策略(比如一直出正面或者一直出反面),使得每人都賺得最多或虧得最少。

(2)混合戰略納什均衡,是對每個純戰略分配一個機率而形成的戰略。混合戰略允許玩家随機選擇一個純戰略。混合戰略納什均衡中要用概率計算,達到某一概率時,可以實現支付最優。因為概率是連續的,所以即使戰略集合是有限的,也會有無限多個混合戰略。

在這個遊戲中,應該采用混合策略納什均衡。

假設我們出正面的概率是x,出反面的概率是1-x,美女出正面的概率是y,出反面的概率是1-y。為了使利益最大化,應該在對手出正面或反面的時候我們的收益都相等,即:

3x (-2)(1-x) = (-2) * x 1*(1-x )

解方程得x=3/8;

同樣,美女的收益:-3y 2(1-y) = 2y (-1) * (1-y),

解方程同樣得y等于3/8。

于是,我們就可以算美女每次的期望收益是:(1-y) * (2x-(1-x)) y(-3x 2(1-x)) = 1/8元,即雙方都采取最優策略的情況下,美女平均每次赢1/8元。

所以當然不能和她玩這個遊戲。其實隻要美女采取了(3/8, 5/8)這個方案,不論你采用什麼方案,都是不能改變局面的。

但是當你也采用最佳策略時,至少可以保證自己輸得最少。否則,你會賠掉更多。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved