博弈論之囚徒困境深度好文-tft每日頭條

博弈論之囚徒困境深度好文

生活更新时间:2025-07-17 23:14:23

博弈論之囚徒困境深度好文（漫談博弈論之二）1

漫談博弈論之二：囚徒困境該如何理解以及有何真正啟示？

2017-12-11

前文提到：“囚徒困境被錯誤理解和錯誤解釋的現象非常普遍，通過網絡搜索和論文搜索可以很容易查到大量相關文章，但其中有非常高比例的文章在這個問題上是胡亂套用甚至錯誤套用和錯誤理解的”，這種結論自然是不能随便下的，最好的做法是一個個例子地舉，具體分析這些例子中究竟是怎麼錯誤理解了的。但由于例子過多，是海量存在的，因此本文的論述和例證集中在幾個最為典型也相對最為通俗易懂的囚徒困境案例上。首先從源頭案例，即最為‘經典’的囚徒的囚徒困境本身開始。

一、囚徒的囚徒困境

在囚徒困境中，有甲乙兩名犯罪嫌疑人，其博弈支付矩陣（簡稱為博弈矩陣，下同）如下：

博弈論之囚徒困境深度好文（漫談博弈論之二）2

（注：表中的‘合作’、‘不合作’指的是甲乙之間的合作關系）

傳統觀點認為，當上述博弈矩陣中的收益參數滿足：C > A > D > B時，即認為陷入了囚徒困境，因為最終的穩定均衡點（納什均衡）是都認罪的（D,D）方案（即甲乙互不合作），雖然雙方合作的收益大于不合作（A>D，即都不認罪的收益大于都認罪）。上述結果可以通過對甲乙雙方博弈過程的數學分析來證明，比如運用演化博弈模型的分析方法就可以很清楚地證明這一點：當對該博弈矩陣（即博弈策略集）進行無限次博弈後，其演化的結果最終會在甲乙均認罪的方案上達到演化穩定均衡（也是演化穩定策略ESS，即博弈結果不斷趨近于該演化穩定均衡點）（詳見最後的附錄***），也就是說甲乙雙方最終選擇的會是互不合作（不考慮甲乙私下簽署合作協議等庭外溝通的情形，因為那會增加新的條件和新的博弈策略集）。這個例子是博弈論的非零和博弈中最具代表性的例子，尤其是反映了這樣一個深刻的問題：由于在這種博弈中，個人最佳選擇并非團體最佳選擇，從而導緻在即使合作對雙方都有利時，保持合作也是困難的。

對該案例的理解，如果就到此為止的話，是幾乎毫無争議的，我也認同這個理解（在C>A>D>B的假設條件滿足下）。然而，再往後的繼續延伸解讀就開始有了令許多人困惑以及胡亂引申、胡亂解讀的問題了。最為流傳廣泛的解讀是：由于在這種博弈中，雖然合作收益A是大于D的，但由于‘單方合作另一方不合作’時會導緻合作方受損，即B最小，因此最終導緻在反複思考博弈後，甲乙雙方最終均選擇不合作，這導緻了雙方陷入了‘囚徒’一般無法掙脫的困境，這是一種由于理性所導緻的囚徒困境。那麼，這個令人有些困惑的理解究竟是對還是錯呢？或者說，究竟該如何去理解這個局面的形成前因後果？這種局面究竟是否真的是一種困境，而且是無法擺脫的困境呢？甚至還是一種由于理性所導緻的無法擺脫的博弈困境呢？接下來筆者對此進行如下梳理和分類辨析。（看到這已經看不太懂的讀者，可以先打住回過頭去從頭開始多看幾遍，直到把上文看懂了、鞏固了再繼續往下看。）

先說結論，我認為，‘經典’的囚徒困境案例本身是有重大瑕疵的：案例本身沒問題，但對于該案例的解讀，尤其是将其解讀為‘困境’和‘由于理性所導緻的困境’的提法是不恰當的，是過于武斷、含糊不清甚至錯誤的。那麼究竟該如何解讀該案例呢？讓我們首先從對該案例的背景信息梳理開始（即對任何一個博弈策略集或者說博弈支付矩陣的建立，均應首先明确該策略集的邊界條件和物理意義，不能把模糊不清的邊界條件，尤其是多種可能完全不同的邊界條件或是不會同時存在的邊界條件混雜在一起來解讀該博弈策略集）。

第一種情形：執法者在甲乙決定是否招供認罪前已經獲得确鑿證據證明甲乙有罪。

對于甲乙雙方共同犯罪後的法律審判來說（假設罪行程度甲乙雙方是相等的），唯有當執法者并未得到充分的證據來證明甲乙雙方是有罪的，需要依靠甲乙的坦白所提供的證據來認定罪行的時候，才可能會存在C > A > D > B這樣一個經典的囚徒困境博弈局面（尤其是A>D的局面）。而如果執法者已經掌握了甲乙犯罪的充分證據，并不是通過甲乙的招供來獲得證據的話，最終的審判結果所産生的博弈局面應該是C=D>A=B的（在‘坦白從寬抗拒從嚴、認罪态度誠懇悔罪積極可以有适當的懲罰減少做為鼓勵’的原則下）。在此情景下（即C=D>A=B的博弈關系）的模型演化結果隻有一個：就是甲乙雙方均招供，因為在演化博弈模型分析中，隻要D>B，則（D,D）方案一定是一個演化穩定均衡點***。值得一提的是，在該博弈局面中，不存在比（D,D）方案更優的策略，因此也就不存在困境。

第二種情形：執法者在甲乙決定是否認罪前并未獲得确鑿證據證明甲乙有罪。

唯有在這種情形下，才有可能出現囚徒困境現象。但是否真會出現囚徒困境且看下文分解：當執法者并未掌握足夠的犯罪證據，而甲乙雙方又确實有罪行時，甲乙雙方的博弈矩陣的确會出現A>D>B的現象，但C應小于A而不是大于A（即單方認罪坦白者的收益應小于一起抵賴不認罪時的收益，或者說單方背叛者的收益應小于雙方合作，因為一起抵賴時法庭沒有足夠證據證明二者有罪，因此懲罰将會最輕，即A最大），也就是說，這種情形下的博弈支付關系應是A>C=D>B（或C約等于D）。此時的演化穩定均衡點有兩個：（D,D）方案和（A,A）方案。因為根據演化博弈模型的推導：隻要D>B，（D,D）方案就一定是一個演化穩定均衡點；同時并不排斥地，隻要A>C，（A,A）方案也一定是一個演化穩定均衡點***。

更通俗地說：D>B導緻（D,D）方案成為演化穩定均衡點的物理含義是，隻要存在對背叛（招供）的‘獎勵’機制且‘獎勵’後的收益大于單方合作者（抵賴）的收益，那麼互相背叛（即招供、認罪）就會成為一個穩定的演化博弈均衡點；A>C導緻上述結果的物理含義是，隻要存在對合作的‘獎勵’機制且‘獎勵’後的收益大于單方背叛者的收益，那麼互相合作就會成為一個穩定的演化博弈均衡點。

那麼，接下來的問題就來了，既然在同一件事的博弈中，存在兩個穩定的博弈均衡點，而且這兩個演化穩定均衡點在物理含義上是正好相反的（一個是互相合作，一個是互相背叛／互不合作），雖然互相合作（不認罪）的收益是大于互相背叛（認罪）的（A>D），但在現實世界中，囚徒選擇收益小的（D,D）方案的概率經常會高于（A,A）方案，那麼這是否就意味着甲乙雙方在這種情景下的博弈陷入了困境，即所謂的‘囚徒困境’呢？而且還是由于理性所導緻的博弈困境呢？我認為事實并非如此，理由如下。

首先，甲乙雙方在最終決定選擇認罪還是不認罪（囚徒間合作還是不合作）時，其真正的博弈内容并不僅限于表1的博弈内容，而是還會考慮其未來的長遠利益，即要考慮暫時逃脫懲罰後，今後所必需面臨的複雜局面和長期風險：二者仍必需時刻提防對方的可能背叛，以及執法機關搜獲确鑿證據或其他人揭發等多種可能。因此在這個博弈中，囚徒面臨的是至少兩個博弈局面：一個是短期利益博弈矩陣，即表1；另一個是長期利益博弈，即綜合考慮短期利益和長期利益之後的全局利益博弈矩陣。在短期利益博弈矩陣（或者說當前利益博弈矩陣）中，的确存在選擇困境：因為（D,D）方案和（A,A）方案同時都是演化穩定均衡點，而且A>D，如果僅從當前的短期利益來看的話，應該是選擇（A,A）方案才最優，但事實上現實世界中選擇（D,D）方案的比例經常是高于（A,A）方案的，這種選擇難道真的是因為理性所導緻的囚徒困境？這就與包括長期利益考量後的全局利益博弈有關了。事實上，在全局利益博弈矩陣中，并不存在這種選擇困境，理由如下。

在綜合考慮短期利益和長期利益的這樣一個更為宏觀更為全面的博弈矩陣中，其博弈關系要複雜的多，要考慮的因素也多得多，在博弈矩陣的數學分析處理中，可以采用添加一個綜合的風險收益函數的方式來進行簡化考慮，并同樣假設甲乙雙方在長遠利益得失上的處境（包括個人應對能力等等）是完全一樣的。這樣的話，最終考慮了長期利益之後的全局利益博弈矩陣中，仍然會是一個對稱博弈矩陣的結構，形式上與表1完全相同（ABCD的符号仍可以繼續使用），隻是此時的博弈支付關系不再是短期利益博弈時的A>C=D>B，而會是D=C>B>A。

在全局利益博弈矩陣中，符合D=C>B>A博弈支付關系的理由論證如下。從概率來說，甲乙要保持長期甚至永久地通過一起抵賴（不坦白不認罪）來逃脫對該罪行的懲罰，需要支付大量的精力、金錢或承受長期的巨大心理壓力（因為當其二人在第一次的法庭審判中通過聯合抵賴逃脫了暫時的懲罰或是減輕了懲罰後，在日後的生活中，二者仍必需時刻提防對方的可能背叛，以及執法機關搜獲确鑿證據或其他人揭發等多種可能），綜合考慮這些長期的博弈和心理負擔所帶來的利益損失後，A值從風險收益和概率的角度來說反倒可能會是最低的（許多重刑犯在被抓到後如釋重負，有如得到解脫，即為證明）。當然，的确也會有較小的概率出現逃脫得益的結果，即：最終甲乙雙方通過一起抵賴而逃脫懲罰，而且逃脫後的長遠代價小于當初的一起坦白認罪。但這隻是從概率上來說的确有可能存在這種現象（即凡事不完全絕對），但仍然從概率性的風險收益比的角度來說，A最小是最為可能的情景（否則，則需要‘該罪犯所在的社會中法治極為混亂、社會公德極為混亂’等這樣一種環境條件）。此外，還有這樣一個機制也會導緻長期利益博弈矩陣A最小：不論當前罪行大小，當一個人犯罪後毫無悔過之心時，對自己的過錯逃避和欺騙成為習慣時，未來必将産生更多以及更重的過錯或罪行，因此，一起抵賴的選擇從這個角度來說，也是極為糟糕的，是陷入日後惡性循環的推動力。更進一步地，因此，從長遠利益和全局利益的考慮來說；以及從對人的良知的拷問的角度來說；以及從罪犯自己改過自新、産生自我約束力和自律自省能力，以避免日後更加放縱自己導緻罪行不斷惡性積累的角度來說，（A,A）的選擇都是最不利的，是風險最高的也最容易形成更大的惡性循環的，因此相比而言，坦白的選擇（D,D）反倒有最大的概率和理由成為最優的、收益最大的選擇。D>B和C>B的理由同上文，不再論述。

基于上述分析，在全局利益博弈矩陣中，由于符合（或基本符合）D=C>B>A博弈支付關系，按照演化博弈模型的分析結果，由于D>B，同時C>A，因此不存在兩個演化穩定均衡點，隻存在（D,D）這一個演化穩定均衡點，也就是說，在反複博弈之後，會在甲乙均認罪的（D,D）方案上達到演化穩定均衡（即演化穩定策略ESS）。

綜上所述，在法治運行良好的社會治理環境下、在具有良知的社會氛圍和個體價值觀下，追求眼前短期利益所導緻的囚徒選擇困境，隻是在短期内和局部利益中的選擇困境；在綜合考慮短期利益和長期利益的全局利益博弈中，并不存在選擇困境，更不存在因為理性而導緻的囚徒困境。（上述推理中所提及的社會環境與社會氛圍，暗含有需要某種普适價值準則#3#的深刻涵義。否則的話，不論是短期利益博弈還是全局利益博弈都不會存在現有的這種選擇困境，因為在無規則、無法治、無良知的社會中，其運行機理會完全不同，打得赢或最無恥者就是老大。不過，在這種社會中，仍然會存在其他的選擇困境，而且會是更加嚴重的悲劇式困境。這是另外一種會陷入惡性循環直至巨大災難的社會情景，為縮減篇幅在此不再詳細分析。另外，關于為何用普适價值準則而不是普世價值觀，詳見下文案例四中的#3#附注）。

因此，傳統的“囚徒困境”案例所舉的例子，并不是恰當的、準确的囚徒困境，至少是在語義上和解釋上過于含糊不清的囚徒困境，現有的各種對囚徒困境的解釋和理解是有嚴重缺陷和瑕疵的，這種瑕疵和缺陷的根源在于對于所分析的博弈情景的物理意義（即真實局面和邊界條件等）梳理得不夠明确清晰，導緻了各種信息的不恰當混雜亂用，或是未充分考慮其真實博弈情景，最終導緻了對“囚徒困境”博弈在理解上的含糊不清甚至混亂。

基于上文的分析可以看出，“囚徒困境”案例中，囚徒的困境與對社會正義的解釋，以及與囚徒的長遠利益和全局利益有關，這種所謂的‘囚徒困境’并不是一種理性導緻的決策困境，也不是因為不理性導緻的決策困境，而恰恰是理性博弈後，尤其是考慮長遠利益後進行理性博弈的最佳選擇，前提是該社會的運行機制和主流價值觀是符合普适價值準則體系的#3#。

如果上述分析和觀點可以被接受的話，那麼接下來的問題又來了：究竟是否存在真正的‘囚徒困境’呢？即是否存在因為理性所導緻的博弈困境呢？以及是否存在因為理性的博弈導緻即使‘互相合作’的收益大于‘互相背叛’（或互不合作），但‘互相背叛’（或互不合作）的選擇成為了最穩定的均衡點策略呢？答案其實在上文的分析中已經有所出現了，思路線索是：這既與博弈中是否存在對背叛/不合作的‘獎勵’機制或者說背叛獲利機制有關，也與‘短期利益博弈矩陣和長期利益博弈矩陣是不同的’有關。為進一步理清這個問題，先從一個新的囚徒困境案例分析開始。

二、價格戰中的囚徒困境

經濟活動中，價格戰是經常發生的商業行為，同樣利用上述博弈矩陣，隻是将博弈策略從‘認罪-不認罪’替換為‘降價-不降價’，則有如下博弈矩陣：

博弈論之囚徒困境深度好文（漫談博弈論之二）3

上述博弈矩陣，其演化博弈的機理與表1幾乎完全相同，隻是外部邊界條件會有所不同，比如不存在表1博弈中存在的罪犯罪行是否已知等前提條件問題，但會有其他具體問題，詳見下文辨析。

這個有關商業價格戰的例子，也經常被各種教科書拿來做為囚徒困境的典型案例。那麼，這個例子是否是恰當的呢？這同樣需要從短期利益與長期利益、局部利益與全局利益的多個視角來進行分析。與上文對囚徒博弈矩陣（表1）的分析所不同的是，表2在以下前提下完全滿足C>A>D>B（這是‘經典’的囚徒困境博弈支付矩陣），即：市場上不存在其他競争者，而且甲乙雙方的産品完全是類似的，并且在質量、效用、品牌口碑等方面不存在差别，也不存在其他的利益關聯比如某方擁有該産品的專利權之類。在這樣一種不存在其他影響因素和利益關聯的，完全自由的市場競争的前提下，C>A>D>B的格局很容易理解，就不對此做深入解釋了。按照演化博弈模型分析結果，當C>A>D>B時，隻有（D,D）這一個演化穩定均衡點（納什均衡），即雙方均降價才是演化穩定策略ESS。

問題的關鍵是，這樣一種格局（即最終會導緻雙方一起降價的博弈格局）是一種囚徒困境麼（即由于理性導緻的困境）？我認為不能認為（至少不能簡單地認為）這是一種不良的困境，理由如下：

首先，從整個社會格局來說，這種降價結果對于提高整個社會的福利水平是有利的，因此這個結局即使會導緻某些個别企業的困境，但對于整體社會而言不僅不是困境，反而是好事。

其次，降價有利于推動或迫使企業進行技術革新和新産品研發，從而提高生産效率或提高産品質量和效用，因此也不應被視作是企業的囚徒式困境，反倒應被視作是企業間優勝劣汰的動力之一。

第三，從反推法來說，如果穩定的均衡點是雙方都不降價，那麼企業将沒有動力去進行新技術研發和新産品研發，隻需安心墨守現有利益和簡單地重複制造現有産品即可，這既不利于提高社會生産效率，同時也不利于提高社會的福利水平（即社會不能從降價中得到額外的社會整體收益）。此外，值得一提的是，雙方不降價本質上是一種廣義上的壟斷行為（人類社會要推行反壟斷法就是要避免各種形式的惡意不降價、惡意提價或是惡意降價擊垮對手再漲價的行為），而隻要是壟斷都會産生某種程度的不當得利，損害社會整體利益甚至損害社會公正。因此，從反推法分析的角度來說，價格戰的博弈結果導緻雙方均降價的現象，也不應被視作是一種囚徒式的困境，因為不降價并不是全面更優的選擇（即使對于企業自身來說，長期安穩于不降價的收益之中隻會損害其競争力的提升和減少其技術水平提高的推動力）。

第四，有觀點認為，‘雙方降價成為博弈穩定均衡點的現象，導緻了惡性競争，尤其是導緻了産品質量下降和産品安全下降，因此這樣一種均衡是囚徒式的困境，對企業不利也對社會不利’，對此，本文認為：降價導緻産品質量下降和産品質量安全出現問題，是另外一個博弈矩陣的事情，需要納入其他的博弈策略，而且這與社會的工商管理和法治水平有關，也與企業自身的誠信度和信譽等道德因素有關，而與産品本身的價格競争無關（至少不是唯一相關和最為決定性的因素），不應把産品安全問題和産品質量下滑問題的根源和首要責任推給是價格過度競争導緻的，即使這的确是其中的一個影響因素，那也是一個更為複雜的博弈矩陣下出現的困境，而不是由純粹的價格競争所導緻的困境。更為直接地，這種困境與其說是産品價格競争導緻的困境，不如說是由于社會集體理性的内在推動導緻的某些無能、落後或缺乏職業操守的企業的局部困境。

第五，假設甲乙達成了長期不降價協議，如果甲乙對該産品并無專利保護權的話，當一個新的企業丙加入時，如果丙的實力遠超甲乙，産品質量、效用和安全性也遠超甲乙，則會導緻甲乙迅速陷入困境或倒閉，因此不降價的合作策略對于甲乙的長遠發展來說也不是好事，也因此雙方一起降價策略是博弈的穩定均衡點這一現象同樣不應被視作是囚徒式的困境，而是理性的必然結果和最佳選擇。

綜上，價格競争會在短期内造成企業的局部困境或部分企業的局部困境（因為雙方合作不降價的策略不是穩定的均衡點，一起降價才是穩定的均衡點，從而造成雙方整體利益的當下減損），但這種困境和當下利益減損是短期性的局部困境，并非囚徒式的困境，更不是由于理性所導緻的囚徒式困境。這一演化博弈的結果，不論是從企業的長遠利益還是社會的長遠利益來說，都是好事而不是壞事，既有利于提高社會整體福利水平，也有利于社會的新技術研發和新産品研發，以及随之帶來的社會整體生産力水平的提高。因此，這種演化博弈正是社會集體理性的表現，或者換個角度來說，這種自發的演化過程，正是社會集體理性的内在動力源之一，是社會進步的推動力之一，而不是所謂的囚徒式的困境。把這種現象當做囚徒式的困境甚至理性的困境來看待的做法，犯了在價值判斷上正好反向的不理性且狹隘的錯誤。對于身處競争環境的企業來說，與其抱怨價格競争中出現的所謂‘囚徒困境’，不如求助于己，勤練内功，因為價格博弈的結果走向一起降價是不可避免的，是早晚的、必然的，也是符合理性的，不理性的是試圖坐享其成或是隻知道為自己的無能和落後而抱怨。唯有精益求精和勇于開拓創新，且有能力和眼光進行開拓創新的企業，才能立于不敗之地。

三、科研活動與科研合作中的囚徒困境

在價格戰案例中，同樣沒有看到由于理性所導緻的囚徒式困境。那麼，是否意味着在任何案例中都找不到這樣的案例呢？接下來咱們再來分析一個案例，有關科學研究的案例。

在科研活動中，從研究的難易程度和時間投入多少的角度，可以分為兩類：一類是無價值或乏價值的短頻快研究，這類研究成果可以很快地大批制造出來；另一類是有潛在重大價值的深度研究，但需要較長或很長時間，以及需要保持長期的高度專注與專心才能得到偶爾一個成果。在這個博弈模型中，有以下三個假定：1、假設甲乙雙方是科研創造能力相當的研究人員；2、科研利益分配制度設定為：以數量獎勵為主，質量獎勵為輔；3、對各種行為策略的收益賦值隻考慮世俗利益（包括經濟利益，和由中低層次成果堆積而獲得的學術頭銜與學術地位），而不考慮長遠的對人類知識體系的學術貢獻價值及其相關的永久性學術榮譽等價值。在上述三個假定的基礎上，再考慮成果獲得的概率因素，可得出收益矩陣的各項數值結果如下：D>C>A>B。即當甲乙雙方合力進行短頻快研究時，可以獲得最大的收益（D最大）；當一方單獨從事短頻快研究時，由于概率仍然很大，因此從概率上來說獲得的科研收益次之（C次之）；當雙方合力從事具有潛在重大價值的深度研究時，由于概率較小，因此從概率上來說能獲得的科研收益再次之（A再次之）；當一方單獨從事具有潛在重大價值的深度研究時，由于概率最小，因此從概率上來說能獲得的科研收益最小（B最小）。

博弈論之囚徒困境深度好文（漫談博弈論之二）4

顯而易見，同樣由于D>B且C>A，因此上述博弈矩陣有且隻有一個演化穩定均衡點（D，D）方案（演化博弈可以證明）***，即最終結果是雙方均投入到短頻快的研究中。而且，如果制度不修改，甲乙的價值觀也均不做修改，那麼（A，A）的選擇會一直空白下去，（D，D）選擇會成為主流。顯然，從科學價值的角度來說，這就是一個真正的囚徒式的困境，即由于對經濟收益的理性追求導緻了囚徒困境，損害了真正的學術研究和學術發展（但其實，即使從經濟理性的角度來說，這種選擇也是不理性的或不夠理性的，因為追逐這種由無價值或乏價值但數量多的 ‘科研業績’所帶來的經濟收益，最終會導緻社會整體效率的降低和科研資源的浪費，從而導緻整體經濟收益的損害，并最終或多或少地損害其中的每一個個體）。那麼導緻這種囚徒式困境的根源是什麼呢？顯然是這兩個原因：科研利益分配制度的畸形和扭曲；以及當事人（甲乙科研人員）的價值觀畸形和扭曲。更進一步地：這種囚徒困境是由于不理性的制度和不理性（或扭曲）的價值觀所導緻的科研活動、科研合作的囚徒式困境，而不是由于理性導緻的理性困境。更簡潔地說：這種科研活動的囚徒困境是由于不理性而導緻的囚徒式困境#1#。這種困境不僅是一種學術不理性（把本應追求學術價值為第一位的科研活動變成了追求科研工分獎勵和論文工分獎勵的純經濟行為），也是一種宏觀上的，尤其是長遠的宏觀經濟利益上的不理性。

解決這個囚徒式困境的方法很簡單也很簡潔：一、改變科研利益分配制度，大幅提高所有具備足夠科研能力資格的科研人員的基礎性收入#2#，大幅減少或取消對于科研成果的日常性獎勵，隻對真正重大的科研成果進行獎勵。二、尊重和重用那些真正獲得了重大科研成果的科研人員，把對科研成果的價值評判權完全交給他們，但又不強制任何個體（即任何科研人員都有權選擇放棄評價他人科研成果。當然，對有危害性和誤導性的科研成果進行評價是所有科研人員的義務，更是掌握學術評審話語權的科研人員的責任），同時批評、嚴懲直至開除那些在科研成果評價中不作為和亂做為的科研人員。

#1#本應最理性的科研活動，若其本身卻由于不理性導緻陷入了囚徒式的困境中，這是怎樣的一種黑色幽默呢？

#2#科研能力不合格的一開始就不應該放進來，但在既成事實的局面下，從社會安定和對人應有基礎性尊重的角度出發，采取新老體制并行、增新不增舊的做法來解決這個問題不失為一個好方法，即：新體制中的科研人員采取高标準準入制度，同時給予高标準的待遇，類似國外通過非升即走考評方式獲得高薪終身教職的制度；舊體制的研究人員維持原有待遇水平，覺得屈才了的可以自願選擇是否進入新體制的評價體系（比如僅需提供3-5篇現有代表作，并詳細談談這幾篇代表作的學術價值和其本人在其中的具體學術貢獻），但舊體制不再新增人員。由此實現新體制人員不斷增多，舊體制人員随着退休、轉崗、主動離職或參評新體制等而不斷減少，最終實現從舊體制向新體制的全面而又穩妥的轉變。

四、追求真理與正義的囚徒困境

在案例三‘科研活動和科研合作中的囚徒困境’中，總算找到了一個真正的囚徒式困境，但該困境并非由于理性而導緻的囚徒式困境，而是由于追逐個人或局部經濟利益的經濟理性，而導緻的短期内的整體性和全局性的不理性（雖然這個‘短期’有可能不短），因此從根本上來說，這是由于不理性所導緻的，是由于不理性的制度和不理性（或扭曲）的價值觀所導緻的囚徒式困境。那麼，“由于不理性的制度和不理性（或扭曲）的價值觀所導緻的囚徒式困境”這種現象是否有普遍性呢？接下來看一個涵義更為寬廣而深刻的例子：關于追求真理與正義的例子。

在對任何博弈模型進行數值分析和博弈局面推演之前，需要對博弈支付矩陣進行賦值，這個賦值過程對後續的分析和推演是極為重要的基礎和前提條件，不同的賦值方法反應了不同的社會現實和社會運行規則（更直接且準确地說：一個好的博弈模型，必須是對社會現實和社會運行規則有準确總結和概括的，否則就是無意義甚至錯誤的博弈模型，其給出的分析結果也将會是無意義甚至錯誤的）。該案例的模型假設存在以下兩種截然不同的賦值方法和賦值情景。

博弈論之囚徒困境深度好文（漫談博弈論之二）5

第一種為：A>B>C>D。其對應的社會情景是：

1）雙方共同維護社會正義和攜手追求真理時，獲得最大的收益（A最大）；

2）單方維護社會正義和追求真理時，獲得的收益次之（B次大）；

3）當任何一方不追求真理和社會正義，對違背科學規律和有違社會正義的現象無所謂甚至主動參與時，将受到利益虧損（C較小或很小）；

4）當雙方均不追求真理和社會正義，對違背科學規律和有違社會正義的現象無所謂甚至主動參與時，将受到最大的利益虧損（D收益最小）。

顯然，上述這種A>B>C>D的博弈支付矩陣，隻會在社會普遍追求真理與正義，且真理與正義得到了及時、準确的伸張的前提下才會出現，而要穩定可靠地實現A>B>C>D非常困難，隻有在絕對理想國才能真正徹底實現（或者說實現了的話，這就是絕對理想之國了），原因是：對經濟利益的追求是人性的必然，而對真理和正義的追求與維護即使得到承認、贊賞和獎勵，也往往需要較長的确認和辨認時間，更不是可以立即變現的直接經濟收益，因此要精确、穩定地實現A>B>C>D是非常困難的。不過，值得欣喜與樂觀的是，即使A>B>C>D的博弈支付矩陣格局難以完全精确、穩定地實現，但隻要A>C則（A,A）方案就是演化穩定均衡點***。因此要達到這一格局，意味着需要有良好的符合普适價值準則#3#的社會運行規則體系和社會群體價值觀體系做為背景條件。

更詳細地：上述分析意味着，即使人類社會難以精确、穩定地達到A>B>C>D的絕對理想國境界，但隻要存在對維護公道正義和追求真理與社會正義的‘獎勵’機制，并且‘獎勵’結果使得A總是大于C的（即A>C的社會運行機制必需是穩定可靠的，也就是說：雙方維護社會公道正義時的個人收益要穩定可靠地大于單方不維護社會公道正義時的單方個人收益），整個社會體系就會在（A,A）達到穩定均衡點，即會穩定地形成良好的追求真理與社會正義的社會主流氛圍。

第二種為：C>D>A>B。其對應的社會情景是：

1）當單方不追求真理和社會正義，對違背公道正義的現象無所謂甚至主動參與時，将獲得最大的收益（C最大，這意味着存在對這種行為的獎勵機制或縱容機制）；

2）當雙方均不追求真理和社會正義，對違背公道正義的現象無所謂甚至主動參與時，獲得利益次之（D次大，因為不當得利被雙方共享時，邊際收益遞減）；

3）雙方共同維護社會正義和攜手追求真理時，獲得收益一般（A再次之，即雙方共同承擔鐵肩擔道義的責任）；

4）單方維護社會正義和追求真理時，獲得的收益最小（B最小，存在對單方面承擔鐵肩擔道義責任的‘懲罰’機制，而不當得利者的行為被某種獎勵機制或縱容機制所包容）。

顯然，隻有在一個價值觀扭曲與敗壞，尤其是社會規則扭曲和敗壞的社會氛圍中，才會出現上述這種C>D>A>B的博弈支付矩陣。在這一博弈支付矩陣情景中，有且隻有一個演化穩定均衡點（D,D）（D>B因此D,D是一個演化穩定均衡點）***。這一規律意味着，隻要社會中穩定地存在對違背公道正義的現象無所謂甚至主動參與行為的獎勵機制或縱容機制，或是穩定地存在對于單方面承擔鐵肩擔道義責任者的懲罰機制，導緻D穩定地大于B，則整個社會必會陷入人人自危、道德敗壞的境地，如果得不到及時扭轉，終将陷入巨大的社會集體災難或崩潰之中（可稱之為絕對地獄國或絕對罪惡國）。這一情景分析中，最為有價值的啟發是，這說明：任何D>B的社會運行機制或重大個案，都是對社會公道正義的巨大傷害，必需得到及時糾正，否則必然導緻社會價值觀體系的傷害甚至嚴重傷害，長期積累會導緻整體性道德敗壞與社會秩序的崩潰。從這個視角來回看人類曆史，還可以反推出這樣一個結論：所有人類曆史上的社會災難與戰争，都是由于背離了追求真理與正義的道路，在嚴重扭曲與畸形的社會運行規則體系，和嚴重扭曲與畸形的價值觀體系下出現的，是不理性、理性不足或不理性地違背了普适價值準則所導緻的惡果和囚徒式困境。

4.1對于‘追求真理與正義的囚徒困境’的小結與延伸

上述兩種社會情景A>B>C>D（絕對理想國）和C>D>A>B（絕對罪惡國）都是理論上的構想情景，是社會發展的兩種極端情形，在現實世界并不存在或幾乎不存在，現實世界更多的是介于這二者之間的類型，可以從ABCD的相互關系排列中羅列和總結出各種不同的類型和層次，這方面還可以進行深入分析和梳理。為本文的行文簡潔，下文僅直接針對B與D的數值關系進行讨論和論述（換成A與C的數值關系或ABCD四者間數值關系的梳理方法也是類似的）。

在任何社會的社會運行規則體系中（包括社會制度體系和人際交往規則體系，下同），長期穩定且精确地保持B>D（可稱之為理想國或天堂國），或是長期穩定且精确地保持D>B（可稱之為罪惡國或地獄國）的現象都是極為困難和罕見的，更多的是介于二者之間情形的。這是因為：任何一個社會的運行機制都是極為豐富和複雜的，是多維度、多角度、多領域門類的複雜體系，而且人性是複雜的，是感性理性兼有、善惡兼具的（絕對的善是難以完全精确穩定地做到的），這意味着常見的人類社會體系往往都是這樣的情況：在該社會的社會運行規則體系中及其實際運行中，有些是B>D的，有些是D>B的；有些時候是B>D的，有些時候是D>B的。具體情況取決于該社會的理性化程度：當理性化程度高時，B>D的社會運行機制和實際行為多于D>B的；當理性化程度低時，B>D的社會運行機制和實際行為少于D>B的，而且經常會出現社會運行機制中和實際行為中的自相矛盾現象。相應地，可以由此大緻劃分出高理性社會、中理性社會和低理性社會等層次類型。

（1）在高理性社會中，符合普适價值準則的社會運行規則體系完善且自洽，人們生活快樂自由，幸福度最高，社會在智慧上的繁榮程度很高，物質上的繁榮程度往往也很高#4#，整體創造力非常高。

但是，高理性社會形态需要人們的智識水平和理性程度普遍比較高，或者說唯有該社會人群的整體理性程度和整體智識能力長期維持在較高的水平，才能使得整個社會保持在高理性社會水平。高理性社會并不能僅僅由其中的部分高智識、高理性者來完全支撐，更不能僅僅依靠其中的某幾個高智識、高理性者來完全支撐，因為所有的社會運行機制及其所管理和處理的日常生活，都是由其中的每一個個體去實施、體驗和檢驗的。高理性社會也不能僅僅依靠完善的社會運行規則體系本身來長久維持，而必須是‘完善的社會運行規則體系’和‘人們對普适價值準則的高度接納與普遍采用’相輔相成才行，因為當該社會人群逐漸出現越來越多的不理性、不道德、低智識行為時，對于原本完善的社會運行規則體系便會逐漸提出符合其不合理、不理性甚至不道德意願的修改意見，從而會逐漸導緻高理性社會的消解直至崩潰。

此外，一個更為深刻的機制是：極端自私自利者或權欲熏心者，由于其真實價值觀與高理性社會所必需的普适價值準則體系有所不同（包括或是因為信仰的原因，或是因為個人的極端自私自利本能，或是突發性地想要追求極端的個人利益和個人權勢而不願意遵守普适價值準則規則時，高理性社會的運行規則體系便會對其造成痛苦，于是他/她便會産生按照其個人意願修改原本合理的社會運行規則體系的需求和欲望，當這種希望修改的人越來越多（或是當提出修改者擁有足夠大且缺乏制衡的權力）時，高理性社會就會逐漸消解直至崩潰。

因此，要維持高理性社會，智識教育、辨識能力教育以及普适價值準則教育#3#必需是長期穩定地進行着的，一有松懈便容易出現社會倒退現象，從而反過來影響原本正常的社會運行規則體系的運行。愚民化教育和反智的教育，以及過度自由化缺少嚴肅性和缺少普及性的知識教育體系，都會導緻社會倒退的惡果（這裡指的是：在智識教育、辨識能力教育以及普适價值準則教育#3#等方面，不可因為強調個體自由權力而忽視和放縱那些不願意接受教育和不願意接受普适價值準則教育者的滋生和繁衍，後者的不斷增長必将帶來巨大的社會問題、隐患乃至災難）。

（2）在低理性社會中，社會運行規則體系不完整更不完善，且有許多愚昧甚至自相矛盾的地方，普适價值準則被排斥或被殘缺性地使用，人們生活普遍愚昧、麻木，社會繁榮程度低，整體創造力低下，社會矛盾沖突易發，幸福度普遍不高，偶爾能達成某種平衡和平和，但更容易不時産生巨大矛盾乃至戰争。

（3）在中理性社會中，普适價值準則被一定程度地接納但仍有被歪曲和殘缺之處，社會運行規則體系比較完整但不夠完善，也會存在部分愚蠢甚至自相矛盾的地方（因為體系越複雜，又不夠完善時，自相矛盾的概率也就更大），那些自相矛盾的運行機制容易導緻在該社會中生活的人出現人格分裂、道德分裂、心理分裂等現象，和底線經常被挑戰的痛苦，并進而容易導緻該社會人群的道德水平低下和道德敗壞等現象頻發，社會矛盾沖突易發，幸福度一般但方差極大（即人群在智識水平、财富水平、幸福度水平等指标上分化嚴重），整體創造力不高或較低。中理性社會同樣需要在整個社會的智識教育、辨識能力教育、普适價值教育上非常重視，才能避免堕入低理性社會的陷阱，才能實現向高理性社會的升華。

#3#本文用普适價值準則而不是普世價值觀，原因如下：普适價值準則與普世價值觀的區别在于，普适價值是指從對最基本的人性尊重、人性分析，和從最基本的科學理性出發，可以推演得到的人類社會要長久存在和共同繁榮所需要共同遵守的基礎性規則，包括為人處世方面的基礎性規則和社會運行機制方面的基礎性規則（如何看待和評判社會運行機制，也是價值觀的一個方面），這些基礎性規則是基于客觀辨析和科學邏輯推導出的，是符合最基本的理性和科學原理的，因此是普遍适用的；普世價值觀是指，如果人們都認同這樣一種普适性的價值準則并決心加以普遍推行的話，則普适價值準則就成為了普世價值觀。也就是說，普适價值準則是基礎，是不以人的理解能力不同、理念信仰不同而轉移的客觀規律；而普世價值觀是人選擇的結果，不同的理解、不同的理念信仰下會得出不同的普世價值觀。

那麼什麼才是最為理智、最為科學理性的普适價值準則呢？這個問題非常重要，應該另文專門進行嚴密的推理分析，在此僅盡量簡潔地開個頭。我認為，普适價值準則應至少包括以下幾個核心要素，簡稱基礎規則：理智、公開、法治、民主、自由、平等。圍繞這幾個核心要素，還可以推演出人類社會需要以下更為通俗易懂的普适價值規則，簡稱通俗規則：公正、财産權、言論自由權、互相制衡、自律、互相尊重、互相寬容。

接下來解釋其中的三個重要問題。1、為何把理智放在第一位？2、為何把公開放在第二位？3、為何把公正、财産權、言論自由權、互相制衡等放在通俗規則中而不是基礎規則中？

對于第一個問題，這是因為任何社會要想長治久安和共同繁榮，其社會日常運行中的公開與法治都必須以理智為基礎和先決條件，因為僅僅依靠公開與法治規則本身，未必能保證這種公開與法治是理智的，須知，在愚昧思想指引下的公開與法治，也是很常見的一種現象。更準确地說：絕大多數愚昧都是公開的，不公開的愚昧反倒相對要少；而且絕大多數的愚昧或帶有愚昧性的社會治理體系下，也是有法制的和實行了法治的，也是有公開和實行了部分公開的。因此，唯有以理智為基礎的公開與法治，以及以理智為基礎的社會運行規則體系（包括以理智、公開、法治為基礎的社會制度體系，和以理智、法治為基礎的人際交往規則體系（私人領域可以不遵守或不嚴格遵守公開原則）），才是人類社會的真正福祉。

對于第二個問題，這是因為，不公開的民主，不公開的法治，很容易導緻在社會運行和社會治理過程中，出現一批流氓代替另一批流氓，流氓輪流坐莊，坐莊就成流氓的現象（尤其是在社會道德水平與智識水平不高或低下時），因此有必要把公開的重要性放在民主和法治之前。

對于第三個問題，這是因為隻要是嚴格、穩定地做到了‘理智、公開、法治、民主、自由、平等’，那麼該社會就必然會是公正的。另外，自由權裡就必然涉及對财産權的保護和對言論自由權的保護，有了自由權加上理智基礎上的公開與法治，就更會确保公正、财産權、言論自由權和互相制衡的實現。因此，也就是說，‘公正、财産權、言論自由權、互相制衡’與前面的幾個基礎規則其實是規則重複的，隻是為了便于通俗理解因此有必要專門再次列為規則。通俗規則中的自律、互相尊重、互相寬容原則，是為了使整個普适價值體系更加融洽、更加高效地運行而設置的思想性原則和容錯機制。

#4#世外桃源般無欲無求、與世無争類型的社會也許也能存在，但這需要更高的智慧水平和自律能力，而且應該隻能以少數團體和個别團體的小社會方式存在，因為絕大多數人是理性與感性并存、善惡兼具的（絕對的善是難以完全精确穩定地做到的），尤其是任何人都是有各種需求和欲望的，滿足各種需求和欲望是人的天性，刻意磨滅或假裝無視個體欲望與需求才是反人性的。因此，尊重人性的同時懂得自我克制、互相寬容，和懂得必須互相制衡才是最高的智慧境界。

五、技術革新的囚徒困境

在上文的案例三和案例四中，總算找到了真正的囚徒式/囚禁式的博弈困境，但這些困境都是由于不理性的制度、畸形的社會運行機制和不理性（或扭曲）的價值觀（或價值觀沖突）所導緻的，是不理性所導緻的囚徒式困境，而不是由于理性所導緻的博弈困境。那麼，除了社會制度和價值觀因素，還有沒有别的因素也會導緻囚徒式/囚禁式的博弈困境呢？下面的這個有關技術革新研發的例子便可以給出某些啟示。

假設有甲乙兩個企業，其實力相當，研發能力也相當，但技術特點各有所長且具有一定的互補性，在對某個現有技術的革新研發中，甲乙雙方的合作博弈矩陣見表5，但在對其中的參數賦值時，同樣存在多種賦值方法（這與具體的技術細節，尤其是技術研發的難度和現有技術市場格局等因素有關），有以下兩種應該是最為典型的博弈情景：

第一種情形：B>A>D>C，其對應的社會情景或者說物理含義如下。

1）隻有一方研發，另一方不研發，研發方獨享新技術收益，因此收益最高（B最大）；

2）雙方共同研發，共享新技術成果收益，因此收益次之（A次之）；

3）雙方均不進行研發，仍舊使用現有技術方法，收益再次之（D較小）；

4）在對方研發時，自己不研發，導緻自己的技術落後，因此收益最小（C最小）。

博弈論之囚徒困境深度好文（漫談博弈論之二）6

這一情景的演化博弈結果很明顯：由于A>C且B>D，因此（A,A）策略是唯一的演化穩定均衡點***。在現實世界中，存在B>A>D>C的博弈支付關系的局面應該是這樣的：該技術研發難度不高且收益非常确定，雙方均有可能做到這種技術革新。對于這類技術研發，顯然應該是盡可能搶先研發最重要，但最終的博弈結果最為穩定的均衡點都會是（A,A）策略（如果涉及欺詐，則是另外一個博弈支付矩陣或者說另外一個博弈策略集的事了，此時需要加入新的約束條件和利益關系，比如違約賠償之類）。

第二種情形：A>C>D>B，其對應的社會情景或者說物理含義如下。

1）雙方共同合作研發，由于技術特點有互補性形成了合力，提高了成功的概率，因此考慮成功概率後收益最大（A最大）；

2）技術研發難度過大，有一方不研發，研發方耗費大量精力财力影響了現有技術産品市場的維護和推廣，導緻不研發方獲得額外收益，因此不研發方收益較大（C次之）；

3）雙方均放棄研發，繼續使用現有技術，收益維持但較小（D較小）；

4）單方獨立研發，但由于技術革新突破難度太大，成功概率較小，而且由于研發投入分攤了有限的精力财力，還會影響其對現有市場的推廣和維護，甚至可能導緻企業陷入困境和破産，因此考慮成功概率和風險後收益最小（B最小）。

這一情景的演化博弈結果是：由于D>B，且A>C，因此該情形下的演化穩定均衡點有兩個：（D,D）方案和（A,A）方案（這是因為根據演化博弈模型的推導，隻要D>B，（D,D）方案就一定是一個演化穩定均衡點；同時并不排斥地，隻要A>C，（A,A）方案也一定是一個演化穩定均衡點***）。這一結果對于企業甲和乙而言，的确存在選擇困境，因為雖然A>D，但雙方合作研發（A,A）方案并不是唯一的演化穩定均衡點，雙方均不研發（D,D）方案居然也是一個演化穩定均衡點。即最終的結果是有些時候企業會選擇合作研發，有些時候會選擇均不去研發。造成這樣一個囚徒困境的原因是什麼？更重要的是，這個選擇困境是由于理性所導緻的博弈困境麼？

本文認為并非如此，問題的真正根源在于，該博弈支付矩陣僅僅是一個概率分布的矩陣，在現實世界中，該博弈支付矩陣往往是難以精确得到的，這是一個估計的、不精确的博弈支付矩陣，在這一點上，該技術研發博弈支付矩陣與前面的‘囚徒的囚徒困境’中的博弈支付矩陣是有本質不同的，因為‘囚徒的囚徒困境’中，囚徒自己對自己的罪行及其懲罰後果通常是基本清楚的，不存在多少不确定性。更準确地說，該技術研發博弈矩陣所描述的博弈内容并沒有完全描述企業在進行技術研發時所面臨的真實局面（尤其是在高難度高風險的技術研發中），因此其博弈推導結果并不是真實可靠的。在真實的企業技術研發過程中，還需要考慮企業的風險承受能力、技術研發實力和技術判斷力等等許多複雜的因素，這些因素都需要被納入到博弈支付矩陣的構建之中，因此，真正的博弈支付矩陣中，ABCD各參數數值的表達形式是複雜的，更非完全固定的數值，而是一個動态的和概率性的數值表達式。在實際的研發過程中，其中有些參數的數值範圍可能會突破企業的承受能力極限，導緻企業運營出現問題甚至出現生存困難等問題，或是出現了其他風險收益比更好、更穩妥的研發項目可以去做，從而導緻當前博弈被終止或舍棄。

也就是說，當該項技術成功概率及其收益的不确定性太大時，或是當企業自身研發判斷能力有限和風險承擔能力有限時，都會導緻甲乙雙方即使在機理分析上有較大的把握可以做出該項技術革新，也隻能垂涎三尺而不會輕易動手，維持現有均不研發格局反倒是雙方最佳的選擇之一，除非該企業具備足夠的風險承受能力或有足夠大的意志力和決心。因此，最終不論雙方是否選擇合作研發還是都不研發，都是綜合考慮的結果，是理性考慮的結果，或是由于其現有理性能力不足以确定清楚ABCD的相關關系導緻的保守結果（确定性的ABCD相關關系隻是虛拟的結果或是‘事後諸葛亮’回顧的結果）。因此，該案例并不能算是嚴謹的博弈困境的例子，隻是反映了對于以追求利益為首要目标的企業來說，在面臨不确定性程度很高和風險很高的技術研發項目時，容易出現：或望而卻步保守退縮，或勇猛直前甘冒風險的現象。這種現象是正常的，并非所謂由于理性所導緻的博弈困境，而是理性不足以完全掌握研發結果所導緻的或保守或冒險的現象和困境。

綜上，這種囚徒困境，是由于所博弈的事物存在巨大的不确定性和風險，自身又缺乏足夠的研發力和判斷力所導緻的，因此可以算是第二種類型的囚徒式博弈困境，但這種類型的博弈困境本質上仍然是一種由于理性不足所導緻的博弈困境（即智力不足以消除其中的不确定性和風險）。

破解這種由于具有巨大不确定性和風險所導緻的囚徒式博弈困境的方法，顯然必需通過社會第三方力量的介入來解決：或是通過政府進行補貼或立項（本質上是利用全社會的公共财力，全社會分擔風險），或是通過風投的方式引入其他類型的社會資本來分攤風險。由此通過社會力量或全社會力量的參與，将社會中的局部博弈困境和企業的短期利益博弈困境化解到整個社會的全局博弈和長周期博弈之中。

最後是對該案例的一點補充。上述博弈情景的推理分析，不僅适用于高風險的技術創新，也适用于高難度的基礎性研究，其結果的啟示是：對于這類科學研究，由于整個社會往往是最終的利益受益人，因此有必要形成對這類科研活動進行适當資助和鼓勵的機制和氛圍，這也有利于更好更快地推動整個社會的知識進步和技術進步。當然，這種資助和鼓勵需要有足夠科學理性的評價機制加以甄别和約束，需要進行甄别和約束的理由，不僅是因為研究人員能力素質的巨大差别會導緻研發效率有巨大差别，還因為越是高端的技術越有可能産生意想不到的破壞力，缺乏道德約束的科技研發極有可能成為人類社會的災難，而這也是為何任何社會、任何人群均需要建立起普适價值準則和相互制衡機制的根本原因，也是文科和理科必需協同發展，文理均不可偏廢，需要相互啟發、相互促進的原因。

全文總結及結論

通過對上述五種‘囚徒困境’案例的推理分析，可以得出以下結論：

1、傳統意義上（包括最原始最‘經典’）的囚徒困境存在嚴重瑕疵和誤讀，這種瑕疵和誤讀是由于對囚徒困境的發生背景、邊界條件等約束條件的物理意義分類梳理不清楚和混亂所導緻的，最終導緻社會各界包括學術界在對囚徒困境的理解、解讀和推廣運用中，存在大量的模糊、混亂甚至錯亂的現象。

2、不存在由于理性所導緻的囚徒困境，隻存在由于不理性或理性不足所導緻的囚徒困境。所有的囚徒式困境，都或是由于不理性的制度與畸形的社會運行機制，或是由于不理性或扭曲的價值觀（即價值觀沖突），或是由于所博弈對象存在巨大不确定性和風險所導緻的，歸根結底都是由于不理性或理性不足所導緻的‘囚徒困境’，這種困境是一種囚禁式困境，或可簡稱為囚禁困境。

3、上述所有囚禁困境，用更長的時間尺度和更為廣博的視野來看待的話，都是在不恰當的規則，或過大的不确定性與過大的風險背景下，由于不理性或理性不足導緻的短期利益博弈矩陣的囚禁困境，而在由充分理性所主導的長期利益博弈矩陣中，不存在任何由于理性所導緻的囚禁困境，更不存在傳統理解（即現有通俗理解和‘經典’模型）中的囚徒困境，隻要理性足夠充分，互相合作總是最佳的選擇和最穩定的博弈均衡點。

4、破解短期利益博弈的囚禁困境，前提是個體的理性程度和社會的集體理性程度都要足夠高。

5、一個極為可能也有極大把握的展望是：無論是日常生活中的親情、婚姻、戀愛、朋友、工作或者是其他人際關系中的無法自拔的囚徒困境/囚禁困境式痛苦，無一例外的都是由于不理性或是理性不足所導緻的，因為并不存在由于理性所導緻的博弈困境，任何博弈中的理性解都是非劣解甚至最優解。

最後，上述推理的一個更為深刻的寓意是：隻要人類不斷地增進知識、增進理性、增進智慧，則人類的未來必将是一個安甯祥和、繁榮昌盛的大同社會。

***關于這些演化博弈結果的數學推導證明，讀者感興趣或是有疑惑的話，可以自己根據演化博弈模型原理進行數學推導，以下即為推導過程：

設甲合作的概率為x，不合作的概率為1-x；乙合作的概率為y，乙不合作的概率為1-y。

（這種合作-不合作博弈可任意對應于上文中各案例的博弈關系，比如囚徒困境博弈中的不認罪-認罪博弈、價格戰中的不降價-降價博弈、科研合作博弈中的合作-不合作博弈（僅類似）、追求真理與正義博弈中的追求-不追求博弈、技術研發博弈中的研發-不研發博弈，因為這些博弈的共同特點是：都是對稱性博弈，而且均可由下文所述内容完全相同的演化博弈分析過程來進行推演。）

博弈論之囚徒困境深度好文（漫談博弈論之二）7

博弈論之囚徒困境深度好文（漫談博弈論之二）8

博弈論之囚徒困境深度好文（漫談博弈論之二）9

根據上表的計算結果，再結合各種博弈情景中的支付矩陣數值關系，即可對Det(J)及Tr(J)的正負性進行判斷，從而判斷各均衡點是否是演化穩定均衡點，若存在這種演化穩定均衡點，則該博弈情景的博弈結果不斷向該均衡點趨近是演化穩定策略（ESS）。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

tft每日頭條

> 生活

> 博弈論之囚徒困境深度好文

博弈論之囚徒困境深度好文

相关生活资讯推荐

热门生活资讯推荐

网友关注