策略與博弈:囚徒困境中的納什均衡剖析
納什均衡是博弈論中的核心概念之一,由數(shù)學(xué)家約翰·納什在1950年代提出,用于描述一種多人決策的穩(wěn)定狀態(tài)。納什均衡在經(jīng)濟學(xué)、社會學(xué)、生物學(xué)等多個學(xué)科中都有廣泛的應(yīng)用,被認(rèn)為是理解戰(zhàn)略性互動中個體行為的關(guān)鍵。
一、納什均衡的定義
納什均衡發(fā)生在一個博弈中,當(dāng)所有參與者都選擇了自己的策略,并且沒有任何一個參與者能夠通過改變自己的策略而單獨獲得更好的結(jié)果時。換句話說,每個參與者的策略都是對其他參與者策略的最佳反應(yīng)。
二、如何找到納什均衡
找到納什均衡通常需要分析每個參與者在其他參與者策略已定的情況下的最佳反應(yīng)。這可以通過構(gòu)造最佳反應(yīng)對應(yīng)的方程或通過圖形方法來實現(xiàn)。
三、納什均衡的實際例子
囚徒困境是展示納什均衡最有名的例子之一。在這個例子中,兩個犯罪嫌疑人被捕后分別審訊,他們可以選擇“合作”(即不揭發(fā)對方)或“背叛”(即揭發(fā)對方)。
警方向每位囚徒提出以下選擇:
- 如果一名囚徒招認(rèn)而另一名囚徒不招認(rèn),招認(rèn)的囚徒將獲釋作為獎勵,而另一名囚徒將因此罪名被判十年徒刑。
- 如果兩名囚徒都招認(rèn),他們將因合作而獲得減輕的刑罰,各被判五年徒刑。
- 如果兩名囚徒都不招認(rèn),他們將因輕罪名各被判兩年徒刑。 囚徒們的困境在于,他們無法相互溝通,因此無法保證對方的選擇。每個囚徒的選擇都會直接影響到對方的結(jié)果,以及自己的結(jié)果。
如果囚徒A信任囚徒B也不會招認(rèn),他可能選擇不招認(rèn),希望兩人都只被判兩年。然而,如果此時B背叛了A,選擇招認(rèn),那么A將被判十年,而B將獲釋。
反之亦然,如果B信任A不招認(rèn)而自己也選擇不招認(rèn),但A背叛了B招認(rèn),那么B將被判十年,A將獲釋。
如果兩人都不信任對方,擔(dān)心被對方背叛,最“安全”的選擇就是兩人都招認(rèn),雖然這意味著兩人都將被判五年。
在囚徒困境中,雖然合作(即兩人都不招認(rèn))會帶來較輕的總體懲罰(兩年乘以二),但每個囚徒面臨的個人風(fēng)險和不確定性導(dǎo)致他們選擇自保的策略——招認(rèn)。因此,納什均衡在這里是兩人都選擇招認(rèn)的情況,盡管這不是最優(yōu)的社會結(jié)果(即“帕累托最優(yōu)”)
四、納什均衡的變體
1. 完全信息的子博弈納什均衡: 在某些博弈中,如棋類游戲,每個動作和決策都是公開的,參與者可以看到對方的每一步行動。在這類博弈中,分析可能會進一步細(xì)化到子博弈納什均衡,即在博弈的每一個階段,參與者的策略都形成一個納什均衡。
2. 不完全信息的貝葉斯納什均衡: 在現(xiàn)實生活中,博弈常常涉及不完全信息,即參與者對其他參與者的信息了解不完整。在這種情況下,每個人需要根據(jù)對其他人信息的預(yù)期來制定策略,這種均衡狀態(tài)被稱為貝葉斯納什均衡。
3. 重復(fù)博弈中的納什均衡: 當(dāng)相同的博弈重復(fù)進行多次時,參與者可能會基于以前的行為來調(diào)整自己的策略,這可能導(dǎo)致與一次性博弈不同的均衡結(jié)果。例如,在反復(fù)進行的囚徒困境中,合作可能成為一種可行的策略,尤其是當(dāng)博弈的未來回合對參與者來說足夠重要時。
參考文獻
Nash, J. (1950). "Equilibrium Points in N-person Games." Proceedings of the National Academy of Sciences 36(1): 48-49.
Osborne, M.J., & Rubinstein, A. (1994). A Course in Game Theory. MIT Press.
Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.