原創(chuàng) 2019/7/16 逐鹿家書

最近在新聞報(bào)道中反復(fù)聽到“鷹派”這個(gè)名詞。它到底代表什么意思?
與鷹相反是鴿子。鴿子是如何在鷹群中博弈?
在理查德·道金斯 (Richard Dawkins) 的著名著作《自私的基因》中,他從進(jìn)化生物學(xué)家的角度擴(kuò)展了約翰·梅納德·史密斯 (John Maynard Smith) 關(guān)于進(jìn)化穩(wěn)定策略(ESS)的觀點(diǎn),解釋自然界如何最終達(dá)到平衡。
它背后的理論基礎(chǔ)就是博弈論,而博弈論的核心是做出更好的決策。
作為管理者、投資者,或者是一家之主的你,希望確保每天為自己、公司和家庭做出更好的決策。鷹與鴿子的故事也許可以給你一些啟示。
在進(jìn)入故事前,讓我們快速回顧博弈論,以防你已經(jīng)遺忘或可能沒有聽過它。
我們玩游戲吧!
博弈論是研究玩家之間沖突與合作的數(shù)學(xué)模型。創(chuàng)始人之一,天才數(shù)學(xué)家馮·諾依曼 (John von Neumann) 1944年奠定了概念基礎(chǔ)。從那時(shí)起,博弈論在經(jīng)濟(jì)學(xué)、政治、軍事和公司戰(zhàn)略中流行起來。

馮諾依曼本人加入了蘭德公司 (RAND Corporation),這是冷戰(zhàn)時(shí)期美國政府重要的智囊機(jī)構(gòu),對博弈論的研究與應(yīng)用有很大的貢獻(xiàn)。
我在大學(xué)時(shí)期開始接觸博弈論,但所知非常膚淺,直到2001年,電影《美麗心靈》上映。羅素·克勞扮演傳奇人物約翰·納什(John Nash),再次燃起我對博弈論的興趣。

博弈論作為解決問題的工具,協(xié)助美國在冷戰(zhàn)中取得勝利。換上日本著名博奕論家川西諭的說法,「它的重點(diǎn)在于不只是看自己,也同時(shí)俯瞰他人相互依賴的關(guān)系,掌握問題的整體樣貌,拓展空間上的視野來理解問題的構(gòu)造?!?/p>
博弈是指多人之間的相互作用,其中每個(gè)人的收益都受到其他人的決定影響。它主要集中在三個(gè)方面:
1. 玩家 - 通常不止一個(gè)(>2)
2. 策略 - 玩家的行為選項(xiàng)
3. 回報(bào) - 玩家的獎(jiǎng)勵(lì)或結(jié)果
博弈論假定每一個(gè)玩家都是按照個(gè)人利益而理性地行動(dòng)。在生物世界里,尋求生存和傳遞基因就是最主要的目的。
囚徒困境
由蘭德公司兩位研究員提出的「囚徒困境」,是博弈論中最廣泛提到的例子?;厩疤崾侨绾卧趦擅徊恫⒚媾R潛在監(jiān)禁的幫派成員之間建立一個(gè)互利的戰(zhàn)略。
規(guī)則如下:
1. 游戲玩家為囚犯A和囚犯B。
2. 兩名囚犯不能交流。
3. 如果A和B都舉報(bào)對方,他們都要服刑2年。
4. 如果A背叛B但B保持沉默,A將被釋放,B將被監(jiān)禁3年(反之亦然)。
5. 如果A和B都保持沉默,他們兩人只服刑1年。
下面的矩陣描述了不同的選擇,數(shù)字表示根據(jù)每個(gè)選擇囚犯A和B服刑的年數(shù)。

他們應(yīng)該選擇哪種策略?想知道答案,我們必須孤立地看待每一個(gè)人的行動(dòng)。
從囚犯A的角度考慮游戲。假設(shè)他知道B會(huì)保持沉默。他應(yīng)該如何回應(yīng)?
A應(yīng)該認(rèn)罪,如果他保持沉默,他將在監(jiān)獄里呆一年。但如果他出買B,他就馬上被釋放。
認(rèn)罪對A產(chǎn)生更好的結(jié)果。在這種情況下,只要他知道B保持沉默,那么他只需比較兩者的收益就可以作出選擇,他大可不用考慮B的結(jié)果,這跟他的選擇沒有關(guān)系。

但假設(shè)A知道B會(huì)招供。他該怎么辦?
同樣,只要比較認(rèn)罪與保持沉默的后果,答案就顯而易見。
認(rèn)罪再次是更佳選擇:認(rèn)罪導(dǎo)致2年的監(jiān)禁,而沉默則意味著3年。所以如果B認(rèn)罪,A也會(huì)想認(rèn)罪。
把這兩條信息放在一起,我們得出了一個(gè)重要的結(jié)論——不管B的策略如何,A最好還是坦白!

A可以忽略他認(rèn)為B會(huì)做的任何決定,因?yàn)樵谌魏吻闆r下認(rèn)罪都會(huì)減少他監(jiān)禁的時(shí)間。
讓我們切換到B的視角。假設(shè)她知道A會(huì)保持沉默,即使我們知道他不應(yīng)該這樣。她該如何選擇?
像之前一樣,B應(yīng)該認(rèn)罪,因?yàn)樗鲑IA就可馬上釋放。

最后,假設(shè)她知道A會(huì)招供。她應(yīng)該如何回應(yīng)?
毫不奇怪,她也應(yīng)該認(rèn)罪,她可以少一年的牢獄之災(zāi)。不管A做什么決定,還是認(rèn)罪比較有利。
我們達(dá)成了一個(gè)結(jié)論:兩個(gè)囚犯認(rèn)罪,大家都在監(jiān)獄里度過兩年。像很多電影情節(jié),由于審問者的機(jī)智,司法取得了勝利!

這結(jié)果使許多剛進(jìn)入博弈論領(lǐng)域的人感到困惑。將<沉默、沉默>的結(jié)果與<認(rèn)罪、認(rèn)罪>結(jié)果進(jìn)行比較:大家服刑一年和兩年!
如果成功協(xié)調(diào),沉默不是對雙方都更有利嗎?
然而,囚徒困境中給定的回報(bào),我們看到選擇的傾向性。就是不管你猜測對方會(huì)做什么選擇,總是有一個(gè)策略比另一策略有更佳的回報(bào),它成為主導(dǎo)性的策略。
認(rèn)罪主導(dǎo)了兩個(gè)囚犯的理性判斷,雖然沉默才是對雙方最好的結(jié)果。
這個(gè)游戲很大程度上證明了人性的特征。理性的個(gè)人利益驅(qū)動(dòng)玩家選擇背叛同伴,認(rèn)為這樣他會(huì)得到更好的結(jié)果。他們不會(huì)考慮到:互利的選擇反而是保持沉默。
這也是許多貿(mào)易談判或價(jià)格競爭中,常常出現(xiàn)的情況,揭示人類在這類游戲中缺乏合作的內(nèi)在傾向。

美麗心靈創(chuàng)造「納什均衡」
博弈論者通常用“主導(dǎo)策略”和“納什均衡”這兩個(gè)術(shù)語來區(qū)分玩家所遵循的策略類型。
這兩個(gè)術(shù)語通常一起使用,形成了博弈論建立的基礎(chǔ)。在囚犯困境例子中,玩家的主導(dǎo)策略是背叛/認(rèn)罪。
主導(dǎo)策略不等同納什均衡,在約翰納什眼里,尋找游戲中的平衡點(diǎn)才是他最關(guān)心的議題。
納什均衡之所以如此特殊,是因?yàn)樗俣ㄔ诿恳粋€(gè)博弈中至少有一個(gè)平衡點(diǎn),所有的博弈者都會(huì)更好地找到它并圍繞它形成策略。這一重大啟示幫助政治、戰(zhàn)爭、經(jīng)濟(jì)、商業(yè)和社會(huì)更好地了解世界,形成更好的戰(zhàn)略。
即使在高水平的競爭游戲中(谷歌對蘋果),也存在一種“均衡”。在這種平衡下,雙方都非常了解對方,并堅(jiān)持己方的戰(zhàn)略。例如,在囚犯困境中,納什均衡是矩陣的左上角,即合作。
鷹和鴿子
看到這里,如果你開始對博奕論產(chǎn)生好奇,我們再來看看鷹和鴿子的游戲。
在這個(gè)例子中,我指的不是美國外交政策中的“鷹派”,有趣的是,他們行為中有很多相似的地方?;蛟SESS博弈論可讓我們洞察特朗普總統(tǒng)在全世界發(fā)起貿(mào)易戰(zhàn)的走向。
從定義上講,老鷹總是盡其所能地戰(zhàn)斗,只有遇到嚴(yán)重受傷時(shí)才撤退。相反,鴿子的策略是威脅,從不傷害他人。
鷹的策略是攻擊,不息代價(jià)。鴿子使用展示策略來消磨對手,直到敵人放棄,鴿子就贏了。
作為一個(gè)純粹的假設(shè),我們分配參賽者“分?jǐn)?shù)”。贏50分,輸0分,重傷-100分,耗消時(shí)間被罰10分。
只要鷹遇到鴿子,鷹總是贏,得50分,鴿子是0。
鷹面對另一只鷹,它有一半的勝負(fù)機(jī)會(huì)。如果A鷹贏了,它得到50分,0分是輸?shù)模?00分是嚴(yán)重受傷的。因此,每次戰(zhàn)斗的平均預(yù)期回報(bào)率在+50到-100之間,即-25。
當(dāng)兩只鴿子相遇時(shí),同樣每只鴿子有一半輸贏的機(jī)會(huì),平均收益等于50除以2,減去10分消耗的時(shí)間,即+15。
回報(bào)的結(jié)果如下:

我們嘗試用數(shù)學(xué)公式來表示,博奕論作為一種數(shù)學(xué)模型,經(jīng)常用代數(shù)、甚至微積分來計(jì)算不同策略的價(jià)值:
V代表勝利 = 50,C是付出代價(jià) = -100。
鷹對鴿子:鷹總是贏(鴿子撤退)所以,50 對 0
老鷹對老鷹:兩場比賽都贏了一半,所以,(V - C)/2 = -25
鴿子:總是展示,各贏了一半時(shí)間,等于 V/2 – 10 = 15
為了討論的目的,我們假設(shè)勝利(V)小于代價(jià)(C),所以你可以看到左上角顯示負(fù)25,這并不是有利的狀態(tài)。一個(gè)更好的策略,在這個(gè)矩陣中將是右下角,當(dāng)雙方采取鴿子策略并各自獲得15分。
現(xiàn)實(shí)中鷹派和鴿派的賽局沒那么簡單。當(dāng)V值很高時(shí),玩家會(huì)全面倒向老鷹的策略,成為主導(dǎo)策略 —— 即<老鷹對老鷹>。但動(dòng)物世界里會(huì)產(chǎn)生不平衡的狀態(tài),導(dǎo)致老鷹自傷殘殺。
但當(dāng)V值較低于C值,博弈將有一個(gè)以上的純策略納什均衡 (PSNE) 和一個(gè)混合策略納什均衡 (MSNE)。
如前所述,博弈論學(xué)者用預(yù)測的價(jià)值構(gòu)建數(shù)學(xué)模型和算法,最終得出鷹與鴿子的最平衡的比例。
眼前美中或是日韓的貿(mào)易談判,可以說是在尋找這個(gè)V與C值的平衡點(diǎn)。

在過去博奕論還沒有出現(xiàn)前,我們只看到所謂的零和賽局 (zero sum game),就是所有玩家的利得加起來等于零的賽局。
有人說商業(yè)社會(huì)就是零和游戲,但博奕論告訴我們只要我們愿意彼此合作,產(chǎn)生價(jià)值,其中或許各自能獲得更大的利益。這需要積極的溝通、站在別人立場考慮,從而建立信任的關(guān)系。
生活如果像一場游戲,那我們就好好玩吧!