合作的進化

關(guān)于作者

羅伯特·阿克塞爾羅德,著名的行為分析與博弈論專家,美國科學(xué)院院士。他擅長于運用計算機模型來分析社會科學(xué)問題,是這個領(lǐng)域的權(quán)威學(xué)者。

關(guān)于本書

本書是研究合作問題領(lǐng)域的最重要著作之一。作者根據(jù)博弈論原理設(shè)計了一系列計算機仿真游戲,以此來探究,在人人都自私自利的情況下,合作是如何產(chǎn)生的?產(chǎn)生之后又是如何維系的?著名進化生物學(xué)家、《自私的基因》作者理查德·道金斯認為,對于人類社會的進步而言,這本書比《圣經(jīng)》更重要。

核心內(nèi)容

一、這個游戲到底是怎么玩兒的;
二、這個游戲給了我們什么重要啟示;
三、這個游戲在多大程度上反映了真實世界?

前言

《合作的進化》,一本博弈論領(lǐng)域的必讀經(jīng)典。這本書非常重要,它深入探討了一個事關(guān)人類社會存在的根本問題:假設(shè)人人都自私自利,合作是如何產(chǎn)生的?產(chǎn)生之后又是如何維系的?

你有沒有想過這樣一個問題:在人類最初的社會制度出現(xiàn)之前,人是怎樣生活的?在中國古人的想象中,那是一個人人友愛和睦的“大同”社會,類似于陶淵明筆下的世外桃源。當然也有截然相反的想象,比如英國政治哲學(xué)家霍布斯就認為,原始的自然狀態(tài)奉行叢林法則,人與人之間不存在信任和友誼,每個人都自私自利、各自為政、一片混戰(zhàn),是“一切人對一切人的戰(zhàn)爭”。霍布斯說,在這種情況下,合作不可能在個體之間自發(fā)產(chǎn)生,而只能通過一個強有力的政府來建立。真的是這樣嗎?

為了搞清楚合作究竟是如何產(chǎn)生的,本書作者根據(jù)博弈論原理設(shè)計了一系列計
算機仿真游戲。游戲結(jié)果出乎所有人意料:那些更愿意合作、從不首先背叛的“好人策略”全面勝利,而那些總想著時不時背叛一把來撈取好處的“壞人策略”都沒好下場。也就是說,壞人最終占不到便宜,只有好人才能夠笑到最后。這與我們大多數(shù)人的直覺剛好相反。

游戲結(jié)果證明了,即使在霍布斯想象的叢林競爭中,也只有合作策略才是最優(yōu)生存策略,人們僅僅為了個人利益也會自發(fā)地展開合作。這就使得合作機制不僅可以在競爭對手之間自發(fā)形成,而且能夠長期維持,甚至是不斷進化。這就是書名《合作的進化》的含義。

本書作者阿克塞爾羅德,是著名的博弈論專家、美國科學(xué)院院士。他這本《合作的進化》一出版,就成了研究合作問題的最重要著作。著名進化生物學(xué)家、《自私的基因》作者理查德·道金斯甚至認為,對于人類社會的進步來說,《合作的進化》比《圣經(jīng)》更重要。

好了,介紹完這本書的基本情況,下面,我從三個方面來給你詳細介紹,阿克塞爾羅德設(shè)計的這個博弈游戲的來龍去脈:第一,這個游戲到底是怎么玩兒的;第二,這個游戲給了我們什么重要啟示;第三,這個游戲在多大程度上反映了真實世界?

第一部分

下面我們就先來說第一點,這個博弈游戲到底是怎么玩兒的?
一說到博弈論,我們立馬就會想到經(jīng)典的“囚徒困境”模型。囚徒困境是這樣的:兩個犯人被抓,如果雙方都招供,證據(jù)確鑿,則兩人各判3年;如果一方招供一方不招,那么招供的一方將功贖罪立馬釋放,不招的一方判5年;如果雙方都打死不招,則證據(jù)不足,各判1年。

為了方便計算,游戲中把這個模型簡化為:如果兩個人相互合作,各得3分;如果兩個人相互背叛,各得1分;如果一方合作一方背叛,那么合作者得0分,背叛者得5分。可以看出,暗算別人的好處最大,但是如果兩個人都要暗算對方,那么雙方都無利可圖。游戲中,每個人都根據(jù)自己的利益計算來選擇是合作還是背叛。

阿克塞爾羅德設(shè)計的游戲,就是用計算機模擬囚徒困境,而且是多次重復(fù)博弈。為了保證游戲的高水平,他精心挑選了14個精通博弈論的專家,邀請他們將自己的博弈策略編寫成計算機程序提交。這些專家都非等閑之輩,他們來自于數(shù)學(xué)、心理學(xué)、經(jīng)濟學(xué)、政治學(xué)、社會學(xué)等多個學(xué)科領(lǐng)域,據(jù)說其中還包括美國前國務(wù)卿基辛格。

專家們提交的博弈策略五花八門,但總的來說可以分為兩類:一類是好人策略,它們更愿意合作,從不首先背叛對方;另一類是壞人策略,它們總是琢磨著時不時地背叛一把,來撈取更大好處。除此之外,阿克塞爾羅德還加入了一個隨機策略,它在每個回合中都隨機選擇是合作還是背叛。

這15個策略在計算機上進行一對一的循環(huán)賽,整個循環(huán)賽重復(fù)了5次,一共是12萬個回合,猜猜看,在12萬個回合的大混戰(zhàn)之后,哪類策略最終勝出了?結(jié)果連阿克塞爾羅德自己都不敢相信:得分排名前8位的是清一色的好人策略,而6個壞人策略和1個隨機策略排在最后7位。也就是說,好人大獲全勝,壞人全線潰敗,這簡直就是童話一般的美好結(jié)局。

也許是對這個結(jié)果不太放心,阿克塞爾羅德隨后又組織了第二輪比賽。這次的參賽人數(shù)擴大到了62人,每個參賽者都知道第一輪比賽的結(jié)果,可以從中吸取經(jīng)驗教訓(xùn),并且改進這些策略。加上隨機策略,這一次有63個策略參賽,進行了上百萬個回合的混戰(zhàn),結(jié)果怎樣呢?和第一輪的情況非常相似,好人策略又一次獲得了壓倒性優(yōu)勢:得分排名前15位中只有一個壞人策略,排在第8;而得分排名最后15位中只有一個好人策略。

現(xiàn)在的問題是:“好人得好報”的結(jié)果究竟是怎么來的?在深入分析比賽數(shù)據(jù)后,阿克塞爾羅德揭開了其中的緣由:好人策略之所以表現(xiàn)突出,不是因為它們在面對壞人策略時特別能打,而是因為它們能夠抱團取暖,如果好人策略遇到好人策略,就能從頭到尾始終保持合作,于是都能拿高分。相反,如果壞人策略遇到壞人策略,就總是相互背叛,結(jié)果雙輸。要是好人策略遇到壞人策略呢?雖然一開始壞人策略占優(yōu),但一旦好人策略反應(yīng)過來開始反擊,壞人策略也就無利可圖。這些情況綜合起來,還是好人策略更占優(yōu)勢。

除此之外,還有一點更令人驚訝,在這兩輪比賽中奪冠的,是同一個好人策略,叫做“一報還一報”。它的行動原則非常簡單,也就是:第一步選擇合作,從第二步開始,重復(fù)對手上一步的動作,對手合作,我也合作;對手背叛,我也背叛。這一策略看上去簡單粗暴,沒有什么心機可言,其實非常高明。

首先,它是善良的,它一開始就選擇合作,而且絕不會先背叛對方。其次,它是不好欺負的,如果對手背叛,它會馬上用背叛來反擊,這就讓對手不敢輕舉妄動。第三,它是寬容的,如果對手恢復(fù)合作,那么它也恢復(fù)合作,既往不咎。第四,它的行為模式是清晰的,簡單明了,別人一看就懂,知道從它身上占不到便宜,只能選擇合作。阿克塞爾羅德認為,這四大優(yōu)點,也就是善良、不被欺負、寬容和清晰,正是“一報還一報”策略能夠連續(xù)奪冠的根本原因。

我們通過對比其他幾個參賽策略,就能看出這四大優(yōu)點的重要性。比如,在第一輪中得分最低的好人策略,也就是排名第8位的弗里德曼策略。同樣是第一步選擇合作,而且不首先背叛,但是,只要對方出現(xiàn)一次背叛,它就永遠以背叛來報復(fù),絕不寬容,這種過于小心眼的反應(yīng)導(dǎo)致了它在好人策略中得分最低。從這可以看出,寬容性是非常重要的,因為一旦出現(xiàn)背叛,只有具備寬容性的策略才能重新建立起合作。

但是反過來說,過于寬容、太好說話的策略也有問題,因為有些壞人策略就是專門欺負這種軟骨頭的。比如有個很有實力的壞人策略叫做“唐寧策略”,它的決策規(guī)則非常復(fù)雜,通過不斷試探對方的底線來調(diào)整自己的方案。如果發(fā)現(xiàn)對方睚眥必報,它就乖乖合作;而如果發(fā)現(xiàn)對方很好說話,它就試著增加背叛的次數(shù),或者干脆合作與背叛輪流出現(xiàn)。于是,很多好人策略在與唐寧策略相遇時都吃了大虧。從這兒可以看出,“一報還一報”策略的有仇必報特性相當重要,不給壞人可乘之機。

以上就是為你講述的第一個重點,這個博弈游戲到底是怎么玩兒的。其實就是在計算機上模擬囚徒困境,而且是多次重復(fù)博弈。在兩輪比賽中好人策略都大獲全勝,而冠軍是一個非常簡單的“一報還一報”策略,它擁有四大優(yōu)點,也就是善良、不被欺負、寬容和清晰。

第二部分

顯然,專家們做游戲并不是為了好玩兒,而是用這個游戲來模擬現(xiàn)實世界中人們的真實博弈。人人都渴望在現(xiàn)實世界中成為贏家,那要如何才能贏呢?這個游戲給我們帶來了一些重要啟示。這就是接下來要講的第二個重點。

前面說了,冠軍策略“一報還一報”擁有善良、不被欺負、寬容和清晰這四大優(yōu)點。我們想在現(xiàn)實博弈中獲勝,肯定要向冠軍策略學(xué)習。對此,阿克塞爾羅德給了我們四點具體建議:第一,不要嫉妒;第二,不要首先背叛;第三,賞罰分明;第四,不要耍小聰明。下面我們就一條一條來看。

首先是不要嫉妒。參加這個游戲最重要的一點,就是要時刻記住,這和下圍棋、象棋不一樣,它不是一個零和博弈,也不是一次性博弈。獲勝的關(guān)鍵不是靠打壓對方,而是要通過創(chuàng)造長期合作來實現(xiàn)共贏。具體在每局中誰拿多一點、誰拿少一點,其實并不重要,沒必要斤斤計較。

一個有力的證據(jù)就是,冠軍策略“一報還一報”在比賽中,沒有一個回合是比對手多得分的。它的策略決定了它只能和對手拿一樣多,或者比對手少。但是十幾萬個回合下來,它的累計得分卻是最多的。這很好地說明了,自己想要成功,就要首先幫助別人成功。

第二條建議是不要首先背叛。在游戲中,從不首先背叛的是好人策略,總琢磨著時不時背叛一把的是壞人策略。壞人策略看似機關(guān)算盡,在某些具體回合中也能暫時占優(yōu),但同時,壞人策略被報復(fù)的次數(shù)也最多。出來混總是要還的,最后一算總賬,壞人策略是最大輸家。所以這條建議也可以簡稱為“不作惡”。

第三條建議是賞罰分明。也就是說,別人合作就要以合作來回報,別人背叛就要以背叛來反擊,千萬不可以和稀泥、做濫好人,否則就會被壞人當軟柿子捏,吃虧的是自己。

第四條建議是不要耍小聰明。游戲中有一個現(xiàn)象很有意思:第一輪比賽結(jié)束之后,大家發(fā)現(xiàn)“一報還一報”雖然奪冠,但它并不是完美無缺的,實際上還有改進的空間,比如說,它對于隨機策略過于友善。隨機策略的每次選擇都是隨機的,與對手的行為無關(guān),所以面對隨機策略時,當然是每次都背叛才是最明智的。有時候,“一報還一報”又顯得過于嚴厲,比如當兩個“一報還一報”策略相遇時,一次偶然的背叛會讓雙方陷入相互報復(fù)的循環(huán),進入鎖死狀態(tài),無法恢復(fù)合作。

針對“一報還一報”的這些弱點,第二輪的參賽選手對它做了不少改進,很多參賽策略其實是原始“一報還一報”策略更加復(fù)雜的升級版,但萬萬沒想到的是,在第二輪比賽中,仍然是原始版“一報還一報”策略奪冠,那些精心設(shè)計的升級版統(tǒng)統(tǒng)沒有達到預(yù)期的效果。這是為什么呢?

阿克塞爾羅德認為,這一方面是因為,你的規(guī)則越復(fù)雜,就意味著你出現(xiàn)漏洞的可能性越大;另一方面,過于復(fù)雜的決策規(guī)則可能讓對手看不懂,而誤以為你是隨機策略。前面說了,大家面對隨機策略時,最明智的選擇就是永遠背叛,這顯然是你最不愿意出現(xiàn)的情況。

這里也可以看出,零和博弈游戲與阿克塞爾羅德游戲有一個非常重要的區(qū)別。零和博弈的意思是,如果你有利益,別人就一定有損失,雙方不可能合作。玩零和博弈時,你將自己的戰(zhàn)略意圖隱藏得越深,就容易獲勝。而玩阿克塞爾羅德游戲則相反,你的行為規(guī)則越簡單越好,別人一看就懂,知道該怎樣與你合作,你的贏面才越大?,F(xiàn)實世界中的博弈并不是零和博弈,而是更接近于阿克塞爾羅德游戲,所以像郭靖、阿甘、許三多這樣的人,始終用最簡單的策略來處世,反而能成為最大贏家。

這就是阿克塞爾羅德給我們的建議:不要嫉妒、不要作惡、賞罰分明、不耍小聰明。除此之外,還必須注意一點,阿克塞爾羅德游戲有一個前提條件,就是博弈的回合數(shù)要足夠多,未來的利益要足夠重要。這一點特別關(guān)鍵,它是包括“一報還一報”在內(nèi)的好人策略能夠勝出的必要條件。也就是說,合作的基礎(chǔ)并不是我們通常認為的信任、友誼或者利他主義等等,而是長久的利益關(guān)系。如果只是一錘子買賣,完全不用考慮未來,或者未來利益相對于眼前利益不那么重要,那么就不可能建立起穩(wěn)定的合作模式。

從這里我們也可以得到一條重要啟示:如果想要促成合作,我們就要想方設(shè)法增加未來的影響力,讓未來的合作利益盡可能地重要。具體辦法是,一方面要把合作周期拉長,與對方建立起長久的利益關(guān)系,另一方面要增加互動的頻率,大家抬頭不見低頭見,就更容易建立起合作。比如在商務(wù)合作時,雙方可以簽訂一個盡可能長期的大合同,但是驗收和付款要劃分成很多次??傊灰磥碜銐蛑匾?,合作就比背叛更劃算,合作才能穩(wěn)定持續(xù)。

好了,以上就是為你講述的第二個重點,這個游戲給了我們哪些重要啟示。我們想要在現(xiàn)實博弈中獲勝,就要向冠軍策略“一報還一報”學(xué)習,記住四條重要建議:不要嫉妒、不要作惡、賞罰分明、不耍小聰明。同時,要增加未來的影響力,確保未發(fā)生來的利益足夠重要,合作才能穩(wěn)定持續(xù)。

第三部分

那么,是不是掌握了這幾條建議,我們就可以在現(xiàn)實博弈中所向披靡、成為人生贏家了呢?肯定沒這么簡單。阿克塞爾羅德游戲的結(jié)果非常正能量,好人總是可以笑到最后。問題是,現(xiàn)實真的這么樂觀?這個游戲到底在多大程度上反映了真實的世界?這就是接下來我們要講的第三個重點。

先來說說這個游戲模擬真實世界比較成功的地方。首先,它假設(shè)每個參與者都是自私的,無論是合作還是背叛都是利益權(quán)衡的結(jié)果,不需要預(yù)設(shè)道德前提,也不需要信任關(guān)系。其次,不需要一個中央權(quán)威來干預(yù)決策,所有選擇都是個人的自主決定。第三,參與博弈的策略五花八門,有的理性有的瘋狂,有的投機有的保守,有的善良有的陰險,有的強硬有的軟弱,總之你能想得到的所有策略都可以拿來參賽。第四,博弈的回合數(shù)足夠多,也就意味著未來足夠重要。

可以說,這幾點都很好地模擬了現(xiàn)實世界的情況,是游戲比較成功的地方。那么,這個游戲有沒有與現(xiàn)實不太符合的地方呢?我們有個最直觀的感受,就是游戲的結(jié)果似乎過于美好了,讓人有點兒不敢相信。

事實上,阿克塞爾羅德還推演出了一個更樂觀、更加不可思議的結(jié)論。他認為,隨著時間的推移,好人會越來越多,合作越來越牢固,而壞人會被自然淘汰,基本滅絕。這就是他所說的“合作的進化”,他是用生物演化的方式來模擬“合作的進化”過程:假設(shè)在第一輪比賽中,A 策略的得分是 B 策略的兩倍,這意味著 A 策略的生存優(yōu)勢是 B 策略的兩倍。根據(jù)適者生存、優(yōu)勝劣汰的道理,在第二輪比賽中,就要有更多的 A 策略參賽,它的數(shù)量是 B 策略的兩倍。那么,這樣進行1000輪比賽,也就是進化1000代,會發(fā)生什么呢?

計算機結(jié)果顯示,1000代之后,所有的壞人策略都滅絕了,存活下來的全部是好人策略,而且仍然是“一報還一報”占絕對優(yōu)勢。阿克塞爾羅德從中得到的啟示是:合作的進化是不可逆轉(zhuǎn)的。也就是說,合作一旦建立,優(yōu)勝劣汰的機制也開始發(fā)揮作用。人們發(fā)現(xiàn)好人策略可以在競爭中占優(yōu),那么,大家為了自身利益著想,都會爭當好人。久而久之,社會上的好人就越來越多,壞人自取滅亡,最終滅絕,而且整個過程一旦啟動就不會被逆轉(zhuǎn)。

很顯然,這個過于樂觀的結(jié)論是與現(xiàn)實情況不相符合的。人類社會演化至今,早就不止1000代了,不但壞人沒有滅絕,而且很難說到底是好人占優(yōu)還是壞人占優(yōu)。那么,問題到底出在哪里?是阿克塞爾羅德的推演出現(xiàn)了漏洞嗎?是的。這個漏洞很隱蔽,一般人發(fā)現(xiàn)不了,但逃不過高手的眼睛,比如著名哲學(xué)家趙汀陽。

趙汀陽指出,阿克塞爾羅德游戲的一個最大漏洞,是它的“殺不死”假定。就是說,游戲中沒有人能夠消滅對方、讓對方完全出局,每個人永遠有卷土重來的機會。這等于是嚴格限制了壞人作惡的破壞力,讓好人自帶主角光環(huán),無論怎樣都不會掛掉。這顯然與現(xiàn)實不符,現(xiàn)實中的背叛往往是一擊致命的,失敗者永遠沒有機會翻盤。

鑒于這種情況,可以稍微調(diào)整一下游戲規(guī)則:一旦某個策略累計被單方背叛N 次,也就是得了 N 次零分,那么這個策略就出局了,徹底退出比賽。這樣一來,游戲結(jié)果就會有很大的不同。不太可能出現(xiàn)朝好人一邊倒的情況,而更可能是好人策略和壞人策略各有勝負。

除此之外還有一些問題。比如,游戲中每個人的所作所為一目了然,一旦背叛就可能遭到報復(fù),而現(xiàn)實中很多時候是“暗算”,并不是每次背叛都能被發(fā)現(xiàn);再比如,每個參賽者采用什么策略,是程序一開始就設(shè)定好的,在整個比賽中不能更改,好人即使吃虧也只能硬扛著,而實際情況是,一旦有好人遭到背叛而掛掉,或者壞人做壞事卻沒被發(fā)現(xiàn),就可能導(dǎo)致很多好人“棄明投暗”,轉(zhuǎn)向壞人策略,這樣壞人就會越來越多,和阿克塞爾羅德的結(jié)論剛好相反。

當然還可能出現(xiàn)好人和壞人的實力不均等,導(dǎo)致好人實際上無法做到“一報還一報”等情況。這些事實綜合起來,使得社會的真實演化過程,并不是像阿克塞爾羅德所說的那樣,朝著合作的單方向進化,而是一個波動循環(huán)。如果回到霍布斯想象的自然狀態(tài),假設(shè)一開始人人都是壞人,作惡就占不了什么便宜,因為相互背叛的結(jié)果是每個人收益都很低。這時候如果出現(xiàn)一些好人,哪怕數(shù)量相當少,但他們彼此合作能獲得穩(wěn)定的收益,這比壞人更有優(yōu)勢。以阿克塞爾羅德的話來說,就是好人小集體能夠“侵入”壞人集團。

如果到這里為止,社會的確是朝著合作的方向進化的,但是之后會發(fā)生什么呢?當好人越來越多、壞人相對減少,這意味著,壞人之間彼此碰面、相互傷害的幾率就變小了,而壞人遇到好人的幾率變得更高,壞人通過單方背叛來撈一把的成功率就大大提升。大家看見當壞人有利可圖,就紛紛拋棄好人策略轉(zhuǎn)而當壞人,于是合作的進化就開始逆轉(zhuǎn),合作越來越少,背叛越來越多,又回到霍布斯所說的自然狀態(tài)。

所以說,社會的真實演化進程并不是單向的,而是在這兩種情況之間來回波動。合作與背叛的選擇,是個動態(tài)博弈的過程,無論是好人策略還是壞人策略都不可能獲得一勞永逸的勝利,這是我們應(yīng)該要看到的。

好了,以上就是為你講述的第三個重點。這個游戲模擬現(xiàn)實世界比較成功的地方在于,它不需要預(yù)設(shè)道德前提,不要中央權(quán)威的干預(yù),參與的策略多種多樣,博弈的回合數(shù)足夠多等等。但是它也存在一些漏洞,比如“殺不死”假設(shè),以及認為合作是單向演化的。

總結(jié)

這本書的精華內(nèi)容就給你講到這兒,下面來簡單總結(jié)一下為你分享的內(nèi)容。

第一,這個游戲其實就是在計算機上模擬囚徒困境,而且是多次重復(fù)博弈。在兩輪比賽中好人策略都大獲全勝,而冠軍是一個非常簡單的“一報還一報”策略,它擁有善良、不被欺負、寬容和清晰這四大優(yōu)點。

第二,這個游戲給我們的啟示是,如果我們想要在現(xiàn)實博弈中獲勝,就要向冠軍策略“一報還一報”學(xué)習,記住四條重要建議:不要嫉妒、不要作惡、賞罰分明、不耍小聰明。同時,要增加未來的影響力,確保未來足夠重要,合作才能穩(wěn)定持續(xù)。

第三,這個游戲模擬現(xiàn)實世界比較成功的地方在于,它不需要預(yù)設(shè)道德前提,不要中央權(quán)威的干預(yù),參與的策略多種多樣,博弈的回合數(shù)足夠多等等。但是它也存在一些漏洞,比如“殺不死”假設(shè),以及認為合作是單向演化的。

最后,我再談一點感想。合作問題可以說是人類社會的頭等大事,如何才能讓人類社會實現(xiàn)合作最大化、沖突最小化,讓人類走出“囚徒困境”的牢籠,一直是古今中外的思想家們苦苦探索的問題。阿克塞爾羅德游戲的結(jié)論在某種程度上和儒家思想是相通的,都相信“仁者無敵”。

游戲結(jié)果表明,在一定條件下,做好人能夠獲得顯著的生存優(yōu)勢,這就給了我們希望,人類社會建立起永久合作是有可能的。但另一方面,我們也不能過于樂觀,游戲與現(xiàn)實還是存在一定差距。光靠個人的利益博弈,還不足以讓破壞合作的壞人壞事徹底消失,制度建設(shè)、道德建設(shè)也仍然是不可或缺的。

資料來源于得到

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容