“AlphGo Zero”為什么青出于藍(lán)——對(duì)比人類和AI的思維方式

2016年阿爾法夠橫空出世,戰(zhàn)勝了人類的最強(qiáng)棋手李世石,雖然還輸了一局。2017年初“Master”在網(wǎng)上橫掃人類高手取得六十比零的戰(zhàn)績(jī)。實(shí)際上2017年的“Master”不再是阿爾法狗的升級(jí)版,而是完全用了新的學(xué)習(xí)模式,開發(fā)者深度思維公司叫它“AlphGoZero”,就是“阿爾法零”

“阿爾法零”和阿爾法狗最大的變化就是不再調(diào)用人類棋譜參考人類的經(jīng)驗(yàn),而是完全用自我對(duì)局的方式進(jìn)行學(xué)習(xí),3天時(shí)間里左右互搏了490萬(wàn)盤就超過了阿爾法狗的水平。

阿爾法狗開發(fā)者哈薩比斯

那么秘訣何在呢?我們要從對(duì)手和人類的思維方式說(shuō)起。

上一篇我就說(shuō)了阿爾法狗和人類相比最強(qiáng)的地方在于大局感。AlphaGo自戰(zhàn)第一局研究——我眼中的“阿爾法狗”圍棋

很多人肯定對(duì)此不以為然,認(rèn)為阿爾法狗最強(qiáng)的是計(jì)算。其實(shí)大局感本身也是一種計(jì)算,只不過更多的側(cè)重于點(diǎn)目,形勢(shì)判斷、分析得失,對(duì)比結(jié)果。從這個(gè)意義上講,大局感是可以量化的!

然而我們?nèi)祟惖拇竽X在計(jì)算局部變化時(shí)也許跟阿爾法狗還是有可比性,但在判斷全局比較各種結(jié)果時(shí)就不行了。下過圍棋的人都知道棋手在面臨讀秒時(shí)最困難的往往不是戰(zhàn)斗,而是判斷,而是收官。因?yàn)閼?zhàn)斗往往是直線型的,目的非常明確,把一個(gè)圖算到底。而形勢(shì)判斷或者大局的選擇則難得多,要同時(shí)對(duì)比很多個(gè)圖。人類的大腦無(wú)法分身進(jìn)行多線程的比較計(jì)算,而這個(gè)正是AI擅長(zhǎng)的,在一瞬間對(duì)比50個(gè)圖的得失和微妙區(qū)別人類做得到么?而AI卻非常輕松。所以阿爾法狗真正碾壓人類的是計(jì)算量巨大的可量化的大局感!

柯潔

我們?nèi)祟悅鹘y(tǒng)的大局感是什么呢?有人以為大局感就是一些大場(chǎng)和“天王山”,其實(shí)這充其量是“布局練習(xí)”。真正的大局觀是貫穿全局的。很多人把大局感誤以為是一種感覺、一種構(gòu)思,側(cè)重于藝術(shù)化的東西。實(shí)際上大局感也是一種計(jì)算,是一種經(jīng)驗(yàn)的歸納和提煉。人類為了彌補(bǔ)自己在大局計(jì)算上的弱點(diǎn)另辟蹊徑,認(rèn)真研究了許多理論,總結(jié)了許多棋型,從而歸納出什么場(chǎng)面下可以走,什么樣的變化必然吃虧,比如常說(shuō)的“中腹開花三十目”。

我們?nèi)祟惖捻敿馄迨直热鐓乔逶创髱?,在時(shí)間計(jì)算能力有限的情況之下,利用自己的經(jīng)驗(yàn)和直覺在一剎那進(jìn)行判斷,走出了“神之一手”!這是人類一種了不起的能力!如果人機(jī)同時(shí)限制計(jì)算量只靠直覺的話,我絕對(duì)看好人類!

如果說(shuō)阿爾法狗超越人類在于可量化的大局感,那么“阿爾法狗零”超越阿爾法狗并不說(shuō)明人類思維方式的錯(cuò)誤,只是說(shuō)明人類的思維方式不適合AI。阿爾法狗學(xué)習(xí)了許多人類的知識(shí)和經(jīng)驗(yàn),但這些經(jīng)驗(yàn)都是以人類大腦的計(jì)算能力學(xué)習(xí)方式為基礎(chǔ)的。

考慮到一個(gè)人一生下棋有限,高手能下上萬(wàn)盤就了不得了,但AI的一天就能自我對(duì)局一百萬(wàn)盤。而且人類頂尖棋手不過百年,(100歲的吳清源大師是有史以來(lái)最長(zhǎng)壽的棋手可謂功能圓滿)而下一代頂尖棋手又要從頭開始,有一個(gè)歸零的過程。但阿爾法狗不需要。反之,你讓阿爾法狗每下一萬(wàn)盤棋就清零重來(lái),它還能有這么厲害嗎?

昭和棋圣吳清源

所以人類的圍棋經(jīng)驗(yàn)不適合阿爾法狗。

舉個(gè)例子

人類馬拉松選手和賽車手一起參加拉力賽。馬拉松選手最重要的經(jīng)驗(yàn)是調(diào)整呼吸,而賽車手只要猛踩油門就行了,不是一回事呀!你讓賽車手去找長(zhǎng)跑選手取經(jīng),還不如讓他自己開著車瞎練呢!這就是“阿爾法狗零”比阿爾法狗更厲害的原因。因?yàn)樗耆珤仐壛巳祟惖乃伎挤绞?。直接用賽車手的方式去開車,當(dāng)然比讓他坐在車上調(diào)整呼吸好。

人工智能對(duì)局還有一個(gè)特點(diǎn)就是頻繁的棄子轉(zhuǎn)換和打劫。其實(shí)人類高手也有這個(gè)特點(diǎn),比如吳清源經(jīng)常進(jìn)行轉(zhuǎn)換,聶衛(wèi)平喜歡打劫。就像上面我說(shuō)的,人類高手主動(dòng)采取這種戰(zhàn)術(shù),是因?yàn)樗麄兊拇缶峙袛嘀庇X棋感都要比對(duì)手出色。而隨著商業(yè)比賽的流行,人類圍棋對(duì)局時(shí)間越來(lái)越短。從最早的不限時(shí),一盤棋能下幾個(gè)月,到吳清源時(shí)代下幾天,到日本的兩日制,到現(xiàn)在的30分鐘快棋。

人類的圍棋戰(zhàn)術(shù)也發(fā)生了很多變化,不再走得這么自由奔放。而是許多地方經(jīng)驗(yàn)優(yōu)先,其實(shí)是為了節(jié)省時(shí)間。人類也不再進(jìn)行頻繁的棄子轉(zhuǎn)換和打劫,并不一定是水平下降,更多地是時(shí)間有限以及為了更穩(wěn)妥地戰(zhàn)勝對(duì)手,也就是說(shuō)時(shí)間限制了人類水平的發(fā)揮。而在這個(gè)問題上AI因?yàn)槟芡瑫r(shí)進(jìn)行多線程計(jì)算,時(shí)間幾乎是無(wú)限的,因此AI在這個(gè)需要大量時(shí)間的項(xiàng)目上極為出色。比如我們看AlphGo Zero自我對(duì)局的第二局,全局都是在棄子轉(zhuǎn)換打劫中度過的。

總結(jié):

人類的大局感,本質(zhì)也是一種計(jì)算。是點(diǎn)目、形勢(shì)判斷、分析對(duì)比的綜合。

哲理

人類高手的大局感更多是經(jīng)驗(yàn)的提煉和總結(jié),利用直覺在一剎那做出判斷,這是非常了不起的能力。

AI在大局的判斷上只要進(jìn)行多線程多圖計(jì)算比較就可以完成,而人類的大腦顯然沒那么容易。

AI能頻繁的進(jìn)行棄子和轉(zhuǎn)換,是因?yàn)槟軌螂S時(shí)進(jìn)行大量的計(jì)算和判斷。而人類沒有這么強(qiáng)大的能力,因此也不會(huì)采取這樣自由奔放的戰(zhàn)術(shù)。

阿爾法狗零比阿爾法狗更厲害并不證明人類思維方式的錯(cuò)誤,只是由于AI和人類計(jì)算模式的不同。就像我說(shuō)的賽車手只要猛踩油門,不必再去調(diào)整呼吸一個(gè)道理。

“AlphGo Zero”來(lái)了,但這不是圍棋的末日,而是圍棋新世紀(jì)的開始。我們將在棋盤上以欣喜的心情觀賞著“神之一手”。

我們?nèi)祟惖膰宕髱熥吭降募妓囈稽c(diǎn)也不會(huì)因?yàn)锳I的強(qiáng)大而貶值,反而更加珍貴,更加令人神往。在人類短短的一生中,在有限的對(duì)局中,竟然也能下出這樣的“神之一手”。凡人竟然也如此接近圍棋的頂峰。

現(xiàn)在回過頭來(lái)反觀吳清源大師,絕對(duì)是人類中最偉大的棋手,也許是最后一位。他已成為圍棋界的里程碑,他就是我們?nèi)祟悋迨澜绲慕鹱炙?!阿爾法狗只?huì)證明吳清源的才華,帝國(guó)大廈無(wú)損金字塔的偉大。

畢竟,圍棋是我們?nèi)祟惖挠螒?。至少在目前為止,我們勝利后的歡樂和失敗后的沮喪,還不是阿爾法狗所能具有的。這個(gè)就已經(jīng)足夠了。

這是圍棋世界的阿爾法狗嗎?

五千年的時(shí)間俯瞰著我的臉。

一千年,在你眼中,只是短短的一天。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容