AlphaGo人機(jī)大戰(zhàn)隨想 -- 作者: 饞宗通吃

本文是我的好友饞宗通吃觀戰(zhàn)后的感想,我?guī)兔Πl(fā)布在簡(jiǎn)書。如需轉(zhuǎn)發(fā)請(qǐng)通知我,謝謝。

補(bǔ)充:我這個(gè)好友大學(xué)專業(yè)是計(jì)算機(jī)相關(guān)的,大學(xué)期間學(xué)過(guò)神經(jīng)網(wǎng)絡(luò),寫過(guò)棋類程序,也算是典型圍棋愛(ài)好者。



AlphaGo 4:1 李世石,人機(jī)大戰(zhàn)落幕。估計(jì)大部分人和我一樣,從賽前對(duì)AlphaGo的輕視,到AlphaGo突然戰(zhàn)勝人類九段的吃驚,再到李世石屢敗屢戰(zhàn)后點(diǎn)穴般“神之一手”的驚艷,到最后接受人工智能戰(zhàn)勝人類九段的同時(shí),又有一點(diǎn)點(diǎn)的感傷和對(duì)未來(lái)的擔(dān)心。

本人吃貨一枚,稍微研究過(guò)人工智能,現(xiàn)在陪小孩學(xué)圍棋玩。下面從幾方面隨便聊聊自己的想法,也算是對(duì)這些天自己心路歷程的一個(gè)記錄吧。

一、說(shuō)說(shuō)狗狗(注1)

AlphaGo由3部分構(gòu)成:Policy Networks/Value Networks /蒙特卡羅搜索樹(shù)(MCTS)。下面簡(jiǎn)單介紹它們仨。

1)Policy Networks

Policy Networks根據(jù)當(dāng)前局面,評(píng)估下一步走哪里?它分為兩部分,Supervised Learning Policy Networks和Reinforcement Learning Policy Networks。

Supervised Learning Policy Networks是一個(gè)13層深度的人工神經(jīng)元網(wǎng)絡(luò),它學(xué)習(xí)了KGS Go Server里所有的專業(yè)棋譜,合共3000萬(wàn)步棋。學(xué)習(xí)完成后,如果你“問(wèn)”SL Policy Networks記不記得某個(gè)學(xué)習(xí)過(guò)的棋譜里下一步棋應(yīng)該走哪里,Policy Networks回答有57%和棋譜里一致。呵呵,貌似阿爾法狗狗的記憶力很一般呀!其實(shí)不然,剩下43% SL Policy Networks憑“感覺(jué)”給出的棋,我猜如果其中有一小半不是太壞的招,那么SL Policy Networks針對(duì)學(xué)習(xí)過(guò)的局面給出的下一步棋,有70%左右是不差的?。?!但這還沒(méi)完,阿爾法狗狗還要再自我強(qiáng)化一把,就是Reinforcement Learning Policy Networks。

Reinforcement Learning Policy Networks是SL Policy Networks的加強(qiáng)版,就是拿一個(gè)選定的SL Policy Networks不斷跟一群隨機(jī)選擇的SL Policy Networks內(nèi)部比賽,不斷修正自己。最終,這個(gè)選定的SL Policy Networks被強(qiáng)化到有80%的內(nèi)部比賽勝率。有沒(méi)有養(yǎng)一堆毒蟲讓它們互相廝殺剩下一個(gè)的感覺(jué)?用一個(gè)開(kāi)源的圍棋軟件Pachi作為參考對(duì)手,阿爾法狗狗用SL Policy Networks勝率是11%,而用優(yōu)勝劣汰脫穎而出的RL Policy Networks勝率暴漲到85%。

2)Value Networks

Value Networks跟Policy Networks類似,它根據(jù)當(dāng)前局面,預(yù)估己方勝率是多少。訓(xùn)練方式也是如出一轍,先用KGS Go Server里的棋譜訓(xùn)練。訓(xùn)練出一批Value Networks之后,它們?cè)倩ハ郟K,得到一個(gè)預(yù)估勝率最準(zhǔn)確的Value Networks,叫做Reinforcement Learning Value Networks。我們是不是該對(duì)股評(píng)專家也采用類似的方式對(duì)待呢?嗯,評(píng)股,養(yǎng)蠱,諧音啊~

3)蒙特卡羅搜索樹(shù)(MCTS)

蒙特卡羅是一類隨機(jī)方法的統(tǒng)稱。舉個(gè)例子,假如筐里有100個(gè)蘋果,讓我每次閉眼拿1個(gè),挑出最大的。于是我隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……我每拿一次,留下的蘋果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋果就越大,但我除非拿100次,否則無(wú)法肯定挑出了最大的。這個(gè)挑蘋果的算法,就屬于蒙特卡羅算法——有限時(shí)間內(nèi)盡量找好的,但不保證是最好的。(注2)

AlphaGo大概就是這樣運(yùn)作的,當(dāng)前局面有很多下法(平均200個(gè)落子點(diǎn)),用Policy Networks把“覺(jué)得不錯(cuò)”的落子點(diǎn)優(yōu)先標(biāo)出來(lái),然后蒙特卡洛搜索樹(shù)(MCTS)會(huì)開(kāi)動(dòng)腦筋,如果狗狗我這樣這樣落子而對(duì)方就會(huì)那樣那樣回應(yīng)……MCTS對(duì)于每個(gè)想到的局面,會(huì)有一個(gè)評(píng)分:綜合考慮Value Networks評(píng)分和一個(gè)隨機(jī)得分(the outcome zL of a random rollout played out),公式是這樣子的:

最后AlphaGo會(huì)選一個(gè)得分(勝率)最高的下法。關(guān)于評(píng)分,我覺(jué)得DeepMind這里并沒(méi)有講太清楚,圍觀群眾也不必深究(也可查閱論文原文)。只需要明白狗狗的思路既可,狗狗的世界大概是這樣的:

狗狗根據(jù)以往的經(jīng)驗(yàn)(“感覺(jué)”)選一些下法,隨機(jī)也選一些下法,發(fā)揮計(jì)算力特長(zhǎng)搜索評(píng)估不同局面,最終選擇勝率最高的下法。只要選的下法足夠多,就很可能逼近最佳下法。這樣看來(lái),狗狗有種“大膽猜測(cè),小心求證”的味道,DeepMind厲害。

從娛樂(lè)的角度看,阿爾法狗狗可以看作是:根據(jù)經(jīng)驗(yàn)抓一批人,隨機(jī)也抓一批人,都?xì)⒌?!錯(cuò)殺三千,也許 “那一個(gè)”就逃不了!如果給狗狗更多的時(shí)間和CPU,就殺三萬(wàn)三十萬(wàn),“那一個(gè)”就更難逃脫了!?。『眯皭汉醚葉

從計(jì)算機(jī)搜索樹(shù)剪枝算法角度看,AlphaGo是:用Policy Networks來(lái)剪枝,用Value Networks模糊估值和隨機(jī)估值(減少思維盲點(diǎn))結(jié)合,達(dá)到在有限時(shí)間和硬件條件下,盡量找到好的下法!從結(jié)果來(lái)看,狗狗在“時(shí)間/空間/準(zhǔn)確性”方面找到了較好平衡點(diǎn),贊一個(gè)。

最后說(shuō)說(shuō)AlphaGo的硬件配置: 本次比賽使用單機(jī)版本48 CPUs + 8 GPUs,40條線程并行計(jì)算;分布式版本用到多臺(tái)機(jī)器,合共1202 CPUs + 176 GPUs,每臺(tái)機(jī)器40線程。

圖例:How AlphaGo (black, to play) selected its move in an informal game against Fan Hui.

二、說(shuō)說(shuō)戰(zhàn)斗(注3)

3月9日,李世石輕敵,首局中盤認(rèn)輸,人類嘩然。

3月10日,AlphaGo完勝,其中一步5路尖沖,令聶衛(wèi)平“脫帽致敬”。李世石承認(rèn)局面一直落后,完敗。

3月12日,李世石在序盤僅僅因一手棋過(guò)分便遭到AlphaGo最犀利的反擊,從此落入被動(dòng)局面。三連敗,世間感傷。

3月14日,李世石在不利局面下弈出“神之一手”挖,AlphaGo“短路”,小李翻盤。李世石出席發(fā)布會(huì)時(shí),現(xiàn)場(chǎng)幾百名記者齊聲高呼李世石的名字,小李是英雄。

3月15日,李世石細(xì)棋敗北。

縱觀這五盤棋,AlphaGo通過(guò)大量棋譜/實(shí)戰(zhàn)訓(xùn)練,令自己“像一個(gè)高手”,同時(shí)局部精準(zhǔn)計(jì)算是特長(zhǎng)。但AlphaGo仍有程序固有的缺點(diǎn),一旦遇到bug很容易崩潰,有點(diǎn)像人類的“天才白癡”。另外,AlphaGo人工神經(jīng)元網(wǎng)絡(luò)不會(huì)針對(duì)對(duì)手調(diào)整自己,或者說(shuō),5局棋譜比起之前16萬(wàn)局訓(xùn)練如滄海一粟,對(duì)AlphaGo提高和調(diào)整幾乎可以忽略。

而李世石,賽前對(duì)AlphaGo 有輕敵情緒,但小李不斷試探和調(diào)整策略的努力,屢敗屢戰(zhàn)和絕地反擊的決心,終于逼出AlphaGo的bug,的確配得上“人類代表”。

最終人機(jī)大戰(zhàn)李世石1比4敗北,谷歌的人工智能攻破了人類智力運(yùn)動(dòng)最堅(jiān)實(shí)的堡壘,李世石逆境下獲得的一勝同樣捍衛(wèi)了人類的尊嚴(yán)。

三、說(shuō)說(shuō)未來(lái)

AlphaGo的確是人工智能的一大突破。

這次突破可能最重要的影響,就是讓我們更清晰的認(rèn)知了基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)的能力,這種能力應(yīng)該遠(yuǎn)遠(yuǎn)超出我們?cè)缙诘念A(yù)想。因此對(duì)我們?nèi)祟悓?lái)的生活將產(chǎn)生深遠(yuǎn)的影響。(注4)

個(gè)人認(rèn)為,AlphaGo是人類歷史上的一個(gè)里程碑。人類從石器時(shí)代—鐵器青銅時(shí)代—蒸汽時(shí)代—電氣時(shí)代—信息時(shí)代一直發(fā)展過(guò)來(lái),石頭/金屬工具替代了徒手勞作,蒸汽/電氣力量替代了人力,計(jì)算機(jī)替代了簡(jiǎn)單而繁重的精確數(shù)據(jù)處理。而現(xiàn)在,AlphaGo用一場(chǎng)勝利宣告人類開(kāi)始進(jìn)入新的時(shí)代——人工智能時(shí)代。這個(gè)時(shí)代可能會(huì)有一些特點(diǎn):

1)人工智能將代替一些專業(yè)性極強(qiáng)但不需要完全準(zhǔn)確的工作(能獲取完全信息的領(lǐng)域),例如全球語(yǔ)言的同聲傳譯(人類要逆天重建巴別塔呀),例如在一個(gè)城市里根據(jù)監(jiān)控圖像迅速排查恐怖嫌疑分子等等。

2)人工智能成為人類更有力的助手,人也更依賴人工智能(其實(shí),我們現(xiàn)在已經(jīng)更依賴智能手機(jī)了,囧)。這方面期待人工智能的溝通表達(dá)能力做出突破。例如這次AlphaGo一些下法雖然后來(lái)證明很厲害,但很多職業(yè)棋手當(dāng)時(shí)都看不懂。試想,如果一個(gè)醫(yī)療人工智能助手給了醫(yī)生一個(gè)精準(zhǔn)的治療方案,但無(wú)法說(shuō)清楚為什么要這樣做,醫(yī)生和病人敢上手術(shù)臺(tái)嗎?

3)人類不可替代,至少AlpahGo這一類完全信息人工智能不行。因?yàn)檫€有“不能獲取完全信息的領(lǐng)域”。人類可以探索未知領(lǐng)域,并且策略調(diào)整和反應(yīng)很快,人類可以發(fā)現(xiàn)原來(lái)未知的東西,例如“引力波”。而在人類已經(jīng)把某個(gè)領(lǐng)域探索的比較清楚了,把這些經(jīng)驗(yàn)整理成的“訓(xùn)練數(shù)據(jù)”(或者獲取訓(xùn)練數(shù)據(jù)的框架),人工智能才能學(xué)習(xí)。如果要訓(xùn)練那些數(shù)據(jù)都不知道,阿爾法狗狗就暈了。讓一臺(tái)機(jī)器/物種能創(chuàng)新和頓悟,仍然是神之領(lǐng)域!(科學(xué)的盡頭是哲學(xué),哲學(xué)的盡頭真的是神學(xué)嗎?)

最后,用我昔日同窗趙教授的一個(gè)段子作為這篇文章的結(jié)尾:

離考試結(jié)束還有10分鐘了,監(jiān)考老師說(shuō):“要及格的同學(xué)抓緊時(shí)間啦!”說(shuō)完便轉(zhuǎn)身走出了教室……對(duì)任何一個(gè)人,只要腦袋沒(méi)有進(jìn)水,都知道要干什么了。對(duì)這個(gè)簡(jiǎn)單的情景,不知道阿爾法狗狗會(huì)如何反應(yīng)?哈哈哈~~~

注1:全篇多處引用到DeepMind團(tuán)隊(duì)的論文《Mastering the Game of Go with Deep Neural Networks and Tree Search》,不一一標(biāo)出,在這里一并向DeepMind團(tuán)隊(duì)致謝。

注2:作者:蘇椰,http://www.zhihu.com/question/20254139/answer/33572009

注3:這里參考了網(wǎng)上各路專業(yè)棋手和記者和看法,無(wú)法一一列出,一并致謝!有興趣讀者可以上網(wǎng)搜索細(xì)品。

注4:劉知青教授接受喆理圍棋訪問(wèn)語(yǔ)錄。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 這周最出名的狗非阿爾法狗莫屬了。 昨天下午,自己筆記本電腦開(kāi)著直播放旁邊戴上耳機(jī)聽(tīng)解說(shuō)。。。是的聽(tīng)解說(shuō)不是看,因?yàn)?..
    謝培陽(yáng)閱讀 3,474評(píng)論 5 32
  • http://mp.weixin.qq.com/s/68GTn-BaiRPmzi9F-0sCyw 學(xué)號(hào): 17...
    楓頁(yè)syl閱讀 700評(píng)論 0 0
  • 姓名:陳權(quán) 學(xué)號(hào):17021211314 轉(zhuǎn)載自:https://mp.weixin.qq.com/s?__b...
    盈昃_7380閱讀 6,119評(píng)論 0 1
  • 我想我終于走出來(lái)了 關(guān)于值得愛(ài)的人, 對(duì)于愛(ài)的看法應(yīng)該是這樣:我覺(jué)得你和我一樣,有一顆探索和實(shí)踐愛(ài)的真諦的心,有著...
    董江閱讀 147評(píng)論 0 1
  • 舉世皆濁我獨(dú)醒,誰(shuí)將九歌付瑤琴。 離騷一曲魂何處,楚江渺渺應(yīng)有恨。 蓬頭稚子佩香囊,白發(fā)老叟酒一樽。 龍舟待發(fā)千舸...
    指尖蝶舞的花園閱讀 242評(píng)論 0 4

友情鏈接更多精彩內(nèi)容