一年多以前,阿爾法狗是2016年1月28日期間的封面故事。Deepmind發(fā)布了一篇重磅紙,并介紹了擊敗歐洲圍棋冠軍范劍的人工智能程序。倫敦當(dāng)?shù)貢r(shí)間18日18時(shí)(北京時(shí)間19日01:00),阿爾法狗再次登上世界頂級(jí)科學(xué)雜志 - 《自然》。
今年5月,在中國(guó)選手柯潔以3-0獲勝后,阿爾法狗宣布退役,但DeepMind并未停止研究。 10月18日,在倫敦當(dāng)?shù)貢r(shí)間,DeepMind團(tuán)隊(duì)宣布了代號(hào)為AlphaGo Zero的最強(qiáng)版阿爾法狗(http://www.afa-gou.com/)。其獨(dú)特的秘密是“自我教育”。而且,從一張白紙開(kāi)始,零基學(xué)習(xí)在短短三天內(nèi)就成為了一名頂尖選手。
該團(tuán)隊(duì)表示,AlphaGo Zero的水平已經(jīng)超過(guò)了AlphaGo的所有以前的版本。對(duì)于贏得韓國(guó)選手李世石的AlphaGo,AlphaGo Zero取得了100:0的壓倒性紀(jì)錄。 DeepMind團(tuán)隊(duì)在10月18日的“自然”雜志上發(fā)表了關(guān)于AlphaGo Zero的研究成果。
“AlphaGo在兩年內(nèi)取得了令人矚目的成果,現(xiàn)在AlphaGo Zero(http://www.afa-gou.com/alphago-zero/)是我們最強(qiáng)大的版本,它已經(jīng)有了很大的提升,Zero提高了計(jì)算效率,并且沒(méi)有使用任何人類(lèi)Go數(shù)據(jù),”DeepMind的創(chuàng)始人兼首席執(zhí)行官Demis神父AlphaGo Hassabis說(shuō):“最終,我們希望利用其算法突破來(lái)幫助解決緊急的現(xiàn)實(shí)問(wèn)題,如蛋白質(zhì)折疊或設(shè)計(jì)新材料。如果我們通過(guò)AlphaGo可以在這些問(wèn)題上取得進(jìn)展,那么它有可能促進(jìn)人們的理解并以積極的方式影響我們的生活?!?/p>
不再受人類(lèi)知識(shí)的限制,只有4個(gè)TPU
先前版本的AlphaGo通過(guò)結(jié)合數(shù)百萬(wàn)人類(lèi)Go專(zhuān)家的簽名和強(qiáng)化學(xué)習(xí)的監(jiān)督學(xué)習(xí)進(jìn)行自我訓(xùn)練。在擊敗專(zhuān)業(yè)大師之前,它已經(jīng)接受了幾個(gè)月的培訓(xùn),依靠多臺(tái)機(jī)器和48個(gè)熱塑性聚氨酯(http://www.afa-gou.com/alphago%E8%B5%84%E8%AE%AF/)。
AlphaGo Zero的功能在此基礎(chǔ)上得到了質(zhì)的改進(jìn)。最大的區(qū)別是它不再需要人類(lèi)數(shù)據(jù)。換句話(huà)說(shuō),它一開(kāi)始并沒(méi)有接觸到人類(lèi)的國(guó)際象棋。研發(fā)團(tuán)隊(duì)只需讓它在棋盤(pán)上自由移動(dòng),然后玩自己的游戲。值得一提的是,AlphaGo Zero也非?!暗吞肌保瑑H使用一臺(tái)機(jī)器和四個(gè)TPU,這大大節(jié)省了資源。
AlphaGo Zero增強(qiáng)了學(xué)習(xí)中的自我?jiàn)蕵?lè)。
經(jīng)過(guò)幾天的培訓(xùn),AlphaGo Zero已經(jīng)完成了近500萬(wàn)套自我游戲,并且能夠超越人類(lèi)并擊敗AlphaGo的所有以前版本。 DeepMind團(tuán)隊(duì)在官方博客上表示,Zero采用更新的神經(jīng)網(wǎng)絡(luò)和搜索算法進(jìn)行重組,隨著培訓(xùn)的深入,系統(tǒng)的性能逐漸提高。自我游戲的結(jié)果也越來(lái)越好。同時(shí),阿爾法狗神經(jīng)網(wǎng)絡(luò)變得更加準(zhǔn)確。