Alpha Go是如何打敗全人類(lèi)最頂尖棋手的?

“阿爾法狗”(AlphaGo)是第一個(gè)擊敗人類(lèi)職業(yè)圍棋選手、第一個(gè)戰(zhàn)勝圍棋世界冠軍的人工智能,由DeepMind公司開(kāi)發(fā)(該公司已被谷歌Google買(mǎi)下)。

2016年3月,AlphaGo和圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝;2017年5月,在中國(guó)烏鎮(zhèn)圍棋峰會(huì)上,它與排名世界第一的世界圍棋冠軍柯潔對(duì)戰(zhàn),以3比0的總比分獲勝。

AlphaGo棋力已經(jīng)超過(guò)人類(lèi)職業(yè)圍棋頂尖水平,成為圍棋界不爭(zhēng)的事實(shí)。2017年5月27日,在柯潔與阿爾法圍棋的人機(jī)大戰(zhàn)之后,AlphaGo團(tuán)隊(duì)宣布AlphaGo將不再參加圍棋比賽。

2017年10月19日,在《自然》(Nature)上發(fā)表的一篇研究論文中,Deepmind公司報(bào)告新版程序AlphaGo Zero:從空白狀態(tài)學(xué)起,在無(wú)任何人類(lèi)輸入的條件下,它能夠用4個(gè)TPU(谷歌專(zhuān)門(mén)為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的一款芯片,ASIC集成電路)迅速自學(xué)圍棋,“拋棄人類(lèi)經(jīng)驗(yàn)”。自我訓(xùn)練3天,自我對(duì)弈棋局490萬(wàn)盤(pán),訓(xùn)練后它以100:0的戰(zhàn)績(jī)擊敗前輩AlphoGo Lee。

沒(méi)有已知的“棋譜”輸入,只告訴 AlphaGo 最基本的圍棋規(guī)則:黑先白后、輪換出子、提子、如何判斷輸贏、貼目等……

明確規(guī)則后讓 AlphaGo 自己跟自己下,開(kāi)始對(duì)弈,3天,自我對(duì)弈棋局490萬(wàn)盤(pán),然后出山即封神。

除了證明了基于策略網(wǎng)絡(luò)(Policy network)和價(jià)值網(wǎng)絡(luò)(Value network)的深度學(xué)習(xí)人工智能有多厲害,AlphaGo Zero還體現(xiàn)了一個(gè)高效的學(xué)習(xí)法則:在基礎(chǔ)原理(第一性原理)之上,基于反饋機(jī)制的刻意練習(xí)。

為了簡(jiǎn)化這個(gè)問(wèn)題,我們下來(lái)看看2017年AlphaGo紀(jì)錄片開(kāi)頭的一小段——人工智能打方塊(Breakout)。

練習(xí)100盤(pán)結(jié)束后,AI對(duì)于球拍的控制依然十分呆板,系統(tǒng)也不知道什么時(shí)候應(yīng)該向哪里移動(dòng),經(jīng)常漏掉球。

當(dāng)它自我練習(xí)了300局之后——它的操作速度已經(jīng)幾乎跟人類(lèi)的操作反應(yīng)一樣,操作也順暢了許多。

500局之后,AI找到了效率最高的打法,它先在兩邊打開(kāi)一個(gè)缺口,把球彈到頂部,讓球在頂部區(qū)域不斷的彈彈彈……

這種方式,效率最高、移動(dòng)次數(shù)最少。沒(méi)有人教過(guò)他這種打法,我們只輸入了規(guī)則,以及一套底層反饋機(jī)制,通過(guò)幾百次的訓(xùn)練,AI最后就能夠建立了一套最優(yōu)策略。

這種基于策略的不斷反饋、持續(xù)優(yōu)化的深度學(xué)習(xí)能力不僅比我們更“會(huì)學(xué)習(xí)”,AI還比我們更勤奮——高效且勤奮。

雖然我們窮極一生也不能像AI一樣訓(xùn)練幾百萬(wàn)次,但是!找到正確的方法論,刻意練習(xí),及時(shí)反饋,我們也能成為一個(gè)更厲害的人!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容