AlphaGo即將控制人類?!“新狗”碾壓“老狗”自學(xué)三天勝人千年

“老狗”退役了,“新狗”不但以100:0的成績戰(zhàn)勝“老狗”,還無師自通,自學(xué)三天,勝人千年,這是徹底不帶人類玩了的節(jié)奏。

AlphaGo退役了!

回顧一下,“老狗”是如何完虐人類的:

2015年10月面世,擊敗歐洲冠軍樊麾

2016年3月,擊敗人類頂尖棋手之一李世石

2017年元旦前后,在網(wǎng)絡(luò)上化名大師(Master),60:0完敗前來車輪戰(zhàn)的人類一流棋手

2017年5月,在烏鎮(zhèn)3:0戰(zhàn)勝當(dāng)下人類最強者柯潔

如今,AlphaGo進化了!

今天凌晨,谷歌旗下Deepmind團隊在《自然》雜志發(fā)表人工智能界期待已久的論文《無須人類知識掌握圍棋》(Mastering the game of go without human knowledge),印證了一個人們已經(jīng)猜到的事實:今天的AlphaGo已經(jīng)完全不是人了,它也不再帶人類玩了!

“新狗”接過接力棒,代號為AlphaGo Zero,它的獨門秘籍是“自學(xué)成才”。AlphaGo的小弟弟“零”,只靠一副棋盤和黑白兩子,沒看過一張棋譜,也沒有一個人指點,從零開始,自己參悟,結(jié)果以100:0的戰(zhàn)績完敗哥哥AlphaGo。

此前,AlphaGo成為首個戰(zhàn)勝人類圍棋世界冠軍的程序,當(dāng)時的AlphaGo通過深層神經(jīng)網(wǎng)絡(luò)進行決策,并使用人類專家下棋的數(shù)據(jù)進行監(jiān)督學(xué)習(xí),同時也通過自我對弈進行強化學(xué)習(xí)。

“零”自我對弈訓(xùn)練示意圖

如今,AlphaGo Zero無需任何人類指導(dǎo),通過全新的強化學(xué)習(xí)方式自己成為自己的老師,在圍棋這一最具挑戰(zhàn)性的領(lǐng)域達到超過人類的精通程度。

相比起之前使用人類對弈的數(shù)據(jù),這一算法訓(xùn)練時間更短,僅用3天時間就達到了擊敗李世石的AlphaGo Lee的水平,21天達到了之前擊敗柯潔的AlphaGo Master的水平。

“零”棋力增長與積分比較

AlphaGo Zero進化篇:

一、非常低碳,“零”只需要在4個TPU上,花三天時間,自己左右互搏490萬棋局。而它的哥哥阿法狗,需要在48個TPU上,花幾個月的時間,學(xué)習(xí)三千萬棋局,才打敗人類。

二、AlphaGo Zero還獨立發(fā)現(xiàn)了游戲規(guī)則,并走出了新策略,為圍棋這項古老游戲帶來了新的見解。

美國的兩位棋手在Nature對阿法元的棋局做了點評:它的開局和收官和專業(yè)棋手的下法并無區(qū)別,人類幾千年的智慧結(jié)晶,看起來并非全錯。但是中盤看起來則非常詭異。

AlphaGo Zero并不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預(yù)測哪個玩家會從當(dāng)前的局面中贏得比賽。相反,新版本依靠的是其高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來評估下棋的局勢。

“阿爾法狗之父”揭秘最強“新狗”是如何煉成的:

AlphaGo拜人為師,最終人類死在沙灘上。悟性更高的“零”無師自通完敗AlphaGo。

進化之迅速,讓挨踢妹不寒而栗,想起了出版前就被瘋傳的《紐約客》雜志封面圖,一個滿臉胡須的年輕乞丐坐在街上乞討,身旁的機器人向他手里的杯子里投擲螺絲和螺帽,他身旁的小狗也驚訝和擔(dān)憂地看著旁邊走過的機器狗。

未來,人類將會向機器乞討?機器人開始取代工人,全自動化的工廠不再需要燈光,成了“黑暗工廠”;而一代代的AlphaGo挑戰(zhàn)人類的圍棋技藝,如今已經(jīng)超越了人類對圍棋的認(rèn)知,一種深深的隱憂在人類心中滋生。

拜見機器人主子!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容