人工智能的未來(lái) - Hassabis (峰哥summary)

人工智能的未來(lái) - Hassabis (峰哥summary)

/ 文:@峰哥何峰 /

最近看了一些有關(guān)【深度血系】(Deep Learning)的講座視頻。原本想和女朋友討論(她是倫敦大學(xué)學(xué)院/UCL 認(rèn)知神經(jīng)學(xué)畢業(yè)的,要說(shuō)還算是 DeepMind 幾位創(chuàng)始人, 也就是阿爾法狗 AlphaGo 的締造者,的校友)。但是她是在提不起興趣看這些講座。于是我把這些講座 summary 整理出來(lái),作為和她探討的基礎(chǔ),順便也分享出來(lái)。說(shuō)明:這些不是講座完整內(nèi)容的 summary,而是我感興趣的部分,同時(shí)伴有一些我的補(bǔ)充。

Demis Hassabis - The Future of AI (人工智能的未來(lái))

演講者 Demis Hassabis 是 DeepMind 創(chuàng)始人&CEO。Hassabis 本人出生于倫敦,本科畢業(yè)于劍橋,后在從 UCL(倫敦大學(xué)學(xué)院 University College London)獲得 cognitive neuroscience 博士學(xué)位。本次講座是在牛津大學(xué)。講座發(fā)生的時(shí)間是 2016年 2月,也就是在 AlphaGo 跟李世石對(duì)局之前。Hassabis 在講座中也著重介紹了 AlphaGo。以下是我從講座中提煉出的內(nèi)容:

1、DeepMind 的目標(biāo)?是 1)先解決人工智能,然后 2)通過(guò)人工智能解決人類(lèi)一切其他問(wèn)題,比如科研、醫(yī)療、環(huán)境問(wèn)題。Hassabis 本人尤其對(duì)引入人工智能來(lái)協(xié)助科研非常感興趣和抱有極大期許。人類(lèi)所積累的知識(shí)已經(jīng)無(wú)比廣博和復(fù)雜,Hassabis 感覺(jué)僅僅再憑人的血肉之軀來(lái)學(xué)習(xí)、組織、推進(jìn)這些知識(shí)已經(jīng)不能夠勝任。

2、Reinforcement Learning

Reinforcement Learning

所謂 Reinforcement Learning,是 AI 系統(tǒng)學(xué)習(xí)的一種方式。這種學(xué)習(xí)方式很類(lèi)似人類(lèi)嬰兒的學(xué)習(xí)方式:AI 系統(tǒng)觀察它所在的環(huán)境,采取一個(gè)行為(action),然后觀察結(jié)果。在這樣不斷的反饋中學(xué)習(xí)。

為什么 DeepMind 選取了這個(gè)研究框架?因?yàn)檠芯勘砻?,似乎?dòng)物和人類(lèi)就是這么學(xué)習(xí)的。這給了 Hassabis 以信心:如果生物可以通過(guò) reinforcement learning 實(shí)現(xiàn)智能,那么機(jī)器應(yīng)該也可以。

峰哥 comment:?

在機(jī)器學(xué)習(xí)中,曾經(jīng)非常流行的一個(gè)方法是 HMM (hidden markov model)。這是通過(guò)統(tǒng)計(jì)學(xué)的模型來(lái)實(shí)現(xiàn)如語(yǔ)音識(shí)別等。當(dāng)時(shí)也取得了非常大的成功,但之后就陷入了瓶頸。等到 2000 年左右,峰哥在學(xué)習(xí)人工智能的時(shí)候,雖然這還是當(dāng)時(shí)熱門(mén)的技術(shù),但是已經(jīng)感覺(jué)后繼乏力。博士生們?cè)谟酶鞣N奇技淫巧,只為了把準(zhǔn)確率提高半個(gè)百分點(diǎn)。

人類(lèi)自己在做語(yǔ)音識(shí)別、文字翻譯等工作的時(shí)候,似乎并不是通過(guò)復(fù)雜的統(tǒng)計(jì)學(xué)模型去完成,所以如 HMM 這樣的方法,雖然在剛開(kāi)始獲得了一定成功,很有可能最終是個(gè)死胡同。就好像通過(guò)爬樹(shù)來(lái)實(shí)現(xiàn)登月:剛開(kāi)始一直有穩(wěn)定的進(jìn)展,直到有一天,突然不再 work.

電腦圍棋也經(jīng)歷的類(lèi)似的過(guò)程:蒙特卡洛方法(也是統(tǒng)計(jì)學(xué)、概率論中的一種方法)在幾年前進(jìn)入電腦圍棋后,立刻獲得巨大成功。電腦圍棋的水平從以前的不可理喻,很快成長(zhǎng)到業(yè)余高段的水平。這個(gè)峰哥特別有感觸,因?yàn)槲腋娔X下棋,正好從全面碾壓到被碾壓,當(dāng)時(shí)的心情跟李世石現(xiàn)在估計(jì)差不多。但是,之后似乎水平就達(dá)到一個(gè)瓶頸。似乎【蒙特卡洛】這棵樹(shù),也爬到了盡頭。如果需要突破,需要另有創(chuàng)新。人類(lèi)在下圍棋的時(shí)候,明顯也不是通過(guò)【蒙特卡洛】這樣海量窮舉的方法來(lái)進(jìn)行的。難道要達(dá)到人類(lèi)圍棋水平,真的必須要模擬人類(lèi)思考圍棋的方式?

另一方面,人類(lèi)很多工程上的成就,也并非通過(guò)【仿生】來(lái)實(shí)現(xiàn)的。汽車(chē)飛機(jī),在速度、距離上已經(jīng)超過(guò)了飛禽走獸,但是其工作原理跟后者幾乎沒(méi)啥交集。實(shí)際上,人類(lèi)最初對(duì)于飛行的嘗試走了很大彎路,就是因?yàn)樘d在【仿生】的思路中。

人工智能最終會(huì)是通過(guò)模仿動(dòng)物和人類(lèi)來(lái)實(shí)現(xiàn),還是另外走出一條不同的路?大自然已經(jīng)通過(guò)進(jìn)化找到了解決智能的一個(gè)解(我們就是成果)。這會(huì)是唯一解嗎?

3、Grounded cognition

"A true thinking machine has to be grounded in a rich sensormotor reality"

上面是 Hassabis 原話。一個(gè)類(lèi)似的概念是 embodied AI,即,要構(gòu)建一個(gè)有智能的 agent,不能僅僅是通過(guò)軟件,而是需要有一個(gè)身體,能夠通過(guò)各種 sensors 感知自己所在的環(huán)境。不意外的,這個(gè)領(lǐng)域的研究人員很多在從事機(jī)器人的研究。DeepMind 則是選擇了虛擬世界。但其背后的意思是一樣的:智能是需要建立在與自己所在環(huán)境互動(dòng)的基礎(chǔ)之上。

4、機(jī)器學(xué)習(xí)打游戲

DeepMind 的一大成就,是開(kāi)發(fā)出了能夠自己學(xué)習(xí)打游戲的系統(tǒng)。這套系統(tǒng)的令人驚異在于,它能夠通過(guò)觀察圖像,學(xué)會(huì)玩各種不同的游戲。請(qǐng)注意,這是同一個(gè)程序,自學(xué)了各種不同的游戲。這些游戲有著迥然不同的規(guī)則,視覺(jué)輸出。在這個(gè)游戲的世界中,可以說(shuō) DeepMind 已經(jīng)建成了 general AI(這是不是可以翻譯成[通用AI]?)。

DeepMind 的這個(gè)成就,被發(fā)表于 2015年 2月 Nature 雜志(http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html

5、Neuroscience-inspired AI

DeepMind 在決定研究方向的時(shí)候,會(huì)從人腦的結(jié)構(gòu)中獲取靈感,包括人腦的算法、representation、architecture。

6、AlphaGo 是如何養(yǎng)成的

首先說(shuō)一點(diǎn):AlphaGo 的養(yǎng)成過(guò)程中,并沒(méi)有用到專(zhuān)業(yè)棋手的數(shù)據(jù),而是從網(wǎng)上下載的業(yè)余高段棋手?jǐn)?shù)據(jù)。具體步驟如下:

1、用網(wǎng)上下載的 10萬(wàn)局業(yè)余高段棋手對(duì)局,訓(xùn)練出了一個(gè)程序(叫做 policy networks, 咱們姑且叫它 P1 吧)。所謂訓(xùn)練,就是猜下一手棋,也就是模仿業(yè)余高手的對(duì)局。

2、讓程序自己跟自己下上百萬(wàn)局對(duì)局,從自己的成功和失誤中學(xué)習(xí)。這個(gè)訓(xùn)練結(jié)束后,成為程序 P2。P2 對(duì)局 P1 有 80% 的勝率。

3、再之后,P2 不再學(xué)習(xí),而是自我對(duì)局 3千萬(wàn)局,成了一個(gè)巨大的數(shù)據(jù)庫(kù),里面包括了每一步棋,以及最后的輸贏。再用這個(gè)數(shù)據(jù)庫(kù),訓(xùn)練了另一個(gè)程序,叫做 value networks,姑且管它叫 V 吧。V 的功能是判斷此時(shí)棋盤(pán)上的局勢(shì),各方勝率。

AlphaGo 對(duì)局的時(shí)候,是 P2 和 V 并用。P2 通過(guò)棋盤(pán)上的情況,給出下一步走法的各種可能性,以及對(duì)于的概率;V 則來(lái)判斷各種走法之后,盤(pán)面的形式。

Hassabis 有個(gè)很好的形容:

P2 給出最佳的幾個(gè)走法,其作用是降低搜索寬度;

V 則是迅速給出局勢(shì)的判斷,其作用是降低搜索深度。(比如,不需要做大量的蒙特卡洛演算來(lái)判斷局勢(shì)。)

======

簡(jiǎn)單心理平臺(tái)?專(zhuān)注于提供靠譜心理咨詢(xún)?和?相關(guān)?服務(wù)??。
?了解更多,請(qǐng)?jiān)L問(wèn) jiandanxinli.com?
加入我們!戳 =>http://www.jiandanxinli.com/pages/37
微信公號(hào):@簡(jiǎn)里里

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容