2021.6
https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
https://mp.weixin.qq.com/s/8njg92xSrg_AX32xl7Uv7A
Yoshua Bengio、Yann LeCun和Geoffrey Hinton獲得了2018 ACM A.M.圖靈獎(jiǎng),因?yàn)樗麄兊耐黄剖股疃壬窠?jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵組成部分。
對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究是基于這樣一個(gè)觀察:人類智能是從相對(duì)簡(jiǎn)單的非線性神經(jīng)元高度并行的網(wǎng)絡(luò)中產(chǎn)生的,這些神經(jīng)元通過調(diào)整連接的強(qiáng)度來學(xué)習(xí)。這一觀察結(jié)果引出了一個(gè)核心的計(jì)算問題:這種一般類型的網(wǎng)絡(luò)如何能夠?qū)W習(xí)復(fù)雜的內(nèi)部表示,這些表示是識(shí)別對(duì)象或理解語言等困難任務(wù)所必需的?深度學(xué)習(xí)試圖通過使用多層活動(dòng)向量作為表示來回答這個(gè)問題,并通過跟蹤衡量網(wǎng)絡(luò)性能的目標(biāo)函數(shù)的隨機(jī)梯度來學(xué)習(xí)產(chǎn)生這些向量的連接強(qiáng)度。這是非常令人驚訝的,這樣一個(gè)概念上簡(jiǎn)單的方法已被證明是如此有效,當(dāng)應(yīng)用于大型訓(xùn)練集使用大量的計(jì)算,它似乎是一個(gè)關(guān)鍵因素是深度:淺網(wǎng)絡(luò)根本不工作。
我們回顧了幾年前深度學(xué)習(xí)的基本概念和一些突破性成果。63這里我們簡(jiǎn)要介紹了深度學(xué)習(xí)的起源,描述了一些較新的進(jìn)展,并討論了一些未來的挑戰(zhàn)。這些挑戰(zhàn)包括在很少或沒有外部監(jiān)督的情況下學(xué)習(xí),應(yīng)對(duì)來自不同于培訓(xùn)樣本分布的測(cè)試樣本,使用深度學(xué)習(xí)的方法來解決人類的任務(wù),通過使用一系列的步驟,我們有意識(shí)地處理Kahneman56稱之為系統(tǒng)2任務(wù)的任務(wù),而不是系統(tǒng)1任務(wù),比如物體識(shí)別或即時(shí)自然語言理解,它們通常感覺毫不費(fèi)力。
從手工編碼的符號(hào)表達(dá)式到學(xué)習(xí)的分布式表示
人工智能有兩種完全不同的模式。簡(jiǎn)單地說,邏輯啟發(fā)范式將順序推理視為智能的本質(zhì),旨在使用手工設(shè)計(jì)的推理規(guī)則在計(jì)算機(jī)中實(shí)現(xiàn)推理,這些規(guī)則操作手工設(shè)計(jì)的符號(hào)表達(dá)式,這些符號(hào)表達(dá)式將知識(shí)形式化。腦啟發(fā)范式將從數(shù)據(jù)中學(xué)習(xí)表征視為智能的本質(zhì),旨在通過設(shè)計(jì)或進(jìn)化規(guī)則來修改人工神經(jīng)元模擬網(wǎng)絡(luò)中的連接強(qiáng)度來實(shí)現(xiàn)手動(dòng)學(xué)習(xí)。
在受邏輯啟發(fā)的范式中,符號(hào)沒有有意義的內(nèi)部結(jié)構(gòu):它的意義存在于它與其他符號(hào)的關(guān)系中,這些關(guān)系可以用一組符號(hào)表達(dá)式或關(guān)系圖來表示。相比之下,在大腦啟發(fā)的范式中,用于交流的外部符號(hào)被轉(zhuǎn)換成神經(jīng)活動(dòng)的內(nèi)部向量,這些向量具有豐富的相似結(jié)構(gòu)?;顒?dòng)向量可用于通過學(xué)習(xí)用于每個(gè)符號(hào)的適當(dāng)活動(dòng)向量和學(xué)習(xí)允許填充對(duì)應(yīng)于符號(hào)串的缺失元素的活動(dòng)向量的非線性變換來建模一組符號(hào)串中固有的結(jié)構(gòu)。這一點(diǎn)首先在Rumelhart等人74的玩具數(shù)據(jù)中得到證實(shí),然后在Bengio等人14的真實(shí)句子中得到證實(shí)。最近的一個(gè)非常令人印象深刻的演示是BERT,22,它還利用自我關(guān)注來動(dòng)態(tài)連接一組單元,如后面所述。
使用神經(jīng)活動(dòng)向量來表示概念和權(quán)重矩陣來捕獲概念之間的關(guān)系的主要優(yōu)點(diǎn)是,這會(huì)導(dǎo)致自動(dòng)泛化。如果星期二和星期四由非常相似的向量表示,它們將對(duì)其他神經(jīng)活動(dòng)向量產(chǎn)生非常相似的因果影響。這有助于類比推理,并表明直接、直觀的類比推理是我們的主要推理模式,邏輯順序推理是一個(gè)更晚的發(fā)展,56我們將討論。
深度學(xué)習(xí)的興起
20世紀(jì)初,通過引入一些元素,使深層學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得更加容易,從而使神經(jīng)網(wǎng)絡(luò)研究煥發(fā)活力。GPU的出現(xiàn)和大型數(shù)據(jù)集的可用性是深入學(xué)習(xí)的關(guān)鍵因素,并且通過開發(fā)具有自動(dòng)區(qū)分功能的開放源碼、靈活的軟件平臺(tái)(如Theano、16 Torch、25 CAFE、55 TensorFlow)大大增強(qiáng)了這些平臺(tái)的性能,1和Pythrot.71這使得訓(xùn)練復(fù)雜的深網(wǎng)和重用最新模型及其構(gòu)建塊變得非常容易。但是,更多層次的組成允許更復(fù)雜的非線性,并在感知任務(wù)中取得令人驚訝的好結(jié)果,如本文所總結(jié)。
為什么深度?盡管人們直覺認(rèn)為,較深的神經(jīng)網(wǎng)絡(luò)可以是更強(qiáng)大的現(xiàn)代深度學(xué)習(xí)技術(shù),82它是在結(jié)構(gòu)和訓(xùn)練過程方面的一系列進(jìn)步,15,35,48,這導(dǎo)致了與深度學(xué)習(xí)的興起相關(guān)的顯著進(jìn)展。但是,為什么更深層次的網(wǎng)絡(luò)能夠更好地概括我們感興趣的各種輸入-輸出關(guān)系呢?重要的是要認(rèn)識(shí)到,這不僅僅是一個(gè)參數(shù)較多的問題,因?yàn)樯罹W(wǎng)絡(luò)通常比具有相同參數(shù)的淺網(wǎng)絡(luò)更好地推廣。15實(shí)踐證明了這一點(diǎn)。最流行的計(jì)算機(jī)視覺卷積網(wǎng)絡(luò)結(jié)構(gòu)是ResNet家族43,其中最常見的代表,ResNet-50有50層。本文中未提到但非常有用的其他成分包括圖像變形、退出、51和批量標(biāo)準(zhǔn)化
我們認(rèn)為,深度網(wǎng)絡(luò)之所以能發(fā)揮優(yōu)勢(shì),是因?yàn)樗鼈兝昧艘环N特殊的組合形式,其中一層的特征以多種不同的方式組合在一起,從而在下一層中創(chuàng)建更抽象的特性。
對(duì)于感知這樣的任務(wù),這種組合性非常有效,并且有很強(qiáng)的證據(jù)表明它被生物感知系統(tǒng)所使用
無監(jiān)督的預(yù)培訓(xùn)。當(dāng)標(biāo)記訓(xùn)練示例的數(shù)量與執(zhí)行任務(wù)所需的神經(jīng)網(wǎng)絡(luò)的復(fù)雜性相比,有必要首先使用其他信息源創(chuàng)建特征檢測(cè)器層,然后使用有限的標(biāo)簽供應(yīng)對(duì)這些特征檢測(cè)器進(jìn)行微調(diào)。在遷移學(xué)習(xí)中,信息源是另一個(gè)有監(jiān)督的學(xué)習(xí)任務(wù),具有豐富的標(biāo)簽。但是,也可以通過堆疊自動(dòng)編碼器來創(chuàng)建一層不使用任何標(biāo)簽的特征檢測(cè)器
首先,我們學(xué)習(xí)了一層特征檢測(cè)器,它的活動(dòng)允許我們重建輸入。然后我們學(xué)習(xí)第二層特征檢測(cè)器,其活動(dòng)允許我們重建第一層特征檢測(cè)器的活動(dòng)。通過這種方法學(xué)習(xí)了幾個(gè)隱藏層,然后嘗試從最后一個(gè)隱藏層的活動(dòng)中預(yù)測(cè)標(biāo)簽,并將錯(cuò)誤反向傳播到所有層,以便在不使用標(biāo)簽中寶貴信息的情況下對(duì)最初發(fā)現(xiàn)的特征檢測(cè)器進(jìn)行微調(diào)。預(yù)培訓(xùn)很可能提取出與最終分類無關(guān)的各種結(jié)構(gòu),但是,在計(jì)算成本低廉、標(biāo)記數(shù)據(jù)昂貴的情況下,只要預(yù)培訓(xùn)將輸入轉(zhuǎn)換為一種表示形式,從而使分類更容易,這是很好的。
除了改進(jìn)泛化,無監(jiān)督預(yù)訓(xùn)練還可以通過這種方法初始化權(quán)重,從而便于對(duì)具有反向傳播的深部神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。預(yù)培訓(xùn)對(duì)優(yōu)化的影響對(duì)于克服公認(rèn)的深網(wǎng)難以訓(xùn)練的智慧具有歷史意義,但現(xiàn)在人們使用校正的線性單元(見下一節(jié))和剩余連接,這一點(diǎn)就沒有太大的相關(guān)性。43然而,預(yù)培訓(xùn)對(duì)泛化的影響已證明非常重要。通過大量未標(biāo)注數(shù)據(jù),例如在自然語言處理中,利用大量未標(biāo)記數(shù)據(jù),訓(xùn)練非常大的模型成為可能,而對(duì)于這些數(shù)據(jù),可以使用大型語料庫。26,32預(yù)培訓(xùn)和微調(diào)的一般原則已成為深入學(xué)習(xí)工具箱中的重要工具,在轉(zhuǎn)移學(xué)習(xí),甚至作為現(xiàn)代元學(xué)習(xí)的一個(gè)組成部分時(shí)。33
線性校正裝置的神秘成功。深度網(wǎng)絡(luò)的早期成功涉及到使用logistic-sigmoid非線性或密切相關(guān)的雙曲正切的單元層的無監(jiān)督預(yù)訓(xùn)練。校正的線性單位早在神經(jīng)科學(xué)29中就被假設(shè)出來了,并且已經(jīng)用于RBMs70和卷積神經(jīng)網(wǎng)絡(luò)的一些變體中。54發(fā)現(xiàn)校正非線性(現(xiàn)在稱為ReLUs,有許多現(xiàn)代的變種)使得通過backprop和隨機(jī)梯度下降很容易訓(xùn)練深層網(wǎng)絡(luò),而不需要分層預(yù)訓(xùn)練。這是一項(xiàng)技術(shù)進(jìn)步,使深度學(xué)習(xí)優(yōu)于以前的物體識(shí)別方法,60如本文所述。
語音和物體識(shí)別的突破。聲學(xué)模型將聲波的表示轉(zhuǎn)換成音素片段上的概率分布。Robinson 72使用Transputer和Morgan等人69使用DSP芯片所做的英勇努力已經(jīng)表明,在具有足夠處理能力的情況下,神經(jīng)網(wǎng)絡(luò)在聲學(xué)建模方面與最先進(jìn)的技術(shù)具有競(jìng)爭(zhēng)力。2009年,兩名使用Nvidia GPU的研究生68表明,預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在TIMIT數(shù)據(jù)集上的表現(xiàn)略優(yōu)于SOTA。這一結(jié)果重新激起了神經(jīng)網(wǎng)絡(luò)中幾個(gè)主要語音組的興趣。2010年,基本上相同的deep network在大詞匯量語音識(shí)別方面擊敗了SOTA,而不需要依賴說話人的培訓(xùn)28,46,到2012年,Google設(shè)計(jì)了一個(gè)產(chǎn)品版本,顯著改進(jìn)了Android上的語音搜索。這是深度學(xué)習(xí)破壞力的早期證明。
與此同時(shí),deep learning在2012 ImageNet競(jìng)賽中取得了戲劇性的勝利,在自然圖像中識(shí)別上千種不同類別的對(duì)象時(shí),錯(cuò)誤率幾乎降低了一半。60這一勝利的關(guān)鍵在于李菲菲和她的合作者在收集超過一百萬張標(biāo)記圖像31用于訓(xùn)練集方面的重大努力,以及Alex Krizhevsky非常有效地使用多個(gè)GPU。當(dāng)前的硬件,包括gpu,鼓勵(lì)使用大的小批量,以便將從內(nèi)存中獲取權(quán)重的成本分?jǐn)偟皆摍?quán)重的許多用途中。純?cè)诰€隨機(jī)梯度下降法使用每個(gè)權(quán)值一次收斂更快,未來的硬件可能只使用權(quán)值,而不是從內(nèi)存中獲取它們。
深層卷積神經(jīng)網(wǎng)絡(luò)包含了一些新的功能,例如使用ReLUs來加快學(xué)習(xí)速度,使用dropout來防止過度擬合,但它基本上只是Yann LeCun及其合作者多年來開發(fā)的一種前饋卷積神經(jīng)網(wǎng)絡(luò),65計(jì)算機(jī)視覺界對(duì)這一突破的反應(yīng)令人欽佩。鑒于卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越性的無可爭(zhēng)辯的證據(jù),社區(qū)迅速放棄了以前的手工設(shè)計(jì)方法,轉(zhuǎn)而進(jìn)行深度學(xué)習(xí)。
最新進(jìn)展
在這里,我們有選擇地接觸到一些最新的深入學(xué)習(xí)的進(jìn)展,顯然遺漏了許多重要的課題,如深度強(qiáng)化學(xué)習(xí),圖形神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí)。
軟注意和變壓器架構(gòu)。深度學(xué)習(xí)的一個(gè)重要發(fā)展,特別是在順序處理方面,是使用乘法交互作用,特別是以軟注意的形式。7,32,39,78這是對(duì)神經(jīng)網(wǎng)絡(luò)工具箱的一個(gè)變革性補(bǔ)充,它將神經(jīng)網(wǎng)絡(luò)從單純的向量變換機(jī)轉(zhuǎn)變?yōu)槟軇?dòng)態(tài)選擇輸入的結(jié)構(gòu),并能將信息存儲(chǔ)在可微聯(lián)想存儲(chǔ)器中。這種體系結(jié)構(gòu)的一個(gè)關(guān)鍵特性是,它們可以有效地操作不同類型的數(shù)據(jù)結(jié)構(gòu),包括集合和圖。
一個(gè)層中的模塊可以使用軟注意來動(dòng)態(tài)地選擇上一層中的哪些向量,它們將組合起來計(jì)算它們的輸出。這可以使輸出獨(dú)立于輸入的呈現(xiàn)順序(將它們視為一個(gè)集合),或者使用不同輸入之間的關(guān)系(將它們視為一個(gè)圖形)。
transformer架構(gòu)(transformer architecture)已經(jīng)成為許多應(yīng)用程序中的主導(dǎo)架構(gòu),它堆疊了許多層的“自我關(guān)注”模塊。層中的每個(gè)模塊都使用標(biāo)量積來計(jì)算其查詢向量與該層中其他模塊的鍵向量之間的匹配。將匹配項(xiàng)歸一化為和1,然后使用得到的標(biāo)量系數(shù)來形成由前一層中的其他模塊生成的值向量的凸組合。得到的向量形成下一階段計(jì)算的模塊的輸入。模塊可以是多頭的,以便每個(gè)模塊計(jì)算幾個(gè)不同的查詢、鍵和值向量,從而使每個(gè)模塊有可能有幾個(gè)不同的輸入,每個(gè)輸入以不同的方式從前一階段模塊中選擇。在這種操作中,模塊的順序和數(shù)量無關(guān)緊要,因此可以對(duì)向量集進(jìn)行操作,而不是像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)那樣對(duì)單個(gè)向量進(jìn)行操作。例如,語言翻譯系統(tǒng)在輸出句子中產(chǎn)生一個(gè)詞時(shí),可以選擇關(guān)注輸入句子中相應(yīng)的一組詞,而不考慮它們?cè)谖谋局械奈恢?。雖然乘法選通對(duì)于坐標(biāo)變換和強(qiáng)大的循環(huán)網(wǎng)絡(luò)形式來說是一個(gè)古老的想法,但它最近的形式使它成為主流。思考注意機(jī)制的另一種方式是,它們使人們能夠通過適當(dāng)選擇的模塊動(dòng)態(tài)地傳遞信息,并以潛在的新穎方式組合這些模塊,以改進(jìn)分布外的泛化。38
我們認(rèn)為深層網(wǎng)絡(luò)之所以出色,是因?yàn)樗鼈兝昧艘环N特殊的組合形式,即一層中的特征以多種不同的方式組合在一起,從而在下一層中創(chuàng)建更多的抽象特征。
變壓器已經(jīng)產(chǎn)生了巨大的性能改進(jìn),這已經(jīng)徹底改變了自然語言處理,27,32,它們現(xiàn)在正在工業(yè)中被常規(guī)使用。這些系統(tǒng)都是以自我監(jiān)督的方式預(yù)先訓(xùn)練的,以預(yù)測(cè)文本中的缺失詞。
也許更令人驚訝的是,變壓器已成功地用于象征性地求解積分和微分方程。62最近的一個(gè)非常有希望的趨勢(shì)是,在具有最新性能的圖像中使用卷積網(wǎng)絡(luò)上的變壓器進(jìn)行目標(biāo)檢測(cè)和定位。19變壓器在一個(gè)具有最新性能的圖像中執(zhí)行后處理和基于對(duì)象的推理可微方式,使系統(tǒng)能夠接受端到端的培訓(xùn)。
無監(jiān)督和自我監(jiān)督的學(xué)習(xí)。監(jiān)督學(xué)習(xí)雖然在各種任務(wù)中都很成功,但通常需要大量的人工標(biāo)記數(shù)據(jù)。同樣,當(dāng)強(qiáng)化學(xué)習(xí)僅僅基于獎(jiǎng)勵(lì)時(shí),它需要大量的交互。這些學(xué)習(xí)方法往往產(chǎn)生特定于任務(wù)的、專門的系統(tǒng),這些系統(tǒng)通常在他們接受過培訓(xùn)的狹窄領(lǐng)域之外變得脆弱。減少學(xué)習(xí)任務(wù)所需的人類標(biāo)記樣本或與世界的交互數(shù)量,提高域外魯棒性,對(duì)于低資源語言翻譯、醫(yī)學(xué)圖像分析、自主駕駛和內(nèi)容過濾等應(yīng)用具有重要意義。
人類和動(dòng)物似乎能夠以獨(dú)立于任務(wù)的方式,通過觀察,學(xué)習(xí)大量有關(guān)世界的背景知識(shí)。這種知識(shí)是常識(shí)的基礎(chǔ),它讓人類能夠通過短短幾個(gè)小時(shí)的練習(xí)來學(xué)習(xí)復(fù)雜的任務(wù),比如駕駛。人工智能未來的一個(gè)關(guān)鍵問題是,人類如何從觀察中學(xué)習(xí)如此多?
人工智能未來的一個(gè)關(guān)鍵問題是,人類如何從觀察中學(xué)到這么多東西?
在有監(jiān)督學(xué)習(xí)中,N個(gè)類別中的一個(gè)類別的標(biāo)簽平均最多傳遞log2(N)位關(guān)于世界的信息。在無模型強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)同樣只傳遞少量信息。相比之下,音頻、圖像和視頻是高帶寬的形式,隱含地傳達(dá)了大量關(guān)于世界結(jié)構(gòu)的信息。這激發(fā)了一種稱為自我監(jiān)督學(xué)習(xí)的預(yù)測(cè)或重建形式,即通過預(yù)測(cè)數(shù)據(jù)中被掩蓋或損壞的部分來訓(xùn)練“填補(bǔ)空白”。自監(jiān)督學(xué)習(xí)已經(jīng)非常成功地用于訓(xùn)練變換器來提取向量,這些向量能夠捕獲單詞或單詞片段的上下文相關(guān)意義,并且這些向量對(duì)于下游任務(wù)非常有效。
對(duì)于文本,變換器被訓(xùn)練成從一組離散的可能性中預(yù)測(cè)丟失的單詞。但在視頻等高維連續(xù)域中,某一特定視頻片段的似然連續(xù)體集合龐大而復(fù)雜,正確地表示似然連續(xù)體的分布本質(zhì)上是一個(gè)尚未解決的問題。
對(duì)比學(xué)習(xí)。解決這個(gè)問題的一種方法是通過潛變量模型,將一個(gè)能量(即,一個(gè)壞的)分配給一個(gè)視頻的例子和一個(gè)可能的延續(xù)
給定一個(gè)輸入視頻X和一個(gè)建議的延拓Y,我們想要一個(gè)模型,通過使用能量函數(shù)E(X,Y)來指示Y是否與X兼容,當(dāng)X和Y兼容時(shí),能量函數(shù)E(X,Y)取低值,否則取高值。
E(X,Y)可以由一個(gè)深度神經(jīng)網(wǎng)絡(luò)來計(jì)算,對(duì)于給定的X,該神經(jīng)網(wǎng)絡(luò)以對(duì)比的方式進(jìn)行訓(xùn)練,以給與X兼容的值Y(例如訓(xùn)練集中的(X,Y)對(duì)的例子)提供低能量,給與X不兼容的值Y提供高能量。對(duì)于給定的X,推斷包括找到一個(gè)使E(X,Y)最小化的cacm6407_a.gif,或者從E(X,Y)值較低的Y中采樣。這種基于能量的方法來表示Y依賴于X的方式,使得對(duì)一組不同的、多模態(tài)的看似合理的連續(xù)性進(jìn)行建模成為可能。
對(duì)比學(xué)習(xí)的關(guān)鍵難點(diǎn)在于選取好的“否定”樣本:合適的點(diǎn)Y,其能量將被推高。當(dāng)一組可能的否定例子不太大時(shí),我們可以把它們?nèi)靠紤]在內(nèi)。這就是softmax所做的,因此在這種情況下,對(duì)比學(xué)習(xí)簡(jiǎn)化為有限離散符號(hào)集上的標(biāo)準(zhǔn)監(jiān)督或自監(jiān)督學(xué)習(xí)。但在實(shí)值高維空間中,向量cacm6407_b.gif有太多不同于Y的方式,為了改進(jìn)模型,我們需要關(guān)注那些本應(yīng)具有高能量但目前具有低能量的Y。早期挑選負(fù)樣本的方法是基于蒙特卡羅方法,如受限玻耳茲曼機(jī)的對(duì)比散度48和噪聲對(duì)比估計(jì)。41
生成性對(duì)抗網(wǎng)絡(luò)(GANs)36通過將神經(jīng)網(wǎng)絡(luò)應(yīng)用于來自已知分布(例如,高斯分布)的潛在樣本來訓(xùn)練生成性神經(jīng)網(wǎng)絡(luò)以產(chǎn)生對(duì)比樣本。發(fā)電機(jī)自身進(jìn)行訓(xùn)練,以產(chǎn)生輸出cacm6407_b.gif,模型向其提供低能量E(cacm6407_b.gif)。生成器可以使用反向傳播來獲得E(cacm6407_b.gif)相對(duì)于cacm6407_b.gif的梯度。發(fā)生器和模型同時(shí)訓(xùn)練,模型試圖給訓(xùn)練樣本低能量,給生成的對(duì)比樣本高能量。
GAN的優(yōu)化有些棘手,但對(duì)抗性訓(xùn)練思想已被證明是極其豐富的,在圖像合成方面產(chǎn)生了令人印象深刻的結(jié)果,并在內(nèi)容創(chuàng)建和領(lǐng)域適應(yīng)34以及領(lǐng)域或風(fēng)格轉(zhuǎn)換方面開辟了許多新的應(yīng)用領(lǐng)域。87
運(yùn)用對(duì)比學(xué)習(xí)使表達(dá)一致。對(duì)比學(xué)習(xí)提供了一種無需重建或生成像素就能發(fā)現(xiàn)良好特征向量的方法。其思想是學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò),當(dāng)給定同一圖像的兩個(gè)不同作物10或同一對(duì)象的兩個(gè)不同視圖17但不同對(duì)象的不同圖像或視圖的作物的不同輸出向量時(shí),該網(wǎng)絡(luò)產(chǎn)生非常相似的輸出向量。兩個(gè)輸出向量之間的平方距離可以被視為一個(gè)能量,對(duì)于相容對(duì),它被向下推;對(duì)于不相容對(duì),它被向上推
最近的一系列論文使用卷積網(wǎng)絡(luò)來提取一致的表示,在視覺特征學(xué)習(xí)中產(chǎn)生了有希望的結(jié)果。正對(duì)由同一圖像的不同版本組成,這些版本通過裁剪、縮放、旋轉(zhuǎn)、顏色偏移、模糊等方式進(jìn)行扭曲。負(fù)片對(duì)是不同圖像的類似失真版本,可以通過稱為硬負(fù)片挖掘的過程從數(shù)據(jù)集中巧妙地選取,也可以是小批量中其他圖像的所有失真版本。該網(wǎng)絡(luò)的一個(gè)高級(jí)層的隱藏活動(dòng)向量隨后被用作以有監(jiān)督的方式訓(xùn)練的線性分類器的輸入。這種連體網(wǎng)方法在標(biāo)準(zhǔn)圖像識(shí)別基準(zhǔn)上取得了很好的效果。6,21,22,43,67最近,兩種連體網(wǎng)方法成功地避免了對(duì)對(duì)比樣本的需要。第一個(gè)被稱為SwAV,它量化一個(gè)網(wǎng)絡(luò)的輸出來訓(xùn)練另一個(gè)網(wǎng)絡(luò),20第二個(gè)被稱為BYOL,它平滑了兩個(gè)網(wǎng)絡(luò)之一的權(quán)重軌跡,這顯然足以防止崩潰。40
可變自動(dòng)編碼器。最近流行的一種自監(jiān)督學(xué)習(xí)方法是變分自動(dòng)編碼器(VAE)。58它由將圖像映射到潛在代碼空間的編碼器網(wǎng)絡(luò)和從潛在代碼生成圖像的解碼器網(wǎng)絡(luò)組成。VAE通過在編碼器的輸出中加入高斯噪聲來限制潛在碼的信息容量,然后再將其傳遞給解碼器。這類似于將小的有噪聲的球體打包成半徑最小的較大球體。信息容量受限于包含的球體中包含多少噪聲球體。噪聲球相互排斥,因?yàn)榱己玫闹亟ㄕ`差需要對(duì)應(yīng)于不同樣本的代碼之間的小重疊。在數(shù)學(xué)上,該系統(tǒng)使通過在噪聲分布上邊緣化潛在碼而獲得的自由能最小化。然而,最小化自由能相對(duì)于參數(shù)是困難的,必須依賴于統(tǒng)計(jì)物理中最小化自由能上界的變分近似方法。
深度學(xué)習(xí)的未來
深度學(xué)習(xí)系統(tǒng)的性能通常可以通過簡(jiǎn)單的擴(kuò)展而得到極大的提高。有了更多的數(shù)據(jù)和更多的計(jì)算,它們通常工作得更好。具有1750億個(gè)參數(shù)的語言模型GPT-318(與人腦中的突觸數(shù)量相比仍然很小)生成的文本明顯好于只有15億個(gè)參數(shù)的GPT-2。聊天機(jī)器人Meena2和BlenderBot73也在不斷改進(jìn),因?yàn)樗鼈冊(cè)絹碓酱?。目前,在擴(kuò)展方面正在付出巨大的努力,它將極大地改進(jìn)現(xiàn)有系統(tǒng),但當(dāng)前深度學(xué)習(xí)的一些根本缺陷無法通過單獨(dú)的擴(kuò)展來克服,如本文所討論的。
將人類的學(xué)習(xí)能力與當(dāng)前的人工智能進(jìn)行比較,可以提出幾個(gè)改進(jìn)方向:
監(jiān)督學(xué)習(xí)需要太多的標(biāo)記數(shù)據(jù),而無模型強(qiáng)化學(xué)習(xí)需要太多的實(shí)驗(yàn)。人類似乎能夠用少得多的經(jīng)驗(yàn)很好地概括。
目前的系統(tǒng)對(duì)分布變化的魯棒性不如人類,人類能夠快速適應(yīng)這種變化的例子很少。
當(dāng)前的深度學(xué)習(xí)最成功的是感知任務(wù),通常稱為系統(tǒng)1任務(wù)。對(duì)于需要經(jīng)過深思熟慮的步驟序列的System2任務(wù),使用深度學(xué)習(xí)是一個(gè)令人興奮的領(lǐng)域,它仍處于起步階段。
需要改進(jìn)的地方。從早期開始,機(jī)器學(xué)習(xí)理論界就把重點(diǎn)放在iid假設(shè)上,這說明測(cè)試用例的分布與訓(xùn)練實(shí)例的分布一致。不幸的是,在現(xiàn)實(shí)世界中,這不是一個(gè)現(xiàn)實(shí)的假設(shè):僅僅考慮由于各種代理改變世界的行為而產(chǎn)生的非平穩(wěn)性,或者學(xué)習(xí)代理的逐漸擴(kuò)大的心理層面,它總是有更多的學(xué)習(xí)和發(fā)現(xiàn)。實(shí)際結(jié)果是,當(dāng)今最好的AI系統(tǒng)從實(shí)驗(yàn)室到現(xiàn)場(chǎng)時(shí),性能往往會(huì)受到?jīng)_擊。
當(dāng)面臨分布變化(稱為非分布泛化)時(shí),我們希望實(shí)現(xiàn)更大的魯棒性,這是一個(gè)特殊情況,即當(dāng)面臨轉(zhuǎn)移學(xué)習(xí)和終身學(xué)習(xí)等新任務(wù)時(shí),降低樣本復(fù)雜性(需要推廣的示例數(shù))的更一般目標(biāo)81或簡(jiǎn)單在分配上或世界各國之間的關(guān)系和回報(bào)的變化。當(dāng)前的監(jiān)督學(xué)習(xí)系統(tǒng)比人類需要更多的例子(當(dāng)必須學(xué)習(xí)新任務(wù)時(shí)),而無模型強(qiáng)化學(xué)習(xí)的情況更糟23,因?yàn)槊總€(gè)獎(jiǎng)勵(lì)試驗(yàn)提供的關(guān)于任務(wù)的信息比每個(gè)標(biāo)記的示例少。人們已經(jīng)注意到D61,76人類可以以不同和更強(qiáng)大的方式概括iid概括:我們可以正確地解釋現(xiàn)有概念的新組合,即使在我們的訓(xùn)練分布下,這些組合極不可能,只要他們尊重高級(jí)的句法和語義模式,我們就已經(jīng)學(xué)會(huì)了。最近的研究有助于我們闡明在這種系統(tǒng)泛化能力方面,不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是如何發(fā)展的。8,9如何設(shè)計(jì)具有這些能力的未來機(jī)器學(xué)習(xí)系統(tǒng),以更好地推廣或更快地適應(yīng)分布之外?
從均勻的層到代表實(shí)體的神經(jīng)元組。神經(jīng)科學(xué)的證據(jù)表明,附近神經(jīng)元群(形成所謂的超柱)緊密相連,可能代表一種更高層次的向量值單元,它不僅可以發(fā)送標(biāo)量,而且還可以發(fā)送一組協(xié)調(diào)值。這個(gè)想法是膠囊結(jié)構(gòu)的核心,47,59,它也是使用軟注意機(jī)制的固有思想,其中集合中的每個(gè)元素都與向量相關(guān)聯(lián),從中可以讀取鍵向量和值向量(有時(shí)也可以是查詢向量)??紤]這些矢量級(jí)單位的一種方法是表示對(duì)象的檢測(cè)及其屬性(如姿勢(shì)信息,在膠囊中)。計(jì)算機(jī)視覺的最近論文正在探索卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,在這種擴(kuò)展中,層次的頂層代表在輸入圖像中檢測(cè)到的一組候選對(duì)象,并且對(duì)這些候選對(duì)象的操作是用類似變壓器的結(jié)構(gòu)來執(zhí)行的,86為對(duì)象及其部件分配內(nèi)在參考幀,并通過零件間的幾何關(guān)系識(shí)別對(duì)象的神經(jīng)網(wǎng)絡(luò)應(yīng)不易受到定向?qū)构簦?9這依賴于人們使用的信息與神經(jīng)網(wǎng)絡(luò)識(shí)別物體的信息之間的巨大差異。
多時(shí)間適應(yīng)比例。大多數(shù)神經(jīng)網(wǎng)絡(luò)只有兩個(gè)時(shí)間尺度:權(quán)重在許多例子中適應(yīng)緩慢,并且隨著每個(gè)新輸入的變化,活動(dòng)適應(yīng)迅速。添加快速適應(yīng)和快速衰減的“快速權(quán)重”49的疊加,引入了有趣的新計(jì)算能力。特別是,它創(chuàng)建了一個(gè)高容量、短期內(nèi)存,4允許神經(jīng)網(wǎng)絡(luò)執(zhí)行真正的遞歸,在遞歸調(diào)用中可以重用同一個(gè)神經(jīng)元,因?yàn)樗鼈冊(cè)诟呒?jí)別調(diào)用中的活動(dòng)向量可以稍后使用快速權(quán)重中的信息重建。學(xué)習(xí)學(xué)習(xí)或元學(xué)習(xí)也會(huì)產(chǎn)生多個(gè)時(shí)間適應(yīng)量表
更高層次的認(rèn)知。當(dāng)我們思考一個(gè)新的挑戰(zhàn)時(shí),比如在一個(gè)交通規(guī)則不尋常的城市里開車,甚至想象在月球上駕駛一輛車,我們可以利用我們已經(jīng)掌握的知識(shí)和通用技能,以新的方式動(dòng)態(tài)地將它們重新組合起來。這種形式的系統(tǒng)化概括允許人類在訓(xùn)練分布下不太可能的上下文中相當(dāng)好地概括。然后,我們可以通過練習(xí)、微調(diào)和編譯這些新技能來進(jìn)一步提高,使它們不再需要有意識(shí)的關(guān)注。我們?cè)鯓硬拍苜x予神經(jīng)網(wǎng)絡(luò)快速適應(yīng)新環(huán)境的能力,主要是重用已知的知識(shí)片段,從而避免對(duì)已知技能的干擾?這方面的初始步驟包括變革者32和反復(fù)出現(xiàn)的獨(dú)立機(jī)制。38
似乎我們的內(nèi)隱(系統(tǒng)1)處理能力允許我們?cè)谟?jì)劃或推理時(shí)猜測(cè)潛在的好的或危險(xiǎn)的未來。這就提出了一個(gè)問題,即系統(tǒng)1網(wǎng)絡(luò)如何在更高的(系統(tǒng)2)層次上指導(dǎo)搜索和規(guī)劃,也許是在價(jià)值函數(shù)的精神指導(dǎo)下,蒙特卡羅樹搜索AlphaGo.77
機(jī)器學(xué)習(xí)研究依賴于歸納偏見或先驗(yàn),以鼓勵(lì)學(xué)習(xí)方向與一些關(guān)于世界的假設(shè)相一致。系統(tǒng)2處理和認(rèn)知神經(jīng)科學(xué)理論的本質(zhì)5,30表明了一些這樣的歸納偏見和結(jié)構(gòu),11,45可以用來設(shè)計(jì)新的深度學(xué)習(xí)系統(tǒng)。我們?nèi)绾卧O(shè)計(jì)包含這種歸納偏差的深度學(xué)習(xí)架構(gòu)和培訓(xùn)框架?
幼兒進(jìn)行因果發(fā)現(xiàn)的能力37表明,這可能是人腦的一個(gè)基本特性,最近的研究表明,在干預(yù)性變化下優(yōu)化分布外的泛化可以用來訓(xùn)練神經(jīng)網(wǎng)絡(luò),以發(fā)現(xiàn)因果依賴或因果變量。3,13,57,66我們應(yīng)該如何構(gòu)造和訓(xùn)練神經(jīng)網(wǎng)絡(luò),以便它們能夠捕捉世界的這些潛在因果特性?
這些開放性問題提出的方向與20世紀(jì)的符號(hào)人工智能研究計(jì)劃有何關(guān)聯(lián)?顯然,這個(gè)符號(hào)人工智能程序旨在實(shí)現(xiàn)系統(tǒng)2的能力,例如推理,能夠?qū)⒅R(shí)分解成可以在一系列計(jì)算步驟中輕松重組的片段,并且能夠操縱抽象變量、類型和實(shí)例。我們希望設(shè)計(jì)一種神經(jīng)網(wǎng)絡(luò),它能在處理實(shí)值向量的同時(shí)完成所有這些工作,從而保持深度學(xué)習(xí)的優(yōu)勢(shì),包括使用可微計(jì)算和基于梯度的自適應(yīng)進(jìn)行有效的大規(guī)模學(xué)習(xí),在低水平的感知和行動(dòng)中建立高水平的概念,處理不確定數(shù)據(jù),使用分布式表示。