操逼99精品骚逼,久草色伦理网,久久草在线

2021.6

https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext

https://mp.weixin.qq.com/s/8njg92xSrg_AX32xl7Uv7A

Yoshua Bengio、Yann LeCun和Geoffrey Hinton獲得了2018 ACM A.M.圖靈獎(jiǎng)，因?yàn)樗麄兊耐黄剖股疃壬窠?jīng)網(wǎng)絡(luò)成為計(jì)算的關(guān)鍵組成部分。

對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究是基于這樣一個(gè)觀察：人類智能是從相對(duì)簡(jiǎn)單的非線性神經(jīng)元高度并行的網(wǎng)絡(luò)中產(chǎn)生的，這些神經(jīng)元通過調(diào)整連接的強(qiáng)度來學(xué)習(xí)。這一觀察結(jié)果引出了一個(gè)核心的計(jì)算問題：這種一般類型的網(wǎng)絡(luò)如何能夠?qū)W習(xí)復(fù)雜的內(nèi)部表示，這些表示是識(shí)別對(duì)象或理解語言等困難任務(wù)所必需的？深度學(xué)習(xí)試圖通過使用多層活動(dòng)向量作為表示來回答這個(gè)問題，并通過跟蹤衡量網(wǎng)絡(luò)性能的目標(biāo)函數(shù)的隨機(jī)梯度來學(xué)習(xí)產(chǎn)生這些向量的連接強(qiáng)度。這是非常令人驚訝的，這樣一個(gè)概念上簡(jiǎn)單的方法已被證明是如此有效，當(dāng)應(yīng)用于大型訓(xùn)練集使用大量的計(jì)算，它似乎是一個(gè)關(guān)鍵因素是深度：淺網(wǎng)絡(luò)根本不工作。

我們回顧了幾年前深度學(xué)習(xí)的基本概念和一些突破性成果。63這里我們簡(jiǎn)要介紹了深度學(xué)習(xí)的起源，描述了一些較新的進(jìn)展，并討論了一些未來的挑戰(zhàn)。這些挑戰(zhàn)包括在很少或沒有外部監(jiān)督的情況下學(xué)習(xí)，應(yīng)對(duì)來自不同于培訓(xùn)樣本分布的測(cè)試樣本，使用深度學(xué)習(xí)的方法來解決人類的任務(wù)，通過使用一系列的步驟，我們有意識(shí)地處理Kahneman56稱之為系統(tǒng)2任務(wù)的任務(wù)，而不是系統(tǒng)1任務(wù)，比如物體識(shí)別或即時(shí)自然語言理解，它們通常感覺毫不費(fèi)力。

從手工編碼的符號(hào)表達(dá)式到學(xué)習(xí)的分布式表示

人工智能有兩種完全不同的模式。簡(jiǎn)單地說，邏輯啟發(fā)范式將順序推理視為智能的本質(zhì)，旨在使用手工設(shè)計(jì)的推理規(guī)則在計(jì)算機(jī)中實(shí)現(xiàn)推理，這些規(guī)則操作手工設(shè)計(jì)的符號(hào)表達(dá)式，這些符號(hào)表達(dá)式將知識(shí)形式化。腦啟發(fā)范式將從數(shù)據(jù)中學(xué)習(xí)表征視為智能的本質(zhì)，旨在通過設(shè)計(jì)或進(jìn)化規(guī)則來修改人工神經(jīng)元模擬網(wǎng)絡(luò)中的連接強(qiáng)度來實(shí)現(xiàn)手動(dòng)學(xué)習(xí)。

在受邏輯啟發(fā)的范式中，符號(hào)沒有有意義的內(nèi)部結(jié)構(gòu)：它的意義存在于它與其他符號(hào)的關(guān)系中，這些關(guān)系可以用一組符號(hào)表達(dá)式或關(guān)系圖來表示。相比之下，在大腦啟發(fā)的范式中，用于交流的外部符號(hào)被轉(zhuǎn)換成神經(jīng)活動(dòng)的內(nèi)部向量，這些向量具有豐富的相似結(jié)構(gòu)?；顒?dòng)向量可用于通過學(xué)習(xí)用于每個(gè)符號(hào)的適當(dāng)活動(dòng)向量和學(xué)習(xí)允許填充對(duì)應(yīng)于符號(hào)串的缺失元素的活動(dòng)向量的非線性變換來建模一組符號(hào)串中固有的結(jié)構(gòu)。這一點(diǎn)首先在Rumelhart等人74的玩具數(shù)據(jù)中得到證實(shí)，然后在Bengio等人14的真實(shí)句子中得到證實(shí)。最近的一個(gè)非常令人印象深刻的演示是BERT，22，它還利用自我關(guān)注來動(dòng)態(tài)連接一組單元，如后面所述。

使用神經(jīng)活動(dòng)向量來表示概念和權(quán)重矩陣來捕獲概念之間的關(guān)系的主要優(yōu)點(diǎn)是，這會(huì)導(dǎo)致自動(dòng)泛化。如果星期二和星期四由非常相似的向量表示，它們將對(duì)其他神經(jīng)活動(dòng)向量產(chǎn)生非常相似的因果影響。這有助于類比推理，并表明直接、直觀的類比推理是我們的主要推理模式，邏輯順序推理是一個(gè)更晚的發(fā)展，56我們將討論。

深度學(xué)習(xí)的興起

20世紀(jì)初，通過引入一些元素，使深層學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得更加容易，從而使神經(jīng)網(wǎng)絡(luò)研究煥發(fā)活力。GPU的出現(xiàn)和大型數(shù)據(jù)集的可用性是深入學(xué)習(xí)的關(guān)鍵因素，并且通過開發(fā)具有自動(dòng)區(qū)分功能的開放源碼、靈活的軟件平臺(tái)（如Theano、16 Torch、25 CAFE、55 TensorFlow）大大增強(qiáng)了這些平臺(tái)的性能，1和Pythrot.71這使得訓(xùn)練復(fù)雜的深網(wǎng)和重用最新模型及其構(gòu)建塊變得非常容易。但是，更多層次的組成允許更復(fù)雜的非線性，并在感知任務(wù)中取得令人驚訝的好結(jié)果，如本文所總結(jié)。

為什么深度？盡管人們直覺認(rèn)為，較深的神經(jīng)網(wǎng)絡(luò)可以是更強(qiáng)大的現(xiàn)代深度學(xué)習(xí)技術(shù)，82它是在結(jié)構(gòu)和訓(xùn)練過程方面的一系列進(jìn)步，15，35，48，這導(dǎo)致了與深度學(xué)習(xí)的興起相關(guān)的顯著進(jìn)展。但是，為什么更深層次的網(wǎng)絡(luò)能夠更好地概括我們感興趣的各種輸入-輸出關(guān)系呢？重要的是要認(rèn)識(shí)到，這不僅僅是一個(gè)參數(shù)較多的問題，因?yàn)樯罹W(wǎng)絡(luò)通常比具有相同參數(shù)的淺網(wǎng)絡(luò)更好地推廣。15實(shí)踐證明了這一點(diǎn)。最流行的計(jì)算機(jī)視覺卷積網(wǎng)絡(luò)結(jié)構(gòu)是ResNet家族43，其中最常見的代表，ResNet-50有50層。本文中未提到但非常有用的其他成分包括圖像變形、退出、51和批量標(biāo)準(zhǔn)化

我們認(rèn)為，深度網(wǎng)絡(luò)之所以能發(fā)揮優(yōu)勢(shì)，是因?yàn)樗鼈兝昧艘环N特殊的組合形式，其中一層的特征以多種不同的方式組合在一起，從而在下一層中創(chuàng)建更抽象的特性。

對(duì)于感知這樣的任務(wù)，這種組合性非常有效，并且有很強(qiáng)的證據(jù)表明它被生物感知系統(tǒng)所使用

無監(jiān)督的預(yù)培訓(xùn)。當(dāng)標(biāo)記訓(xùn)練示例的數(shù)量與執(zhí)行任務(wù)所需的神經(jīng)網(wǎng)絡(luò)的復(fù)雜性相比，有必要首先使用其他信息源創(chuàng)建特征檢測(cè)器層，然后使用有限的標(biāo)簽供應(yīng)對(duì)這些特征檢測(cè)器進(jìn)行微調(diào)。在遷移學(xué)習(xí)中，信息源是另一個(gè)有監(jiān)督的學(xué)習(xí)任務(wù)，具有豐富的標(biāo)簽。但是，也可以通過堆疊自動(dòng)編碼器來創(chuàng)建一層不使用任何標(biāo)簽的特征檢測(cè)器

首先，我們學(xué)習(xí)了一層特征檢測(cè)器，它的活動(dòng)允許我們重建輸入。然后我們學(xué)習(xí)第二層特征檢測(cè)器，其活動(dòng)允許我們重建第一層特征檢測(cè)器的活動(dòng)。通過這種方法學(xué)習(xí)了幾個(gè)隱藏層，然后嘗試從最后一個(gè)隱藏層的活動(dòng)中預(yù)測(cè)標(biāo)簽，并將錯(cuò)誤反向傳播到所有層，以便在不使用標(biāo)簽中寶貴信息的情況下對(duì)最初發(fā)現(xiàn)的特征檢測(cè)器進(jìn)行微調(diào)。預(yù)培訓(xùn)很可能提取出與最終分類無關(guān)的各種結(jié)構(gòu)，但是，在計(jì)算成本低廉、標(biāo)記數(shù)據(jù)昂貴的情況下，只要預(yù)培訓(xùn)將輸入轉(zhuǎn)換為一種表示形式，從而使分類更容易，這是很好的。

除了改進(jìn)泛化，無監(jiān)督預(yù)訓(xùn)練還可以通過這種方法初始化權(quán)重，從而便于對(duì)具有反向傳播的深部神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。預(yù)培訓(xùn)對(duì)優(yōu)化的影響對(duì)于克服公認(rèn)的深網(wǎng)難以訓(xùn)練的智慧具有歷史意義，但現(xiàn)在人們使用校正的線性單元（見下一節(jié)）和剩余連接，這一點(diǎn)就沒有太大的相關(guān)性。43然而，預(yù)培訓(xùn)對(duì)泛化的影響已證明非常重要。通過大量未標(biāo)注數(shù)據(jù)，例如在自然語言處理中，利用大量未標(biāo)記數(shù)據(jù)，訓(xùn)練非常大的模型成為可能，而對(duì)于這些數(shù)據(jù)，可以使用大型語料庫。26,32預(yù)培訓(xùn)和微調(diào)的一般原則已成為深入學(xué)習(xí)工具箱中的重要工具，在轉(zhuǎn)移學(xué)習(xí)，甚至作為現(xiàn)代元學(xué)習(xí)的一個(gè)組成部分時(shí)。33

線性校正裝置的神秘成功。深度網(wǎng)絡(luò)的早期成功涉及到使用logistic-sigmoid非線性或密切相關(guān)的雙曲正切的單元層的無監(jiān)督預(yù)訓(xùn)練。校正的線性單位早在神經(jīng)科學(xué)29中就被假設(shè)出來了，并且已經(jīng)用于RBMs70和卷積神經(jīng)網(wǎng)絡(luò)的一些變體中。54發(fā)現(xiàn)校正非線性（現(xiàn)在稱為ReLUs，有許多現(xiàn)代的變種）使得通過backprop和隨機(jī)梯度下降很容易訓(xùn)練深層網(wǎng)絡(luò)，而不需要分層預(yù)訓(xùn)練。這是一項(xiàng)技術(shù)進(jìn)步，使深度學(xué)習(xí)優(yōu)于以前的物體識(shí)別方法，60如本文所述。

語音和物體識(shí)別的突破。聲學(xué)模型將聲波的表示轉(zhuǎn)換成音素片段上的概率分布。Robinson 72使用Transputer和Morgan等人69使用DSP芯片所做的英勇努力已經(jīng)表明，在具有足夠處理能力的情況下，神經(jīng)網(wǎng)絡(luò)在聲學(xué)建模方面與最先進(jìn)的技術(shù)具有競(jìng)爭(zhēng)力。2009年，兩名使用Nvidia GPU的研究生68表明，預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在TIMIT數(shù)據(jù)集上的表現(xiàn)略優(yōu)于SOTA。這一結(jié)果重新激起了神經(jīng)網(wǎng)絡(luò)中幾個(gè)主要語音組的興趣。2010年，基本上相同的deep network在大詞匯量語音識(shí)別方面擊敗了SOTA，而不需要依賴說話人的培訓(xùn)28,46，到2012年，Google設(shè)計(jì)了一個(gè)產(chǎn)品版本，顯著改進(jìn)了Android上的語音搜索。這是深度學(xué)習(xí)破壞力的早期證明。

與此同時(shí)，deep learning在2012 ImageNet競(jìng)賽中取得了戲劇性的勝利，在自然圖像中識(shí)別上千種不同類別的對(duì)象時(shí)，錯(cuò)誤率幾乎降低了一半。60這一勝利的關(guān)鍵在于李菲菲和她的合作者在收集超過一百萬張標(biāo)記圖像31用于訓(xùn)練集方面的重大努力，以及Alex Krizhevsky非常有效地使用多個(gè)GPU。當(dāng)前的硬件，包括gpu，鼓勵(lì)使用大的小批量，以便將從內(nèi)存中獲取權(quán)重的成本分?jǐn)偟皆摍?quán)重的許多用途中。純?cè)诰€隨機(jī)梯度下降法使用每個(gè)權(quán)值一次收斂更快，未來的硬件可能只使用權(quán)值，而不是從內(nèi)存中獲取它們。

深層卷積神經(jīng)網(wǎng)絡(luò)包含了一些新的功能，例如使用ReLUs來加快學(xué)習(xí)速度，使用dropout來防止過度擬合，但它基本上只是Yann LeCun及其合作者多年來開發(fā)的一種前饋卷積神經(jīng)網(wǎng)絡(luò)，65計(jì)算機(jī)視覺界對(duì)這一突破的反應(yīng)令人欽佩。鑒于卷積神經(jīng)網(wǎng)絡(luò)優(yōu)越性的無可爭(zhēng)辯的證據(jù)，社區(qū)迅速放棄了以前的手工設(shè)計(jì)方法，轉(zhuǎn)而進(jìn)行深度學(xué)習(xí)。

最新進(jìn)展

在這里，我們有選擇地接觸到一些最新的深入學(xué)習(xí)的進(jìn)展，顯然遺漏了許多重要的課題，如深度強(qiáng)化學(xué)習(xí)，圖形神經(jīng)網(wǎng)絡(luò)和元學(xué)習(xí)。

軟注意和變壓器架構(gòu)。深度學(xué)習(xí)的一個(gè)重要發(fā)展，特別是在順序處理方面，是使用乘法交互作用，特別是以軟注意的形式。7,32,39,78這是對(duì)神經(jīng)網(wǎng)絡(luò)工具箱的一個(gè)變革性補(bǔ)充，它將神經(jīng)網(wǎng)絡(luò)從單純的向量變換機(jī)轉(zhuǎn)變?yōu)槟軇?dòng)態(tài)選擇輸入的結(jié)構(gòu)，并能將信息存儲(chǔ)在可微聯(lián)想存儲(chǔ)器中。這種體系結(jié)構(gòu)的一個(gè)關(guān)鍵特性是，它們可以有效地操作不同類型的數(shù)據(jù)結(jié)構(gòu)，包括集合和圖。

一個(gè)層中的模塊可以使用軟注意來動(dòng)態(tài)地選擇上一層中的哪些向量，它們將組合起來計(jì)算它們的輸出。這可以使輸出獨(dú)立于輸入的呈現(xiàn)順序（將它們視為一個(gè)集合），或者使用不同輸入之間的關(guān)系（將它們視為一個(gè)圖形）。

transformer架構(gòu)（transformer architecture）已經(jīng)成為許多應(yīng)用程序中的主導(dǎo)架構(gòu)，它堆疊了許多層的“自我關(guān)注”模塊。層中的每個(gè)模塊都使用標(biāo)量積來計(jì)算其查詢向量與該層中其他模塊的鍵向量之間的匹配。將匹配項(xiàng)歸一化為和1，然后使用得到的標(biāo)量系數(shù)來形成由前一層中的其他模塊生成的值向量的凸組合。得到的向量形成下一階段計(jì)算的模塊的輸入。模塊可以是多頭的，以便每個(gè)模塊計(jì)算幾個(gè)不同的查詢、鍵和值向量，從而使每個(gè)模塊有可能有幾個(gè)不同的輸入，每個(gè)輸入以不同的方式從前一階段模塊中選擇。在這種操作中，模塊的順序和數(shù)量無關(guān)緊要，因此可以對(duì)向量集進(jìn)行操作，而不是像傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)那樣對(duì)單個(gè)向量進(jìn)行操作。例如，語言翻譯系統(tǒng)在輸出句子中產(chǎn)生一個(gè)詞時(shí)，可以選擇關(guān)注輸入句子中相應(yīng)的一組詞，而不考慮它們?cè)谖谋局械奈恢?。雖然乘法選通對(duì)于坐標(biāo)變換和強(qiáng)大的循環(huán)網(wǎng)絡(luò)形式來說是一個(gè)古老的想法，但它最近的形式使它成為主流。思考注意機(jī)制的另一種方式是，它們使人們能夠通過適當(dāng)選擇的模塊動(dòng)態(tài)地傳遞信息，并以潛在的新穎方式組合這些模塊，以改進(jìn)分布外的泛化。38

我們認(rèn)為深層網(wǎng)絡(luò)之所以出色，是因?yàn)樗鼈兝昧艘环N特殊的組合形式，即一層中的特征以多種不同的方式組合在一起，從而在下一層中創(chuàng)建更多的抽象特征。

變壓器已經(jīng)產(chǎn)生了巨大的性能改進(jìn)，這已經(jīng)徹底改變了自然語言處理，27，32，它們現(xiàn)在正在工業(yè)中被常規(guī)使用。這些系統(tǒng)都是以自我監(jiān)督的方式預(yù)先訓(xùn)練的，以預(yù)測(cè)文本中的缺失詞。

也許更令人驚訝的是，變壓器已成功地用于象征性地求解積分和微分方程。62最近的一個(gè)非常有希望的趨勢(shì)是，在具有最新性能的圖像中使用卷積網(wǎng)絡(luò)上的變壓器進(jìn)行目標(biāo)檢測(cè)和定位。19變壓器在一個(gè)具有最新性能的圖像中執(zhí)行后處理和基于對(duì)象的推理可微方式，使系統(tǒng)能夠接受端到端的培訓(xùn)。

無監(jiān)督和自我監(jiān)督的學(xué)習(xí)。監(jiān)督學(xué)習(xí)雖然在各種任務(wù)中都很成功，但通常需要大量的人工標(biāo)記數(shù)據(jù)。同樣，當(dāng)強(qiáng)化學(xué)習(xí)僅僅基于獎(jiǎng)勵(lì)時(shí)，它需要大量的交互。這些學(xué)習(xí)方法往往產(chǎn)生特定于任務(wù)的、專門的系統(tǒng)，這些系統(tǒng)通常在他們接受過培訓(xùn)的狹窄領(lǐng)域之外變得脆弱。減少學(xué)習(xí)任務(wù)所需的人類標(biāo)記樣本或與世界的交互數(shù)量，提高域外魯棒性，對(duì)于低資源語言翻譯、醫(yī)學(xué)圖像分析、自主駕駛和內(nèi)容過濾等應(yīng)用具有重要意義。

人類和動(dòng)物似乎能夠以獨(dú)立于任務(wù)的方式，通過觀察，學(xué)習(xí)大量有關(guān)世界的背景知識(shí)。這種知識(shí)是常識(shí)的基礎(chǔ)，它讓人類能夠通過短短幾個(gè)小時(shí)的練習(xí)來學(xué)習(xí)復(fù)雜的任務(wù)，比如駕駛。人工智能未來的一個(gè)關(guān)鍵問題是，人類如何從觀察中學(xué)習(xí)如此多？

人工智能未來的一個(gè)關(guān)鍵問題是，人類如何從觀察中學(xué)到這么多東西？

在有監(jiān)督學(xué)習(xí)中，N個(gè)類別中的一個(gè)類別的標(biāo)簽平均最多傳遞log2（N）位關(guān)于世界的信息。在無模型強(qiáng)化學(xué)習(xí)中，獎(jiǎng)勵(lì)同樣只傳遞少量信息。相比之下，音頻、圖像和視頻是高帶寬的形式，隱含地傳達(dá)了大量關(guān)于世界結(jié)構(gòu)的信息。這激發(fā)了一種稱為自我監(jiān)督學(xué)習(xí)的預(yù)測(cè)或重建形式，即通過預(yù)測(cè)數(shù)據(jù)中被掩蓋或損壞的部分來訓(xùn)練“填補(bǔ)空白”。自監(jiān)督學(xué)習(xí)已經(jīng)非常成功地用于訓(xùn)練變換器來提取向量，這些向量能夠捕獲單詞或單詞片段的上下文相關(guān)意義，并且這些向量對(duì)于下游任務(wù)非常有效。

對(duì)于文本，變換器被訓(xùn)練成從一組離散的可能性中預(yù)測(cè)丟失的單詞。但在視頻等高維連續(xù)域中，某一特定視頻片段的似然連續(xù)體集合龐大而復(fù)雜，正確地表示似然連續(xù)體的分布本質(zhì)上是一個(gè)尚未解決的問題。

對(duì)比學(xué)習(xí)。解決這個(gè)問題的一種方法是通過潛變量模型，將一個(gè)能量（即，一個(gè)壞的）分配給一個(gè)視頻的例子和一個(gè)可能的延續(xù)

給定一個(gè)輸入視頻X和一個(gè)建議的延拓Y，我們想要一個(gè)模型，通過使用能量函數(shù)E（X，Y）來指示Y是否與X兼容，當(dāng)X和Y兼容時(shí)，能量函數(shù)E（X，Y）取低值，否則取高值。

E（X，Y）可以由一個(gè)深度神經(jīng)網(wǎng)絡(luò)來計(jì)算，對(duì)于給定的X，該神經(jīng)網(wǎng)絡(luò)以對(duì)比的方式進(jìn)行訓(xùn)練，以給與X兼容的值Y（例如訓(xùn)練集中的（X，Y）對(duì)的例子）提供低能量，給與X不兼容的值Y提供高能量。對(duì)于給定的X，推斷包括找到一個(gè)使E（X，Y）最小化的cacm6407_a.gif，或者從E（X，Y）值較低的Y中采樣。這種基于能量的方法來表示Y依賴于X的方式，使得對(duì)一組不同的、多模態(tài)的看似合理的連續(xù)性進(jìn)行建模成為可能。

對(duì)比學(xué)習(xí)的關(guān)鍵難點(diǎn)在于選取好的“否定”樣本：合適的點(diǎn)Y，其能量將被推高。當(dāng)一組可能的否定例子不太大時(shí)，我們可以把它們?nèi)靠紤]在內(nèi)。這就是softmax所做的，因此在這種情況下，對(duì)比學(xué)習(xí)簡(jiǎn)化為有限離散符號(hào)集上的標(biāo)準(zhǔn)監(jiān)督或自監(jiān)督學(xué)習(xí)。但在實(shí)值高維空間中，向量cacm6407_b.gif有太多不同于Y的方式，為了改進(jìn)模型，我們需要關(guān)注那些本應(yīng)具有高能量但目前具有低能量的Y。早期挑選負(fù)樣本的方法是基于蒙特卡羅方法，如受限玻耳茲曼機(jī)的對(duì)比散度48和噪聲對(duì)比估計(jì)。41

生成性對(duì)抗網(wǎng)絡(luò)（GANs）36通過將神經(jīng)網(wǎng)絡(luò)應(yīng)用于來自已知分布（例如，高斯分布）的潛在樣本來訓(xùn)練生成性神經(jīng)網(wǎng)絡(luò)以產(chǎn)生對(duì)比樣本。發(fā)電機(jī)自身進(jìn)行訓(xùn)練，以產(chǎn)生輸出cacm6407_b.gif，模型向其提供低能量E（cacm6407_b.gif）。生成器可以使用反向傳播來獲得E（cacm6407_b.gif）相對(duì)于cacm6407_b.gif的梯度。發(fā)生器和模型同時(shí)訓(xùn)練，模型試圖給訓(xùn)練樣本低能量，給生成的對(duì)比樣本高能量。

GAN的優(yōu)化有些棘手，但對(duì)抗性訓(xùn)練思想已被證明是極其豐富的，在圖像合成方面產(chǎn)生了令人印象深刻的結(jié)果，并在內(nèi)容創(chuàng)建和領(lǐng)域適應(yīng)34以及領(lǐng)域或風(fēng)格轉(zhuǎn)換方面開辟了許多新的應(yīng)用領(lǐng)域。87

運(yùn)用對(duì)比學(xué)習(xí)使表達(dá)一致。對(duì)比學(xué)習(xí)提供了一種無需重建或生成像素就能發(fā)現(xiàn)良好特征向量的方法。其思想是學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò)，當(dāng)給定同一圖像的兩個(gè)不同作物10或同一對(duì)象的兩個(gè)不同視圖17但不同對(duì)象的不同圖像或視圖的作物的不同輸出向量時(shí)，該網(wǎng)絡(luò)產(chǎn)生非常相似的輸出向量。兩個(gè)輸出向量之間的平方距離可以被視為一個(gè)能量，對(duì)于相容對(duì)，它被向下推；對(duì)于不相容對(duì)，它被向上推

最近的一系列論文使用卷積網(wǎng)絡(luò)來提取一致的表示，在視覺特征學(xué)習(xí)中產(chǎn)生了有希望的結(jié)果。正對(duì)由同一圖像的不同版本組成，這些版本通過裁剪、縮放、旋轉(zhuǎn)、顏色偏移、模糊等方式進(jìn)行扭曲。負(fù)片對(duì)是不同圖像的類似失真版本，可以通過稱為硬負(fù)片挖掘的過程從數(shù)據(jù)集中巧妙地選取，也可以是小批量中其他圖像的所有失真版本。該網(wǎng)絡(luò)的一個(gè)高級(jí)層的隱藏活動(dòng)向量隨后被用作以有監(jiān)督的方式訓(xùn)練的線性分類器的輸入。這種連體網(wǎng)方法在標(biāo)準(zhǔn)圖像識(shí)別基準(zhǔn)上取得了很好的效果。6,21,22,43,67最近，兩種連體網(wǎng)方法成功地避免了對(duì)對(duì)比樣本的需要。第一個(gè)被稱為SwAV，它量化一個(gè)網(wǎng)絡(luò)的輸出來訓(xùn)練另一個(gè)網(wǎng)絡(luò)，20第二個(gè)被稱為BYOL，它平滑了兩個(gè)網(wǎng)絡(luò)之一的權(quán)重軌跡，這顯然足以防止崩潰。40

可變自動(dòng)編碼器。最近流行的一種自監(jiān)督學(xué)習(xí)方法是變分自動(dòng)編碼器（VAE）。58它由將圖像映射到潛在代碼空間的編碼器網(wǎng)絡(luò)和從潛在代碼生成圖像的解碼器網(wǎng)絡(luò)組成。VAE通過在編碼器的輸出中加入高斯噪聲來限制潛在碼的信息容量，然后再將其傳遞給解碼器。這類似于將小的有噪聲的球體打包成半徑最小的較大球體。信息容量受限于包含的球體中包含多少噪聲球體。噪聲球相互排斥，因?yàn)榱己玫闹亟ㄕ`差需要對(duì)應(yīng)于不同樣本的代碼之間的小重疊。在數(shù)學(xué)上，該系統(tǒng)使通過在噪聲分布上邊緣化潛在碼而獲得的自由能最小化。然而，最小化自由能相對(duì)于參數(shù)是困難的，必須依賴于統(tǒng)計(jì)物理中最小化自由能上界的變分近似方法。

深度學(xué)習(xí)的未來

深度學(xué)習(xí)系統(tǒng)的性能通常可以通過簡(jiǎn)單的擴(kuò)展而得到極大的提高。有了更多的數(shù)據(jù)和更多的計(jì)算，它們通常工作得更好。具有1750億個(gè)參數(shù)的語言模型GPT-318（與人腦中的突觸數(shù)量相比仍然很小）生成的文本明顯好于只有15億個(gè)參數(shù)的GPT-2。聊天機(jī)器人Meena2和BlenderBot73也在不斷改進(jìn)，因?yàn)樗鼈冊(cè)絹碓酱?。目前，在擴(kuò)展方面正在付出巨大的努力，它將極大地改進(jìn)現(xiàn)有系統(tǒng)，但當(dāng)前深度學(xué)習(xí)的一些根本缺陷無法通過單獨(dú)的擴(kuò)展來克服，如本文所討論的。

將人類的學(xué)習(xí)能力與當(dāng)前的人工智能進(jìn)行比較，可以提出幾個(gè)改進(jìn)方向：

監(jiān)督學(xué)習(xí)需要太多的標(biāo)記數(shù)據(jù)，而無模型強(qiáng)化學(xué)習(xí)需要太多的實(shí)驗(yàn)。人類似乎能夠用少得多的經(jīng)驗(yàn)很好地概括。

目前的系統(tǒng)對(duì)分布變化的魯棒性不如人類，人類能夠快速適應(yīng)這種變化的例子很少。

當(dāng)前的深度學(xué)習(xí)最成功的是感知任務(wù)，通常稱為系統(tǒng)1任務(wù)。對(duì)于需要經(jīng)過深思熟慮的步驟序列的System2任務(wù)，使用深度學(xué)習(xí)是一個(gè)令人興奮的領(lǐng)域，它仍處于起步階段。

需要改進(jìn)的地方。從早期開始，機(jī)器學(xué)習(xí)理論界就把重點(diǎn)放在iid假設(shè)上，這說明測(cè)試用例的分布與訓(xùn)練實(shí)例的分布一致。不幸的是，在現(xiàn)實(shí)世界中，這不是一個(gè)現(xiàn)實(shí)的假設(shè)：僅僅考慮由于各種代理改變世界的行為而產(chǎn)生的非平穩(wěn)性，或者學(xué)習(xí)代理的逐漸擴(kuò)大的心理層面，它總是有更多的學(xué)習(xí)和發(fā)現(xiàn)。實(shí)際結(jié)果是，當(dāng)今最好的AI系統(tǒng)從實(shí)驗(yàn)室到現(xiàn)場(chǎng)時(shí)，性能往往會(huì)受到?jīng)_擊。

當(dāng)面臨分布變化（稱為非分布泛化）時(shí)，我們希望實(shí)現(xiàn)更大的魯棒性，這是一個(gè)特殊情況，即當(dāng)面臨轉(zhuǎn)移學(xué)習(xí)和終身學(xué)習(xí)等新任務(wù)時(shí)，降低樣本復(fù)雜性（需要推廣的示例數(shù)）的更一般目標(biāo)81或簡(jiǎn)單在分配上或世界各國之間的關(guān)系和回報(bào)的變化。當(dāng)前的監(jiān)督學(xué)習(xí)系統(tǒng)比人類需要更多的例子（當(dāng)必須學(xué)習(xí)新任務(wù)時(shí)），而無模型強(qiáng)化學(xué)習(xí)的情況更糟23，因?yàn)槊總€(gè)獎(jiǎng)勵(lì)試驗(yàn)提供的關(guān)于任務(wù)的信息比每個(gè)標(biāo)記的示例少。人們已經(jīng)注意到D61，76人類可以以不同和更強(qiáng)大的方式概括iid概括：我們可以正確地解釋現(xiàn)有概念的新組合，即使在我們的訓(xùn)練分布下，這些組合極不可能，只要他們尊重高級(jí)的句法和語義模式，我們就已經(jīng)學(xué)會(huì)了。最近的研究有助于我們闡明在這種系統(tǒng)泛化能力方面，不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是如何發(fā)展的。8，9如何設(shè)計(jì)具有這些能力的未來機(jī)器學(xué)習(xí)系統(tǒng)，以更好地推廣或更快地適應(yīng)分布之外？

從均勻的層到代表實(shí)體的神經(jīng)元組。神經(jīng)科學(xué)的證據(jù)表明，附近神經(jīng)元群（形成所謂的超柱）緊密相連，可能代表一種更高層次的向量值單元，它不僅可以發(fā)送標(biāo)量，而且還可以發(fā)送一組協(xié)調(diào)值。這個(gè)想法是膠囊結(jié)構(gòu)的核心，47,59，它也是使用軟注意機(jī)制的固有思想，其中集合中的每個(gè)元素都與向量相關(guān)聯(lián)，從中可以讀取鍵向量和值向量（有時(shí)也可以是查詢向量）?？紤]這些矢量級(jí)單位的一種方法是表示對(duì)象的檢測(cè)及其屬性（如姿勢(shì)信息，在膠囊中）。計(jì)算機(jī)視覺的最近論文正在探索卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)展，在這種擴(kuò)展中，層次的頂層代表在輸入圖像中檢測(cè)到的一組候選對(duì)象，并且對(duì)這些候選對(duì)象的操作是用類似變壓器的結(jié)構(gòu)來執(zhí)行的，86為對(duì)象及其部件分配內(nèi)在參考幀，并通過零件間的幾何關(guān)系識(shí)別對(duì)象的神經(jīng)網(wǎng)絡(luò)應(yīng)不易受到定向?qū)构簦?9這依賴于人們使用的信息與神經(jīng)網(wǎng)絡(luò)識(shí)別物體的信息之間的巨大差異。

多時(shí)間適應(yīng)比例。大多數(shù)神經(jīng)網(wǎng)絡(luò)只有兩個(gè)時(shí)間尺度：權(quán)重在許多例子中適應(yīng)緩慢，并且隨著每個(gè)新輸入的變化，活動(dòng)適應(yīng)迅速。添加快速適應(yīng)和快速衰減的“快速權(quán)重”49的疊加，引入了有趣的新計(jì)算能力。特別是，它創(chuàng)建了一個(gè)高容量、短期內(nèi)存，4允許神經(jīng)網(wǎng)絡(luò)執(zhí)行真正的遞歸，在遞歸調(diào)用中可以重用同一個(gè)神經(jīng)元，因?yàn)樗鼈冊(cè)诟呒?jí)別調(diào)用中的活動(dòng)向量可以稍后使用快速權(quán)重中的信息重建。學(xué)習(xí)學(xué)習(xí)或元學(xué)習(xí)也會(huì)產(chǎn)生多個(gè)時(shí)間適應(yīng)量表

更高層次的認(rèn)知。當(dāng)我們思考一個(gè)新的挑戰(zhàn)時(shí)，比如在一個(gè)交通規(guī)則不尋常的城市里開車，甚至想象在月球上駕駛一輛車，我們可以利用我們已經(jīng)掌握的知識(shí)和通用技能，以新的方式動(dòng)態(tài)地將它們重新組合起來。這種形式的系統(tǒng)化概括允許人類在訓(xùn)練分布下不太可能的上下文中相當(dāng)好地概括。然后，我們可以通過練習(xí)、微調(diào)和編譯這些新技能來進(jìn)一步提高，使它們不再需要有意識(shí)的關(guān)注。我們?cè)鯓硬拍苜x予神經(jīng)網(wǎng)絡(luò)快速適應(yīng)新環(huán)境的能力，主要是重用已知的知識(shí)片段，從而避免對(duì)已知技能的干擾？這方面的初始步驟包括變革者32和反復(fù)出現(xiàn)的獨(dú)立機(jī)制。38

似乎我們的內(nèi)隱（系統(tǒng)1）處理能力允許我們?cè)谟?jì)劃或推理時(shí)猜測(cè)潛在的好的或危險(xiǎn)的未來。這就提出了一個(gè)問題，即系統(tǒng)1網(wǎng)絡(luò)如何在更高的（系統(tǒng)2）層次上指導(dǎo)搜索和規(guī)劃，也許是在價(jià)值函數(shù)的精神指導(dǎo)下，蒙特卡羅樹搜索AlphaGo.77

機(jī)器學(xué)習(xí)研究依賴于歸納偏見或先驗(yàn)，以鼓勵(lì)學(xué)習(xí)方向與一些關(guān)于世界的假設(shè)相一致。系統(tǒng)2處理和認(rèn)知神經(jīng)科學(xué)理論的本質(zhì)5,30表明了一些這樣的歸納偏見和結(jié)構(gòu)，11,45可以用來設(shè)計(jì)新的深度學(xué)習(xí)系統(tǒng)。我們?nèi)绾卧O(shè)計(jì)包含這種歸納偏差的深度學(xué)習(xí)架構(gòu)和培訓(xùn)框架？

幼兒進(jìn)行因果發(fā)現(xiàn)的能力37表明，這可能是人腦的一個(gè)基本特性，最近的研究表明，在干預(yù)性變化下優(yōu)化分布外的泛化可以用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以發(fā)現(xiàn)因果依賴或因果變量。3,13,57，66我們應(yīng)該如何構(gòu)造和訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以便它們能夠捕捉世界的這些潛在因果特性？

這些開放性問題提出的方向與20世紀(jì)的符號(hào)人工智能研究計(jì)劃有何關(guān)聯(lián)？顯然，這個(gè)符號(hào)人工智能程序旨在實(shí)現(xiàn)系統(tǒng)2的能力，例如推理，能夠?qū)⒅R(shí)分解成可以在一系列計(jì)算步驟中輕松重組的片段，并且能夠操縱抽象變量、類型和實(shí)例。我們希望設(shè)計(jì)一種神經(jīng)網(wǎng)絡(luò)，它能在處理實(shí)值向量的同時(shí)完成所有這些工作，從而保持深度學(xué)習(xí)的優(yōu)勢(shì)，包括使用可微計(jì)算和基于梯度的自適應(yīng)進(jìn)行有效的大規(guī)模學(xué)習(xí)，在低水平的感知和行動(dòng)中建立高水平的概念，處理不確定數(shù)據(jù)，使用分布式表示。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三巨頭近期共同撰文：Deep Learning for AI

三巨頭近期共同撰文：Deep Learning for AI

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

三巨頭近期共同撰文：Deep Learning for AI

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av