我們可以將監(jiān)督學(xué)習(xí)訓(xùn)練的前饋網(wǎng)絡(luò)視為表示學(xué)習(xí)的一種形式。具體地,網(wǎng)絡(luò)的最后一層通常是線(xiàn)性分類(lèi)器,如 softmax 回歸分類(lèi)器。網(wǎng)絡(luò)的其余部分學(xué)習(xí)出該分類(lèi)器的表示。
貪心逐層無(wú)監(jiān)督預(yù)訓(xùn)練

學(xué)習(xí)算法可以使用無(wú)監(jiān)督階段學(xué)習(xí)的信息,在監(jiān)督學(xué)習(xí)的階段表現(xiàn)得更好。其基本想法是對(duì)于無(wú)監(jiān)督任務(wù)有用的一些特征對(duì)于監(jiān)督學(xué)習(xí)任務(wù)也可能是有用的。例如,如果我們訓(xùn)練汽車(chē)和摩托車(chē)圖像的生成模型,它 需要知道輪子的概念,以及一張圖中應(yīng)該有多少個(gè)輪子。如果我們幸運(yùn)的話(huà),無(wú)監(jiān) 督階段學(xué)習(xí)的輪子表示會(huì)適合于監(jiān)督學(xué)習(xí)。然而我們還未能從數(shù)學(xué)、理論層面上證 明,因此并不總是能夠預(yù)測(cè)哪種任務(wù)能以這種形式從無(wú)監(jiān)督學(xué)習(xí)中受益。
對(duì)訓(xùn)練誤差和測(cè)試誤差的改進(jìn)都可以解釋為,無(wú)監(jiān)督預(yù)訓(xùn)練將參數(shù)引入到了其他方法可 能探索不到的區(qū)域。神經(jīng)網(wǎng)絡(luò)訓(xùn)練是非確定性的,并且每次運(yùn)行都會(huì)收斂到不同的 函數(shù)。訓(xùn)練可以停止在梯度很小的點(diǎn);也可以提前終止結(jié)束訓(xùn)練,以防過(guò)擬合;還可 以停止在梯度很大,但由于諸如隨機(jī)性或 Hessian 矩陣病態(tài)條件等問(wèn)題難以找到合 適下降方向的點(diǎn)。經(jīng)過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停止在一片相同的函數(shù)空 間區(qū)域,但未經(jīng)過(guò)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停在另一個(gè)區(qū)域。
預(yù)訓(xùn)練的網(wǎng)絡(luò)越深,測(cè)試 誤差的均值和方差下降得越多。值得注意的是,這些實(shí)驗(yàn)是在訓(xùn)練非常深層網(wǎng)絡(luò)的 現(xiàn)代方法發(fā)明和流行(整流線(xiàn)性單元,Dropout 和批標(biāo)準(zhǔn)化)之前進(jìn)行的,因此對(duì) 于無(wú)監(jiān)督預(yù)訓(xùn)練與當(dāng)前方法的結(jié)合,我們所知甚少。
如今,大部分算法已經(jīng)不使用無(wú)監(jiān)督預(yù)訓(xùn)練了,除了在自然語(yǔ)言處理領(lǐng)域中單詞 作為 one-hot 向量的自然表示不能傳達(dá)相似性信息,并且有非常多的未標(biāo)注數(shù)據(jù)集 可用。在這種情況下,預(yù)訓(xùn)練的優(yōu)點(diǎn)是可以對(duì)一個(gè)巨大的未標(biāo)注集合(例如用包含數(shù) 十億單詞的語(yǔ)料庫(kù))進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)良好的表示(通常是單詞,但也可以是句子), 然后使用該表示或精調(diào)它,使其適合于訓(xùn)練集樣本大幅減少的監(jiān)督任務(wù)。
遷移學(xué)習(xí)和領(lǐng)域自適應(yīng)

遷移學(xué)習(xí)的兩種極端形式是一次學(xué)習(xí)(one-shot learning)和零次學(xué)習(xí)(zeroshot learning),有時(shí)也被稱(chēng)為零數(shù)據(jù)學(xué)習(xí)(zero-data learning)。只有一個(gè)標(biāo)注樣本 的遷移任務(wù)被稱(chēng)為一次學(xué)習(xí);沒(méi)有標(biāo)注樣本的遷移任務(wù)被稱(chēng)為零次學(xué)習(xí)。
例如,已知貓有四條腿和尖尖的耳朵,那么學(xué)習(xí)器可以在 沒(méi)有見(jiàn)過(guò)貓的情況下猜測(cè)該圖像中是貓。
分布式表示
比如n 維二元向量是一個(gè)分布式表示的示例,有 2n 種配置,每一種都對(duì)應(yīng)輸入空間中的一個(gè)不同區(qū)域

將分布式表示和符號(hào)表示區(qū)分開(kāi)來(lái)的一個(gè)重要概念是,由不同概念之間的共享 屬性而產(chǎn)生的泛化。作為純符號(hào),‘‘貓’’ 和 ‘‘狗’’ 之間的距離和任意其他兩種符號(hào)的 距離一樣。然而,如果將它們與有意義的分布式表示相關(guān)聯(lián),那么關(guān)于貓的很多特 點(diǎn)可以推廣到狗,反之亦然。例如,我們的分布式表示可能會(huì)包含諸如 ‘‘具有皮毛’’ 或 ‘‘腿的數(shù)目’’ 這類(lèi)在 ‘‘貓’’ 和 ‘‘狗’’ 的嵌入上具有相同值的項(xiàng)。
我們會(huì)發(fā)現(xiàn)關(guān)于輸入大小呈指數(shù)級(jí)增長(zhǎng),關(guān)于隱藏單元的數(shù)量呈多項(xiàng)式級(jí)增 長(zhǎng)。
