《深度學(xué)習(xí)》:表示學(xué)習(xí)

我們可以將監(jiān)督學(xué)習(xí)訓(xùn)練的前饋網(wǎng)絡(luò)視為表示學(xué)習(xí)的一種形式。具體地,網(wǎng)絡(luò)的最后一層通常是線(xiàn)性分類(lèi)器,如 softmax 回歸分類(lèi)器。網(wǎng)絡(luò)的其余部分學(xué)習(xí)出該分類(lèi)器的表示。

貪心逐層無(wú)監(jiān)督預(yù)訓(xùn)練

學(xué)習(xí)算法可以使用無(wú)監(jiān)督階段學(xué)習(xí)的信息,在監(jiān)督學(xué)習(xí)的階段表現(xiàn)得更好。其基本想法是對(duì)于無(wú)監(jiān)督任務(wù)有用的一些特征對(duì)于監(jiān)督學(xué)習(xí)任務(wù)也可能是有用的。例如,如果我們訓(xùn)練汽車(chē)和摩托車(chē)圖像的生成模型,它 需要知道輪子的概念,以及一張圖中應(yīng)該有多少個(gè)輪子。如果我們幸運(yùn)的話(huà),無(wú)監(jiān) 督階段學(xué)習(xí)的輪子表示會(huì)適合于監(jiān)督學(xué)習(xí)。然而我們還未能從數(shù)學(xué)、理論層面上證 明,因此并不總是能夠預(yù)測(cè)哪種任務(wù)能以這種形式從無(wú)監(jiān)督學(xué)習(xí)中受益。

對(duì)訓(xùn)練誤差和測(cè)試誤差的改進(jìn)都可以解釋為,無(wú)監(jiān)督預(yù)訓(xùn)練將參數(shù)引入到了其他方法可 能探索不到的區(qū)域。神經(jīng)網(wǎng)絡(luò)訓(xùn)練是非確定性的,并且每次運(yùn)行都會(huì)收斂到不同的 函數(shù)。訓(xùn)練可以停止在梯度很小的點(diǎn);也可以提前終止結(jié)束訓(xùn)練,以防過(guò)擬合;還可 以停止在梯度很大,但由于諸如隨機(jī)性或 Hessian 矩陣病態(tài)條件等問(wèn)題難以找到合 適下降方向的點(diǎn)。經(jīng)過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停止在一片相同的函數(shù)空 間區(qū)域,但未經(jīng)過(guò)預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)會(huì)一致地停在另一個(gè)區(qū)域。

預(yù)訓(xùn)練的網(wǎng)絡(luò)越深,測(cè)試 誤差的均值和方差下降得越多。值得注意的是,這些實(shí)驗(yàn)是在訓(xùn)練非常深層網(wǎng)絡(luò)的 現(xiàn)代方法發(fā)明和流行(整流線(xiàn)性單元,Dropout 和批標(biāo)準(zhǔn)化)之前進(jìn)行的,因此對(duì) 于無(wú)監(jiān)督預(yù)訓(xùn)練與當(dāng)前方法的結(jié)合,我們所知甚少。

如今,大部分算法已經(jīng)不使用無(wú)監(jiān)督預(yù)訓(xùn)練了,除了在自然語(yǔ)言處理領(lǐng)域中單詞 作為 one-hot 向量的自然表示不能傳達(dá)相似性信息,并且有非常多的未標(biāo)注數(shù)據(jù)集 可用。在這種情況下,預(yù)訓(xùn)練的優(yōu)點(diǎn)是可以對(duì)一個(gè)巨大的未標(biāo)注集合(例如用包含數(shù) 十億單詞的語(yǔ)料庫(kù))進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)良好的表示(通常是單詞,但也可以是句子), 然后使用該表示或精調(diào)它,使其適合于訓(xùn)練集樣本大幅減少的監(jiān)督任務(wù)。

遷移學(xué)習(xí)和領(lǐng)域自適應(yīng)

遷移學(xué)習(xí)的兩種極端形式是一次學(xué)習(xí)(one-shot learning)和零次學(xué)習(xí)(zeroshot learning),有時(shí)也被稱(chēng)為零數(shù)據(jù)學(xué)習(xí)(zero-data learning)。只有一個(gè)標(biāo)注樣本 的遷移任務(wù)被稱(chēng)為一次學(xué)習(xí);沒(méi)有標(biāo)注樣本的遷移任務(wù)被稱(chēng)為零次學(xué)習(xí)。

例如,已知貓有四條腿和尖尖的耳朵,那么學(xué)習(xí)器可以在 沒(méi)有見(jiàn)過(guò)貓的情況下猜測(cè)該圖像中是貓。

分布式表示
比如n 維二元向量是一個(gè)分布式表示的示例,有 2n 種配置,每一種都對(duì)應(yīng)輸入空間中的一個(gè)不同區(qū)域

將分布式表示和符號(hào)表示區(qū)分開(kāi)來(lái)的一個(gè)重要概念是,由不同概念之間的共享 屬性而產(chǎn)生的泛化。作為純符號(hào),‘‘貓’’ 和 ‘‘狗’’ 之間的距離和任意其他兩種符號(hào)的 距離一樣。然而,如果將它們與有意義的分布式表示相關(guān)聯(lián),那么關(guān)于貓的很多特 點(diǎn)可以推廣到狗,反之亦然。例如,我們的分布式表示可能會(huì)包含諸如 ‘‘具有皮毛’’ 或 ‘‘腿的數(shù)目’’ 這類(lèi)在 ‘‘貓’’ 和 ‘‘狗’’ 的嵌入上具有相同值的項(xiàng)。

我們會(huì)發(fā)現(xiàn)關(guān)于輸入大小呈指數(shù)級(jí)增長(zhǎng),關(guān)于隱藏單元的數(shù)量呈多項(xiàng)式級(jí)增 長(zhǎng)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 文章主要分為:一、深度學(xué)習(xí)概念;二、國(guó)內(nèi)外研究現(xiàn)狀;三、深度學(xué)習(xí)模型結(jié)構(gòu);四、深度學(xué)習(xí)訓(xùn)練算法;五、深度學(xué)習(xí)的優(yōu)點(diǎn)...
    艾剪疏閱讀 22,214評(píng)論 0 58
  • 第二個(gè)Topic講深度學(xué)習(xí),承接前面的《淺談機(jī)器學(xué)習(xí)基礎(chǔ)》。 深度學(xué)習(xí)簡(jiǎn)介 前面也提到過(guò),機(jī)器學(xué)習(xí)的本質(zhì)就是尋找最...
    我偏笑_NSNirvana閱讀 16,235評(píng)論 7 49
  • 親愛(ài)的~ 現(xiàn)在是2016年7月4號(hào)21:20坐在回老家的K27火車(chē)上,認(rèn)識(shí)了坐在我對(duì)面的幾個(gè)很可愛(ài)的人~五零八零九...
    小鹿家的同學(xué)閱讀 299評(píng)論 1 2
  • 相信不少文藝女青年都是李欣頻的粉絲吧,特別是從事文案工作的,可以說(shuō)她是我的一個(gè)偶像人物,看到她的書(shū)再版了,毫不猶豫...
    少羨閱讀 680評(píng)論 4 5
  • 一朝生死 兩段迷茫 道春不常在 奈人心爭(zhēng)虞
    釋沵閱讀 200評(píng)論 0 0

友情鏈接更多精彩內(nèi)容