機(jī)器學(xué)習(xí) ChatGPT , DeepSeek, CLIP, DALL-E (持續(xù)整理)

機(jī)器學(xué)習(xí) ChatGPT , DeepSeek, CLIP, DALL-E (持續(xù)整理)

1.架構(gòu)區(qū)別

技術(shù)層級分類表(含時間軸)

模型 架構(gòu)層 技術(shù)組件/中間層 基礎(chǔ)層
ChatGPT Transformer (2017) 自注意力機(jī)制(2017)、位置編碼(2017) 多層感知器(1958)、Softmax(1969)、反向傳播(1986)
DeepSeek 深度神經(jīng)網(wǎng)絡(luò)(DNN) CNN(1980/2012)+Transformer(2017) 卷積核(1980)、全連接層(1958)、梯度下降(1951)
CLIP 雙模態(tài)架構(gòu) (2021) Transformer(2017)、ResNet(2015) 多頭注意力(2017)、殘差連接(2015)、MLP(1958)
DALL-E 生成式Transformer (2021) 擴(kuò)散模型(2015)、VQ-VAE(2017) 卷積網(wǎng)絡(luò)(1980)、自回歸采樣(1990)、KL散度(1951)

技術(shù)演進(jìn)時間線(精選)

gantt
    title 人工智能關(guān)鍵技術(shù)演進(jìn)時間軸
    dateFormat  YYYY
    axisFormat %Y
    
    section 基礎(chǔ)技術(shù)
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷積核       :1980, 1y
    
    section 突破性架構(gòu)
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 應(yīng)用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

關(guān)鍵時間節(jié)點說明

  1. 梯度下降 (1951): 由H. Robbins和S. Monro提出最優(yōu)化基礎(chǔ)算法
  2. MLP (1958): Frank Rosenblatt提出感知機(jī)原型
  3. CNN卷積核 (1980): Kunihiko Fukushima提出神經(jīng)認(rèn)知機(jī)原型
  4. ResNet (2015): 微軟研究院提出深度殘差學(xué)習(xí)框架
  5. Transformer (2017): Google《Attention Is All You Need》論文
  6. VQ-VAE (2017): DeepMind提出離散潛在空間表示方法
  7. 擴(kuò)散模型 (2015): 理論提出,2020年后結(jié)合深度學(xué)習(xí)實現(xiàn)突破
  8. 自回歸采樣 (1990): 基于RNN的序列生成技術(shù)起源

2.字典

GPT (2018)

(全名:Chat Generative Pre-trained Transformer)生成式預(yù)訓(xùn)練變換器,是一種大型語言模型(LLM),也是生成式人工智能的重要框架,首個GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神經(jīng)網(wǎng)絡(luò)

Transformer模型 (2017)

是一種采用注意力機(jī)制的深度學(xué)習(xí)模型。Transformer模型于2017年由谷歌大腦的一個團(tuán)隊推出,現(xiàn)已逐步取代長短期記憶(LSTM)等RNN模型成為了NLP問題的首選模型

RNN模型 Recurrent neural network (1986)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network:RNN)是神經(jīng)網(wǎng)絡(luò)的一種

**1982年,約翰·霍普菲爾德發(fā)現(xiàn)了Hopfield神經(jīng)網(wǎng)絡(luò)——一種特殊的RNN

Hopfield神經(jīng)網(wǎng)絡(luò) (1982)

Hopfield網(wǎng)絡(luò)是一種結(jié)合存儲系統(tǒng)和二元系統(tǒng)的神經(jīng)網(wǎng)絡(luò)

我們可以將神經(jīng)元比作一個“開關(guān)”,而整個 Hopfield 網(wǎng)絡(luò)就像一個“燈光控制系統(tǒng)”

1. 網(wǎng)絡(luò)結(jié)構(gòu)

在 Hopfield 網(wǎng)絡(luò)中,有很多小“開關(guān)”,每個開關(guān)代表一個神經(jīng)元。我們用 \( s_i \) 來表示這些開關(guān)的狀態(tài),\( s_i \) 可以是 \( +1 \)(開)或 \( -1 \)(關(guān))。

解釋:想象每個神經(jīng)元就像一個房間里的燈光開關(guān)。每個開關(guān)可以是“開”(亮)或“關(guān)”(滅)。當(dāng)開關(guān)打開時,房間里有光;當(dāng)開關(guān)關(guān)閉時,房間里就黑暗

2. 能量函數(shù)

能量函數(shù) \( E \) 就像是一個“評分系統(tǒng)”,用來判斷當(dāng)前網(wǎng)絡(luò)狀態(tài)的好壞。公式中有兩個求和符號,表示我們要考慮每一對神經(jīng)元之間的相互作用。

E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j

  • 如果兩個神經(jīng)元的狀態(tài)相同(都開或都關(guān)),它們的相互作用對能量是有利的,能量會降低。
  • 如果兩個神經(jīng)元的狀態(tài)不同(一個開,一個關(guān)),它們的相互作用會增加能量。

所以,網(wǎng)絡(luò)的目標(biāo)就是讓這個能量 ( E ) 盡可能低,找到一個“最舒服”的狀態(tài)。

解釋:整個系統(tǒng)的目標(biāo)是讓房間里的光線盡可能**均勻**和**舒適**。能量函數(shù)就像是一個“舒適度評分”,它會評估當(dāng)前所有開關(guān)的狀態(tài)。系統(tǒng)會嘗試調(diào)整開關(guān),降低這個評分,使房間里的光線更加和諧。

3. 權(quán)重的設(shè)置

在訓(xùn)練階段,我們需要告訴網(wǎng)絡(luò)如何存儲信息。這個過程通過計算權(quán)重 ( w_{ij} ) 來實現(xiàn),權(quán)重可以看作是神經(jīng)元之間的“連接強(qiáng)度”。

w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}

  • 這里的公式表示,我們要根據(jù)每個存儲的模式來計算這些權(quán)重。簡單來說,權(quán)重越大,兩個神經(jīng)元之間的連接就越強(qiáng),意味著它們的狀態(tài)會更容易相互影響。

解釋:不同的開關(guān)之間可能有電線連接(權(quán)重),這些連接的強(qiáng)度決定了一個開關(guān)對另一個開關(guān)的影響力。比如,某些開關(guān)的連接很強(qiáng),打開一個開關(guān)可能會導(dǎo)致另一個開關(guān)也打開;而有些連接較弱,影響就小

4. 狀態(tài)更新

當(dāng)我們輸入一個模糊的模式時,網(wǎng)絡(luò)會根據(jù)當(dāng)前的狀態(tài)和權(quán)重來更新每個神經(jīng)元的狀態(tài)。

  • 首先,網(wǎng)絡(luò)會計算每個神經(jīng)元的“凈輸入” ( h_i ),這就像是每個開關(guān)接收到的信號。

h_i = \sum_{j} w_{ij} s_j

  • 然后,根據(jù)這個信號來決定開關(guān)的狀態(tài):
    • 如果信號很強(qiáng)(( h_i > 0 )),開關(guān)就會打開(變?yōu)?( +1 ))。
    • 如果信號較弱(( h_i \leq 0 )),開關(guān)就會關(guān)閉(變?yōu)?( -1 ))。

解釋:當(dāng)你試圖打開某個房間的燈,但你不記得開關(guān)的位置時,你可能會嘗試不同的開關(guān)。這就像輸入一個模糊的模式,系統(tǒng)會根據(jù)當(dāng)前的狀態(tài)和連接來判斷哪個開關(guān)應(yīng)該打開

5. 收斂與輸出

網(wǎng)絡(luò)會不斷地進(jìn)行狀態(tài)更新,直到所有的開關(guān)都不再變化,達(dá)到一個穩(wěn)定的狀態(tài)。在這個狀態(tài)下,能量函數(shù) ( E ) 達(dá)到最低點。

  • 最后,網(wǎng)絡(luò)輸出的狀態(tài) ( s ) 就是與輸入的模糊信息最接近的完整模式。

解釋:系統(tǒng)會不斷調(diào)整開關(guān)的狀態(tài),直到所有開關(guān)都穩(wěn)定下來,達(dá)到一個理想的光線狀態(tài)。這就像是你不斷試驗,最終找到最合適的開關(guān)組合,使得房間里的光線最為舒適。

總結(jié)

簡單來說,Hopfield 神經(jīng)網(wǎng)絡(luò)就像一個智能的記憶機(jī)器。它通過計算能量來判斷當(dāng)前狀態(tài)的好壞,設(shè)置連接強(qiáng)度來存儲信息,并根據(jù)輸入的模糊信號不斷調(diào)整狀態(tài),最終幫助我們找回完整的信息。

解釋: 每個開關(guān)(神經(jīng)元)通過電線(權(quán)重)相互影響,系統(tǒng)的目標(biāo)是找到一個最舒適的光線狀態(tài)(最低能量),從而幫助我們在模糊情況下找到正確的開關(guān)組合(輸出模式)

問題

局部最優(yōu)解 / 能量函數(shù)的形狀 / 初始狀態(tài)的影響

這樣一套系統(tǒng)可能會導(dǎo)致生成的解決方案導(dǎo)致燈光在局部是均勻的,等于是只找到某個區(qū)域的最優(yōu)解,找到后這套系統(tǒng)就無法繼續(xù)去尋找全局的最優(yōu)解了,有很強(qiáng)的區(qū)域局限性,而且很多時候,如果你一開始就選擇了某些開關(guān)為“亮”,系統(tǒng)可能會在這些狀態(tài)附近尋找解決方案,而忽視其他可能的組合

隨機(jī)重啟/模擬退火/遺傳算法/增強(qiáng)學(xué)習(xí)

隨機(jī)重啟:想象你在一個大房子里,試圖找到最佳的燈光組合。每次你開始時,隨機(jī)選擇一些開關(guān)的狀態(tài)(亮或滅)。這就像是每次重啟時,隨機(jī)選擇不同的開關(guān)組合,就會有更多的可能性

模擬退火:假設(shè)你在調(diào)節(jié)房間里的燈光,剛開始時你非常嚴(yán)格,只允許開關(guān)變亮。但隨著時間推移,你變得更寬松,允許某些開關(guān)暫時變暗,即使這樣可能讓光線變得不均勻

遺傳算法:想象你有多個房間,每個房間的燈光組合都是一個“個體”。你可以選擇一些效果最好的房間組合(“父母”),然后將它們的開關(guān)狀態(tài)混合(交叉),再添加一些隨機(jī)的變化(變異),形成新的燈光組合(“后代”)

增強(qiáng)學(xué)習(xí): 想象你在控制燈光的過程中,逐漸學(xué)習(xí)哪些開關(guān)組合產(chǎn)生最佳的光線效果。每次調(diào)整后,你會記住哪些組合讓房間感覺更舒適(獎勵),哪些組合讓房間不適(懲罰)

LSTM Long Short-Term Memory (1997)

是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),論文首次發(fā)表于1997年。由于獨特的設(shè)計結(jié)構(gòu),LSTM適合于處理和預(yù)測時間序列中間隔和延遲非常長的重要事件

同樣我們把這個神經(jīng)網(wǎng)絡(luò)也類比成燈光控制系統(tǒng),想象一個智能家居系統(tǒng),能夠根據(jù)時間、天氣、用戶習(xí)慣等因素自動調(diào)整房間的燈光。這個系統(tǒng)需要記住過去的光線設(shè)置,以便在未來做出更好的決策

LSTM 網(wǎng)絡(luò)主要由以下幾個部分組成:

  • 輸入門:決定哪些新信息需要被存儲。
  • 遺忘門:決定哪些舊信息需要被丟棄。
  • 輸出門:決定當(dāng)前的輸出。
  • 細(xì)胞狀態(tài):代表長期記憶。

1. 輸入門(Input Gate)

公式
i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)

解釋

  • 這里的 (x_t) 可以看作當(dāng)前的環(huán)境信息(如時間、天氣等),而 (h_{t-1}) 是之前的狀態(tài)(如之前的燈光設(shè)置)。
  • 輸入門 (i_t) 決定了哪些新的環(huán)境信息需要被接納并影響燈光設(shè)置。

2. 遺忘門(Forget Gate)

公式
f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)

解釋

  • 遺忘門 (f_t) 決定了哪些舊的燈光設(shè)置需要被遺忘。比如,如果天氣變晴,系統(tǒng)可能會決定忘記之前的昏暗設(shè)置。

3. 細(xì)胞狀態(tài)(Cell State)

公式
C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}

解釋

  • 細(xì)胞狀態(tài) (C_t) 代表系統(tǒng)的長期記憶。它結(jié)合了之前的狀態(tài) (C_{t-1})(之前的燈光設(shè)置)和新的信息(當(dāng)前環(huán)境的影響)。
  • (\tilde{C_t}) 是候選值,代表新的燈光設(shè)置。這個值通過某種方式計算得出,反映了當(dāng)前環(huán)境的影響。

4. 輸出門(Output Gate)

公式
o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)

解釋

  • 輸出門 (o_t) 決定了當(dāng)前的燈光設(shè)置。它根據(jù)當(dāng)前的狀態(tài)和輸入信息,控制實際的燈光開關(guān)。

5. 最終輸出

公式
h_t = o_t \cdot \tanh(C_t)

解釋

  • 最終的輸出 (h_t) 代表當(dāng)前的燈光設(shè)置。通過輸出門的控制,結(jié)合細(xì)胞狀態(tài),系統(tǒng)決定了具體的燈光亮度和開關(guān)狀態(tài)。

總結(jié)

燈光控制系統(tǒng)通過輸入門、遺忘門、細(xì)胞狀態(tài)和輸出門的協(xié)調(diào)工作,動態(tài)調(diào)整燈光設(shè)置,正如LSTM在處理序列數(shù)據(jù)時,通過這些門控機(jī)制有效地管理信息和記憶。這種類比幫助我們更直觀地理解LSTM在時間序列預(yù)測和其他任務(wù)中的應(yīng)用。

問題

梯度消失和爆炸
  • 問題:在長序列中,梯度可能消失或爆炸,導(dǎo)致訓(xùn)練不穩(wěn)定。
  • 解釋:想象一個燈光控制系統(tǒng),如果環(huán)境變化(如光照變化)過于劇烈,控制信號可能會失去效用(消失)或過于強(qiáng)烈(爆炸),導(dǎo)致燈光效果不穩(wěn)定。
  • 解決方案
    • 梯度裁剪:在信號過強(qiáng)時限制控制信號的強(qiáng)度,保持燈光效果穩(wěn)定。
    • 使用更深的網(wǎng)絡(luò):通過增加燈光控制系統(tǒng)的傳感器層次,使其更準(zhǔn)確地響應(yīng)環(huán)境變化。
計算復(fù)雜度
  • 問題:LSTM的復(fù)雜結(jié)構(gòu)導(dǎo)致計算量大,訓(xùn)練時間較長。
  • 解釋:一個復(fù)雜的燈光控制系統(tǒng)需要多個傳感器和控制單元,可能導(dǎo)致響應(yīng)時間變慢。
  • 解決方案
    • 模型簡化:減少傳感器數(shù)量或控制單元,簡化燈光控制邏輯。
    • 并行計算:利用多個控制單元同時處理信號,提高響應(yīng)速度。
超參數(shù)調(diào)節(jié)
  • 問題:LSTM有許多超參數(shù),調(diào)節(jié)困難且耗時。
  • ****解釋:在燈光控制系統(tǒng)中,需調(diào)節(jié)多個參數(shù)(如亮度、色溫、開關(guān)時間等),這需要大量實驗來找到最佳設(shè)置。
  • 解決方案
    • 自動化調(diào)節(jié):使用智能算法自動尋找最佳燈光設(shè)置,減少人工調(diào)節(jié)的時間。
    • 交叉驗證:在不同環(huán)境下測試燈光設(shè)置,確保在各種情況下都能達(dá)到最佳效果。
長序列依賴問題
  • 問題:LSTM在捕捉遠(yuǎn)距離依賴關(guān)系方面可能表現(xiàn)不佳。
  • 解釋:如果燈光控制系統(tǒng)只依賴最近的環(huán)境信息,可能無法有效應(yīng)對長期變化(如季節(jié)變化)。
  • 解決方案
    • 層次化模型:通過分層控制系統(tǒng),分別處理短期和長期的環(huán)境變化。
    • 注意力機(jī)制:引入智能算法,讓燈光系統(tǒng)關(guān)注重要的環(huán)境變化,而不是僅僅依賴最近的信息。
過擬合
  • 問題:在小數(shù)據(jù)集上訓(xùn)練時,LSTM容易過擬合。
  • 解釋:燈光控制系統(tǒng)在特定環(huán)境下表現(xiàn)良好,但在新的環(huán)境中可能無法適應(yīng)。
  • 解決方案
    • 正則化:通過設(shè)置限制,確保燈光控制系統(tǒng)不會過于依賴于特定的環(huán)境輸入。
    • 數(shù)據(jù)增強(qiáng):模擬多種環(huán)境條件,增加訓(xùn)練數(shù)據(jù)的多樣性,使系統(tǒng)更具適應(yīng)性。
    • 提前停止:監(jiān)控?zé)艄饪刂葡到y(tǒng)在不同環(huán)境下的表現(xiàn),及時調(diào)整設(shè)置以防止過擬合。

GRU Gated Recurrent Unit (2014)

GRU(Gated Recurrent Unit)是一種對 LSTM 稍微改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò),由 Cho 等人(2014年)提出。它將遺忘門和輸入門合并成一個單一的“更新門”,同時將 cell state 和隱藏狀態(tài)合并,并進(jìn)行了其他一些改動。GRU模型相對于標(biāo)準(zhǔn)的 LSTM 模型來說更加簡單,并且越來越受到廣泛關(guān)注和應(yīng)用

1. 結(jié)構(gòu)復(fù)雜性

  • LSTM
    • 解釋:想象一個復(fù)雜的燈光控制系統(tǒng),包含多個傳感器和控制單元。每個控制單元都有多個開關(guān)和調(diào)節(jié)器,以管理不同的燈光參數(shù)(如亮度、色溫、開關(guān)狀態(tài)等)。
    • 特點:LSTM有三個門(輸入門、遺忘門和輸出門),使其能夠精確地控制信息的流動和保留。
  • GRU
    • 解釋:相比之下,GRU就像一個更簡化的燈光控制系統(tǒng),只有兩個主要控制單元(重置門和更新門)。這個系統(tǒng)仍然能夠有效地調(diào)節(jié)燈光,但結(jié)構(gòu)更簡單。
    • 特點:GRU將輸入門和遺忘門合并為更新門,簡化了信息處理的流程。

2. 信息處理

  • LSTM
    • 解釋:LSTM能夠根據(jù)環(huán)境變化進(jìn)行復(fù)雜的燈光調(diào)節(jié),比如在不同的時間段(白天、夜晚)或不同的場景(聚會、安靜時光)中,靈活調(diào)整燈光效果。
    • 特點:LSTM通過多個門的組合,能夠更細(xì)致地控制信息的保留和遺忘。
  • GRU
    • 解釋:GRU雖然簡化了控制邏輯,但仍然能夠根據(jù)環(huán)境變化調(diào)整燈光。例如,它可以在白天和夜晚之間快速切換燈光設(shè)置,但可能在復(fù)雜場景下的調(diào)節(jié)不如LSTM靈活。
    • 特點:GRU通過重置門和更新門的組合,能夠有效處理信息,但在處理復(fù)雜依賴時可能不如LSTM細(xì)致。

3. 訓(xùn)練效率

  • LSTM
    • 解釋:由于其復(fù)雜性,LSTM的燈光控制系統(tǒng)在調(diào)整時可能需要更多的時間和資源,尤其是在復(fù)雜場景下。
    • 特點:LSTM的訓(xùn)練和調(diào)節(jié)通常需要更多的計算資源和時間。
  • GRU
    • 解釋:GRU的燈光控制系統(tǒng)由于結(jié)構(gòu)簡單,可以更快地響應(yīng)環(huán)境變化,調(diào)節(jié)效率更高。
    • 特點:GRU通常訓(xùn)練速度更快,計算資源消耗較少,適合快速響應(yīng)的應(yīng)用。

4. 性能與適用場景

  • LSTM
    • 解釋:在需要復(fù)雜調(diào)節(jié)和長時間依賴的場景(如智能家居系統(tǒng)中,燈光與其他設(shè)備的聯(lián)動)中,LSTM表現(xiàn)更為出色。
    • 特點:適合處理長序列和復(fù)雜依賴關(guān)系的任務(wù)。
  • GRU
    • 解釋:在需要快速響應(yīng)和較少復(fù)雜性的場景中(如簡單的定時開關(guān)燈光),GRU會更有效。
    • 特點:適合處理短序列或較少復(fù)雜性的任務(wù)。

總結(jié)

我們可以看到LSTM和GRU在結(jié)構(gòu)復(fù)雜性、信息處理能力、訓(xùn)練效率和適用場景等方面的區(qū)別。LSTM適合需要復(fù)雜調(diào)節(jié)的場景,而GRU則在快速響應(yīng)和簡單調(diào)節(jié)方面表現(xiàn)更佳。這種對比有助于理解在不同任務(wù)中選擇合適模型的重要性。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容