機(jī)器學(xué)習(xí) ChatGPT , DeepSeek, CLIP, DALL-E （持續(xù)整理）

1.架構(gòu)區(qū)別

技術(shù)層級分類表（含時間軸）

模型	架構(gòu)層	技術(shù)組件/中間層	基礎(chǔ)層
ChatGPT	Transformer (2017)	自注意力機(jī)制(2017)、位置編碼(2017)	多層感知器(1958)、Softmax(1969)、反向傳播(1986)
DeepSeek	深度神經(jīng)網(wǎng)絡(luò)（DNN）	CNN(1980/2012)+Transformer(2017)	卷積核(1980)、全連接層(1958)、梯度下降(1951)
CLIP	雙模態(tài)架構(gòu) (2021)	Transformer(2017)、ResNet(2015)	多頭注意力(2017)、殘差連接(2015)、MLP(1958)
DALL-E	生成式Transformer (2021)	擴(kuò)散模型(2015)、VQ-VAE(2017)	卷積網(wǎng)絡(luò)(1980)、自回歸采樣(1990)、KL散度(1951)

技術(shù)演進(jìn)時間線（精選）

gantt
    title 人工智能關(guān)鍵技術(shù)演進(jìn)時間軸
    dateFormat  YYYY
    axisFormat %Y
    
    section 基礎(chǔ)技術(shù)
    梯度下降        :1951, 1y
    MLP            :1958, 1y
    CNN卷積核       :1980, 1y
    
    section 突破性架構(gòu)
    Transformer    :2017, 3y
    ResNet         :2015, 2y
    VQ-VAE         :2017, 2y
    
    section 應(yīng)用模型
    CLIP           :2021, 2y
    DALL-E         :2021, 2y
    ChatGPT        :2022, 2y

關(guān)鍵時間節(jié)點說明

梯度下降 (1951): 由H. Robbins和S. Monro提出最優(yōu)化基礎(chǔ)算法
MLP (1958): Frank Rosenblatt提出感知機(jī)原型
CNN卷積核 (1980): Kunihiko Fukushima提出神經(jīng)認(rèn)知機(jī)原型
ResNet (2015): 微軟研究院提出深度殘差學(xué)習(xí)框架
Transformer (2017): Google《Attention Is All You Need》論文
VQ-VAE (2017): DeepMind提出離散潛在空間表示方法
擴(kuò)散模型 (2015): 理論提出，2020年后結(jié)合深度學(xué)習(xí)實現(xiàn)突破
自回歸采樣 (1990): 基于RNN的序列生成技術(shù)起源

2.字典

GPT （2018）

（全名：Chat Generative Pre-trained Transformer）生成式預(yù)訓(xùn)練變換器，是一種大型語言模型（LLM），也是生成式人工智能的重要框架,首個GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神經(jīng)網(wǎng)絡(luò)

Transformer模型（2017）

是一種采用注意力機(jī)制的深度學(xué)習(xí)模型。Transformer模型于2017年由谷歌大腦的一個團(tuán)隊推出，現(xiàn)已逐步取代長短期記憶（LSTM）等RNN模型成為了NLP問題的首選模型

RNN模型 Recurrent neural network (1986)

循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent neural network：RNN）是神經(jīng)網(wǎng)絡(luò)的一種

**1982年，約翰·霍普菲爾德發(fā)現(xiàn)了Hopfield神經(jīng)網(wǎng)絡(luò)——一種特殊的RNN

Hopfield神經(jīng)網(wǎng)絡(luò) （1982）

Hopfield網(wǎng)絡(luò)是一種結(jié)合存儲系統(tǒng)和二元系統(tǒng)的神經(jīng)網(wǎng)絡(luò)

我們可以將神經(jīng)元比作一個“開關(guān)”，而整個 Hopfield 網(wǎng)絡(luò)就像一個“燈光控制系統(tǒng)”

1. 網(wǎng)絡(luò)結(jié)構(gòu)

在 Hopfield 網(wǎng)絡(luò)中，有很多小“開關(guān)”，每個開關(guān)代表一個神經(jīng)元。我們用 \( s_i \) 來表示這些開關(guān)的狀態(tài)，\( s_i \) 可以是 \( +1 \)（開）或 \( -1 \)（關(guān)）。

解釋：想象每個神經(jīng)元就像一個房間里的燈光開關(guān)。每個開關(guān)可以是“開”（亮）或“關(guān)”（滅）。當(dāng)開關(guān)打開時，房間里有光；當(dāng)開關(guān)關(guān)閉時，房間里就黑暗

2. 能量函數(shù)

能量函數(shù) \( E \) 就像是一個“評分系統(tǒng)”，用來判斷當(dāng)前網(wǎng)絡(luò)狀態(tài)的好壞。公式中有兩個求和符號，表示我們要考慮每一對神經(jīng)元之間的相互作用。

$E = -\frac{1}{2} \sum_{i \neq j} w_{ij} s_i s_j$

如果兩個神經(jīng)元的狀態(tài)相同（都開或都關(guān)），它們的相互作用對能量是有利的，能量會降低。
如果兩個神經(jīng)元的狀態(tài)不同（一個開，一個關(guān)），它們的相互作用會增加能量。

所以，網(wǎng)絡(luò)的目標(biāo)就是讓這個能量 ( E ) 盡可能低，找到一個“最舒服”的狀態(tài)。

解釋：整個系統(tǒng)的目標(biāo)是讓房間里的光線盡可能**均勻**和**舒適**。能量函數(shù)就像是一個“舒適度評分”，它會評估當(dāng)前所有開關(guān)的狀態(tài)。系統(tǒng)會嘗試調(diào)整開關(guān)，降低這個評分，使房間里的光線更加和諧。

3. 權(quán)重的設(shè)置

在訓(xùn)練階段，我們需要告訴網(wǎng)絡(luò)如何存儲信息。這個過程通過計算權(quán)重 ( w_{ij} ) 來實現(xiàn)，權(quán)重可以看作是神經(jīng)元之間的“連接強(qiáng)度”。

$w_{ij} = \frac{1}{p} \sum_{\mu=1}^{p} s_i^{\mu} s_j^{\mu}$

這里的公式表示，我們要根據(jù)每個存儲的模式來計算這些權(quán)重。簡單來說，權(quán)重越大，兩個神經(jīng)元之間的連接就越強(qiáng)，意味著它們的狀態(tài)會更容易相互影響。

解釋：不同的開關(guān)之間可能有電線連接（權(quán)重），這些連接的強(qiáng)度決定了一個開關(guān)對另一個開關(guān)的影響力。比如，某些開關(guān)的連接很強(qiáng)，打開一個開關(guān)可能會導(dǎo)致另一個開關(guān)也打開；而有些連接較弱，影響就小

4. 狀態(tài)更新

當(dāng)我們輸入一個模糊的模式時，網(wǎng)絡(luò)會根據(jù)當(dāng)前的狀態(tài)和權(quán)重來更新每個神經(jīng)元的狀態(tài)。

首先，網(wǎng)絡(luò)會計算每個神經(jīng)元的“凈輸入” ( h_i )，這就像是每個開關(guān)接收到的信號。

$h_i = \sum_{j} w_{ij} s_j$

然后，根據(jù)這個信號來決定開關(guān)的狀態(tài)：
- 如果信號很強(qiáng)（( h_i > 0 )），開關(guān)就會打開（變?yōu)?( +1 )）。
- 如果信號較弱（( h_i \leq 0 )），開關(guān)就會關(guān)閉（變?yōu)?( -1 )）。

解釋：當(dāng)你試圖打開某個房間的燈，但你不記得開關(guān)的位置時，你可能會嘗試不同的開關(guān)。這就像輸入一個模糊的模式，系統(tǒng)會根據(jù)當(dāng)前的狀態(tài)和連接來判斷哪個開關(guān)應(yīng)該打開

5. 收斂與輸出

網(wǎng)絡(luò)會不斷地進(jìn)行狀態(tài)更新，直到所有的開關(guān)都不再變化，達(dá)到一個穩(wěn)定的狀態(tài)。在這個狀態(tài)下，能量函數(shù) ( E ) 達(dá)到最低點。

最后，網(wǎng)絡(luò)輸出的狀態(tài) ( s ) 就是與輸入的模糊信息最接近的完整模式。

解釋：系統(tǒng)會不斷調(diào)整開關(guān)的狀態(tài)，直到所有開關(guān)都穩(wěn)定下來，達(dá)到一個理想的光線狀態(tài)。這就像是你不斷試驗，最終找到最合適的開關(guān)組合，使得房間里的光線最為舒適。

總結(jié)

簡單來說，Hopfield 神經(jīng)網(wǎng)絡(luò)就像一個智能的記憶機(jī)器。它通過計算能量來判斷當(dāng)前狀態(tài)的好壞，設(shè)置連接強(qiáng)度來存儲信息，并根據(jù)輸入的模糊信號不斷調(diào)整狀態(tài)，最終幫助我們找回完整的信息。

解釋：每個開關(guān)（神經(jīng)元）通過電線（權(quán)重）相互影響，系統(tǒng)的目標(biāo)是找到一個最舒適的光線狀態(tài)（最低能量），從而幫助我們在模糊情況下找到正確的開關(guān)組合（輸出模式）

問題

局部最優(yōu)解 / 能量函數(shù)的形狀 / 初始狀態(tài)的影響

這樣一套系統(tǒng)可能會導(dǎo)致生成的解決方案導(dǎo)致燈光在局部是均勻的，等于是只找到某個區(qū)域的最優(yōu)解，找到后這套系統(tǒng)就無法繼續(xù)去尋找全局的最優(yōu)解了，有很強(qiáng)的區(qū)域局限性，而且很多時候，如果你一開始就選擇了某些開關(guān)為“亮”，系統(tǒng)可能會在這些狀態(tài)附近尋找解決方案，而忽視其他可能的組合

隨機(jī)重啟/模擬退火/遺傳算法/增強(qiáng)學(xué)習(xí)

隨機(jī)重啟：想象你在一個大房子里，試圖找到最佳的燈光組合。每次你開始時，隨機(jī)選擇一些開關(guān)的狀態(tài)（亮或滅）。這就像是每次重啟時，隨機(jī)選擇不同的開關(guān)組合，就會有更多的可能性

模擬退火：假設(shè)你在調(diào)節(jié)房間里的燈光，剛開始時你非常嚴(yán)格，只允許開關(guān)變亮。但隨著時間推移，你變得更寬松，允許某些開關(guān)暫時變暗，即使這樣可能讓光線變得不均勻

遺傳算法：想象你有多個房間，每個房間的燈光組合都是一個“個體”。你可以選擇一些效果最好的房間組合（“父母”），然后將它們的開關(guān)狀態(tài)混合（交叉），再添加一些隨機(jī)的變化（變異），形成新的燈光組合（“后代”）

增強(qiáng)學(xué)習(xí): 想象你在控制燈光的過程中，逐漸學(xué)習(xí)哪些開關(guān)組合產(chǎn)生最佳的光線效果。每次調(diào)整后，你會記住哪些組合讓房間感覺更舒適（獎勵），哪些組合讓房間不適（懲罰）

LSTM Long Short-Term Memory （1997）

是一種時間循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），論文首次發(fā)表于1997年。由于獨特的設(shè)計結(jié)構(gòu)，LSTM適合于處理和預(yù)測時間序列中間隔和延遲非常長的重要事件

同樣我們把這個神經(jīng)網(wǎng)絡(luò)也類比成燈光控制系統(tǒng)，想象一個智能家居系統(tǒng)，能夠根據(jù)時間、天氣、用戶習(xí)慣等因素自動調(diào)整房間的燈光。這個系統(tǒng)需要記住過去的光線設(shè)置，以便在未來做出更好的決策

LSTM 網(wǎng)絡(luò)主要由以下幾個部分組成：

輸入門：決定哪些新信息需要被存儲。
遺忘門：決定哪些舊信息需要被丟棄。
輸出門：決定當(dāng)前的輸出。
細(xì)胞狀態(tài)：代表長期記憶。

1. 輸入門（Input Gate）

公式：
$i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i)$

解釋：

這里的 (x_t) 可以看作當(dāng)前的環(huán)境信息（如時間、天氣等），而 (h_{t-1}) 是之前的狀態(tài)（如之前的燈光設(shè)置）。
輸入門 (i_t) 決定了哪些新的環(huán)境信息需要被接納并影響燈光設(shè)置。

2. 遺忘門（Forget Gate）

公式：
$f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)$

解釋：

遺忘門 (f_t) 決定了哪些舊的燈光設(shè)置需要被遺忘。比如，如果天氣變晴，系統(tǒng)可能會決定忘記之前的昏暗設(shè)置。

3. 細(xì)胞狀態(tài)（Cell State）

公式：
$C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C_t}$

解釋：

細(xì)胞狀態(tài) (C_t) 代表系統(tǒng)的長期記憶。它結(jié)合了之前的狀態(tài) (C_{t-1})（之前的燈光設(shè)置）和新的信息（當(dāng)前環(huán)境的影響）。
(\tilde{C_t}) 是候選值，代表新的燈光設(shè)置。這個值通過某種方式計算得出，反映了當(dāng)前環(huán)境的影響。

4. 輸出門（Output Gate）

公式：
$o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o)$

解釋：

輸出門 (o_t) 決定了當(dāng)前的燈光設(shè)置。它根據(jù)當(dāng)前的狀態(tài)和輸入信息，控制實際的燈光開關(guān)。

5. 最終輸出

公式：
$h_t = o_t \cdot \tanh(C_t)$

解釋：

最終的輸出 (h_t) 代表當(dāng)前的燈光設(shè)置。通過輸出門的控制，結(jié)合細(xì)胞狀態(tài)，系統(tǒng)決定了具體的燈光亮度和開關(guān)狀態(tài)。

總結(jié)

燈光控制系統(tǒng)通過輸入門、遺忘門、細(xì)胞狀態(tài)和輸出門的協(xié)調(diào)工作，動態(tài)調(diào)整燈光設(shè)置，正如LSTM在處理序列數(shù)據(jù)時，通過這些門控機(jī)制有效地管理信息和記憶。這種類比幫助我們更直觀地理解LSTM在時間序列預(yù)測和其他任務(wù)中的應(yīng)用。

問題

梯度消失和爆炸

問題：在長序列中，梯度可能消失或爆炸，導(dǎo)致訓(xùn)練不穩(wěn)定。
解釋：想象一個燈光控制系統(tǒng)，如果環(huán)境變化（如光照變化）過于劇烈，控制信號可能會失去效用（消失）或過于強(qiáng)烈（爆炸），導(dǎo)致燈光效果不穩(wěn)定。
解決方案
- 梯度裁剪：在信號過強(qiáng)時限制控制信號的強(qiáng)度，保持燈光效果穩(wěn)定。
- 使用更深的網(wǎng)絡(luò)：通過增加燈光控制系統(tǒng)的傳感器層次，使其更準(zhǔn)確地響應(yīng)環(huán)境變化。

計算復(fù)雜度

問題：LSTM的復(fù)雜結(jié)構(gòu)導(dǎo)致計算量大，訓(xùn)練時間較長。
解釋：一個復(fù)雜的燈光控制系統(tǒng)需要多個傳感器和控制單元，可能導(dǎo)致響應(yīng)時間變慢。
解決方案
- 模型簡化：減少傳感器數(shù)量或控制單元，簡化燈光控制邏輯。
- 并行計算：利用多個控制單元同時處理信號，提高響應(yīng)速度。

超參數(shù)調(diào)節(jié)

問題：LSTM有許多超參數(shù)，調(diào)節(jié)困難且耗時。
****解釋：：在燈光控制系統(tǒng)中，需調(diào)節(jié)多個參數(shù)（如亮度、色溫、開關(guān)時間等），這需要大量實驗來找到最佳設(shè)置。
解決方案
- 自動化調(diào)節(jié)：使用智能算法自動尋找最佳燈光設(shè)置，減少人工調(diào)節(jié)的時間。
- 交叉驗證：在不同環(huán)境下測試燈光設(shè)置，確保在各種情況下都能達(dá)到最佳效果。

長序列依賴問題

問題：LSTM在捕捉遠(yuǎn)距離依賴關(guān)系方面可能表現(xiàn)不佳。
解釋：如果燈光控制系統(tǒng)只依賴最近的環(huán)境信息，可能無法有效應(yīng)對長期變化（如季節(jié)變化）。
解決方案
- 層次化模型：通過分層控制系統(tǒng)，分別處理短期和長期的環(huán)境變化。
- 注意力機(jī)制：引入智能算法，讓燈光系統(tǒng)關(guān)注重要的環(huán)境變化，而不是僅僅依賴最近的信息。

過擬合

問題：在小數(shù)據(jù)集上訓(xùn)練時，LSTM容易過擬合。
解釋：燈光控制系統(tǒng)在特定環(huán)境下表現(xiàn)良好，但在新的環(huán)境中可能無法適應(yīng)。
解決方案
- 正則化：通過設(shè)置限制，確保燈光控制系統(tǒng)不會過于依賴于特定的環(huán)境輸入。
- 數(shù)據(jù)增強(qiáng)：模擬多種環(huán)境條件，增加訓(xùn)練數(shù)據(jù)的多樣性，使系統(tǒng)更具適應(yīng)性。
- 提前停止：監(jiān)控?zé)艄饪刂葡到y(tǒng)在不同環(huán)境下的表現(xiàn)，及時調(diào)整設(shè)置以防止過擬合。

GRU Gated Recurrent Unit (2014)

GRU（Gated Recurrent Unit）是一種對 LSTM 稍微改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)，由 Cho 等人（2014年）提出。它將遺忘門和輸入門合并成一個單一的“更新門”，同時將 cell state 和隱藏狀態(tài)合并，并進(jìn)行了其他一些改動。GRU模型相對于標(biāo)準(zhǔn)的 LSTM 模型來說更加簡單，并且越來越受到廣泛關(guān)注和應(yīng)用

1. 結(jié)構(gòu)復(fù)雜性

LSTM：
- 解釋：想象一個復(fù)雜的燈光控制系統(tǒng)，包含多個傳感器和控制單元。每個控制單元都有多個開關(guān)和調(diào)節(jié)器，以管理不同的燈光參數(shù)（如亮度、色溫、開關(guān)狀態(tài)等）。
- 特點：LSTM有三個門（輸入門、遺忘門和輸出門），使其能夠精確地控制信息的流動和保留。
GRU：
- 解釋：相比之下，GRU就像一個更簡化的燈光控制系統(tǒng)，只有兩個主要控制單元（重置門和更新門）。這個系統(tǒng)仍然能夠有效地調(diào)節(jié)燈光，但結(jié)構(gòu)更簡單。
- 特點：GRU將輸入門和遺忘門合并為更新門，簡化了信息處理的流程。

2. 信息處理

LSTM：
- 解釋：LSTM能夠根據(jù)環(huán)境變化進(jìn)行復(fù)雜的燈光調(diào)節(jié)，比如在不同的時間段（白天、夜晚）或不同的場景（聚會、安靜時光）中，靈活調(diào)整燈光效果。
- 特點：LSTM通過多個門的組合，能夠更細(xì)致地控制信息的保留和遺忘。
GRU：
- 解釋：GRU雖然簡化了控制邏輯，但仍然能夠根據(jù)環(huán)境變化調(diào)整燈光。例如，它可以在白天和夜晚之間快速切換燈光設(shè)置，但可能在復(fù)雜場景下的調(diào)節(jié)不如LSTM靈活。
- 特點：GRU通過重置門和更新門的組合，能夠有效處理信息，但在處理復(fù)雜依賴時可能不如LSTM細(xì)致。

3. 訓(xùn)練效率

LSTM：
- 解釋：由于其復(fù)雜性，LSTM的燈光控制系統(tǒng)在調(diào)整時可能需要更多的時間和資源，尤其是在復(fù)雜場景下。
- 特點：LSTM的訓(xùn)練和調(diào)節(jié)通常需要更多的計算資源和時間。
GRU：
- 解釋：GRU的燈光控制系統(tǒng)由于結(jié)構(gòu)簡單，可以更快地響應(yīng)環(huán)境變化，調(diào)節(jié)效率更高。
- 特點：GRU通常訓(xùn)練速度更快，計算資源消耗較少，適合快速響應(yīng)的應(yīng)用。

4. 性能與適用場景

LSTM：
- 解釋：在需要復(fù)雜調(diào)節(jié)和長時間依賴的場景（如智能家居系統(tǒng)中，燈光與其他設(shè)備的聯(lián)動）中，LSTM表現(xiàn)更為出色。
- 特點：適合處理長序列和復(fù)雜依賴關(guān)系的任務(wù)。
GRU：
- 解釋：在需要快速響應(yīng)和較少復(fù)雜性的場景中（如簡單的定時開關(guān)燈光），GRU會更有效。
- 特點：適合處理短序列或較少復(fù)雜性的任務(wù)。

總結(jié)

我們可以看到LSTM和GRU在結(jié)構(gòu)復(fù)雜性、信息處理能力、訓(xùn)練效率和適用場景等方面的區(qū)別。LSTM適合需要復(fù)雜調(diào)節(jié)的場景，而GRU則在快速響應(yīng)和簡單調(diào)節(jié)方面表現(xiàn)更佳。這種對比有助于理解在不同任務(wù)中選擇合適模型的重要性。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av