《這就是Chatgpt》讀書(shū)筆記


關(guān)于導(dǎo)讀部分

1、人們常常高估技術(shù)在短期內(nèi)的影響,卻低估了其長(zhǎng)期效應(yīng)。今年以來(lái),ChatGPT的用戶(hù)增長(zhǎng)出現(xiàn)停滯,這與用戶(hù)需求、使用難度以及競(jìng)爭(zhēng)對(duì)手等多方面因素有關(guān)。因此,ChatGPT是否能“超越信息技術(shù)歷史上幾乎所有的熱點(diǎn)”,仍需進(jìn)一步觀察。

2、為何是OpenAI而非谷歌、英偉達(dá)、iPhone或阿里巴巴等公司研發(fā)出了ChatGPT?這與OpenAI的研究理念和創(chuàng)新精神密不可分。此外,推薦閱讀OpenAI的兩位研究員合著的新書(shū)《偉大為什么不能被計(jì)劃》,以深入了解其背后的研發(fā)思路。

3、歷經(jīng)磨礪,方顯寶劍之鋒;經(jīng)受苦寒,才得梅花之香。有關(guān)皮茨、羅森布拉特、魯梅爾哈特、楊立昆、本吉奧、辛頓等深度學(xué)習(xí)領(lǐng)域的先驅(qū)者的故事,詳見(jiàn)《深度學(xué)習(xí)革命》一書(shū)。

4、在本書(shū)中,可以了解到以下關(guān)鍵概念:預(yù)測(cè)下一個(gè)字符、Decoder-Only架構(gòu)、規(guī)模法則、涌現(xiàn)現(xiàn)象、模型構(gòu)建、參數(shù)設(shè)置、嵌入技術(shù)、計(jì)算等價(jià)原理以及計(jì)算不可約性原理等。

5、《大數(shù)據(jù)時(shí)代》一書(shū)中指出:“大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效?!边@一觀點(diǎn)與本書(shū)所探討的“規(guī)模法則”有著異曲同工之妙。

6、沃爾弗拉姆曾提出“萬(wàn)事皆計(jì)算”的觀點(diǎn),這反映了人工智能領(lǐng)域中的“符號(hào)派”思想。當(dāng)然,人工智能還有其他兩大流派,分別是連接派和控制派。

一次只生成一個(gè)詞

1、合理的文本延續(xù)應(yīng)符合人類(lèi)的認(rèn)知,即能夠理解上下文語(yǔ)境。

2、在生成文本時(shí),需要考慮下一個(gè)詞出現(xiàn)的概率。然而,如果僅選擇概率最高的詞,文本很容易陷入重復(fù)和死循環(huán)。例如:“我,愛(ài),你,中,國(guó),人,民,解,放,軍,人,民,解,放,軍……”為了避免這種情況,引入了“溫度”的概念。溫度用于調(diào)節(jié)較低概率詞匯的出現(xiàn)機(jī)會(huì)。當(dāng)溫度為0.8時(shí),文本生成效果最佳。這個(gè)0.8的數(shù)值似乎有些神秘,但實(shí)際上是通過(guò)大量實(shí)驗(yàn)得出的經(jīng)驗(yàn)值。

概率的來(lái)源

1、“一次只生成一個(gè)詞”章節(jié)中提到了概率和溫度的概念。由于溫度參數(shù)具有一定的經(jīng)驗(yàn)性,因此我們將重點(diǎn)關(guān)注概率的探討。概率的生成依賴(lài)于大數(shù)據(jù)的支持,通過(guò)從網(wǎng)絡(luò)中抓取海量詞匯,進(jìn)而形成合理的概率分布。

2、在ChatGPT出現(xiàn)之前,n-gram是一種相對(duì)簡(jiǎn)單的語(yǔ)言模型。它利用詞頻來(lái)預(yù)測(cè)句子中下一個(gè)可能出現(xiàn)的詞。然而,這種方法在理解上下文和語(yǔ)法方面仍存在較大局限性。

3、有了詞匯的概率分布后,我們需要借助模型來(lái)預(yù)估整個(gè)序列的概率分布。這將是我們下一步探討的重點(diǎn)。

模型的定義

1、模型是通過(guò)算法實(shí)現(xiàn)的程序。它由基本函數(shù)結(jié)構(gòu)和調(diào)優(yōu)參數(shù)構(gòu)成。需要注意的是,模型所描述的底層規(guī)律只是一種數(shù)學(xué)上的猜測(cè)。

2、類(lèi)人任務(wù)包括圖像識(shí)別、語(yǔ)音識(shí)別和文本生成等。為了構(gòu)建能夠處理這些任務(wù)的模型,我們需要深入理解神經(jīng)網(wǎng)絡(luò)的思想。

神經(jīng)網(wǎng)絡(luò)簡(jiǎn)介

1、神經(jīng)網(wǎng)絡(luò)是對(duì)大腦工作機(jī)制的一種理想化模擬。目前,我們無(wú)法精確描述網(wǎng)絡(luò)中各層的具體功能。

2、神經(jīng)網(wǎng)絡(luò)的每一層都會(huì)從不同角度分析輸入信息,并最終綜合這些信息以得出結(jié)果。

3、神經(jīng)網(wǎng)絡(luò)的每一層都遵循f[w*x+b]的計(jì)算公式,其中f是固定的函數(shù)形式,w代表權(quán)重,b代表常量參數(shù)。

機(jī)器學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)訓(xùn)練

1、訓(xùn)練神經(jīng)網(wǎng)絡(luò)的基本方法是通過(guò)調(diào)整每一層的權(quán)重,觀察輸出結(jié)果與預(yù)期結(jié)果的差距,并朝著更接近預(yù)期結(jié)果的方向調(diào)整權(quán)重。

2、神經(jīng)網(wǎng)絡(luò)可以視為一個(gè)計(jì)算函數(shù),其輸出結(jié)果取決于輸入和權(quán)重。權(quán)重的調(diào)整主要依賴(lài)于試錯(cuò)過(guò)程。

訓(xùn)練實(shí)踐

1、即使是完全不同的任務(wù),相同的神經(jīng)網(wǎng)絡(luò)架構(gòu)也可能發(fā)揮作用。

2、“非可約的數(shù)學(xué)”與圖靈的相關(guān)理論有關(guān)。我正在閱讀圖靈的相關(guān)論文以深入了解這一概念。

3、“足夠大”指的是神經(jīng)網(wǎng)絡(luò)的規(guī)模和復(fù)雜度達(dá)到一定程度,能夠處理更加復(fù)雜的任務(wù)。目前,大型模型的規(guī)模已經(jīng)達(dá)到了千億級(jí)別。

4、有一個(gè)重要的觀點(diǎn)是:“能力和可訓(xùn)練性之間存在著一個(gè)終極權(quán)衡。系統(tǒng)越能充分利用其計(jì)算能力,就越表現(xiàn)出計(jì)算不可約性,從而越難以訓(xùn)練。而系統(tǒng)本質(zhì)上越易于訓(xùn)練,其進(jìn)行復(fù)雜計(jì)算的能力就越受限?!?/p>

嵌入的概念

1、嵌入是一個(gè)抽象的概念,指的是用數(shù)組來(lái)表示事物的本質(zhì)特征。相似的事物會(huì)用相近的數(shù)組來(lái)表示。雖然理解嵌入的實(shí)現(xiàn)方式有一定難度,但作者盡力進(jìn)行了科普解釋。

ChatGPT的內(nèi)部原理

1、本節(jié)主要介紹了Transformer架構(gòu)的注意力機(jī)制,這是理解ChatGPT內(nèi)部原理的關(guān)鍵。

2、注意力機(jī)制使ChatGPT能夠關(guān)注序列中最重要的部分,從而避免人工智能出現(xiàn)“災(zāi)難性遺忘”的問(wèn)題。

3、Transformer架構(gòu)的解碼器利用嵌入來(lái)生成輸出。

4、ChatGPT的操作步驟包括:輸入標(biāo)記序列以找到對(duì)應(yīng)的嵌入;逐層處理生成新的嵌入;最后生成概率分布。

ChatGPT的訓(xùn)練過(guò)程

1、神經(jīng)網(wǎng)絡(luò)的訓(xùn)練包括兩個(gè)步驟:提供樣例和調(diào)整權(quán)重。樣例必須足夠多以確保訓(xùn)練的充分性;而權(quán)重的規(guī)模則與網(wǎng)絡(luò)規(guī)模和訓(xùn)練數(shù)據(jù)的總量相匹配。

在基礎(chǔ)訓(xùn)練之外

1、本書(shū)提出了一個(gè)巧妙的構(gòu)思:利用人類(lèi)來(lái)評(píng)價(jià)人工智能的輸出結(jié)果,并通過(guò)另一個(gè)人工智能來(lái)預(yù)測(cè)人類(lèi)的評(píng)分,從而模擬人類(lèi)的反饋來(lái)優(yōu)化人工智能的性能。

2、提示詞在人工智能應(yīng)用中具有重要作用。通過(guò)給出適當(dāng)?shù)奶崾驹~,人工智能往往能夠成功利用這些提示來(lái)生成滿(mǎn)意的結(jié)果。

ChatGPT的核心優(yōu)勢(shì)

1、作者提出了一個(gè)大膽的假設(shè):語(yǔ)言在根本上比看起來(lái)更簡(jiǎn)單。這一觀點(diǎn)有助于我們理解ChatGPT的核心優(yōu)勢(shì)。

2、邏輯是理解語(yǔ)言的關(guān)鍵。例如,亞里士多德的三段論提供了一種基本的邏輯推理模式:“所有X都是Y;這不是Y;因此這不是X”。

意義空間和語(yǔ)義運(yùn)動(dòng)規(guī)律

1、意義空間指的是在語(yǔ)言特征空間中相近的概念用相近的詞來(lái)表示。

2、語(yǔ)義運(yùn)動(dòng)規(guī)律描述了在意義空間中語(yǔ)言運(yùn)動(dòng)的規(guī)則。

語(yǔ)義、語(yǔ)法與計(jì)算語(yǔ)言的力量

1、本章內(nèi)容令人震驚。作者的推斷建立在這樣一個(gè)假設(shè)上:如果人工智能真的能夠超越人類(lèi)智能水平,那么必然存在一種比人類(lèi)語(yǔ)言更精確的計(jì)算語(yǔ)言來(lái)描述這個(gè)世界。

2、更通用的語(yǔ)義語(yǔ)法能夠處理簡(jiǎn)單的模式。一旦建立起整體計(jì)算語(yǔ)言框架,我們就能夠以更精確和形式化的方式處理以前難以觸及的事物。這究竟意味著什么呢?我們拭目以待。

ChatGPT與Wolfram的比較

1、自然語(yǔ)言是ChatGPT和Wolfram的共同接口,使得兩者可以進(jìn)行交互。Wolfram能夠?qū)腃hatGPT獲得的自然語(yǔ)言轉(zhuǎn)化為符號(hào)語(yǔ)言,并應(yīng)用其強(qiáng)大的計(jì)算能力。

2、ChatGPT給出的錯(cuò)誤結(jié)果通常被稱(chēng)為“AI幻覺(jué)”。在計(jì)算方面,ChatGPT給出的是估算答案,其結(jié)果接近正確但并非完全隨機(jī),也不保證絕對(duì)正確。因此,在創(chuàng)意型工作中使用ChatGPT可能更為合適;而在醫(yī)療咨詢(xún)等真相至關(guān)重要的場(chǎng)景下則應(yīng)謹(jǐn)慎使用。

3、與ChatGPT相比,Wolfram更像一個(gè)計(jì)算系統(tǒng),能夠提供精確的內(nèi)容;但在生成需要?jiǎng)?chuàng)意的文本方面能力稍顯不足。

總結(jié):

讀完這本書(shū)后,我深感其內(nèi)容豐富、觀點(diǎn)新穎。盡管有些部分(如神經(jīng)網(wǎng)絡(luò)和嵌入的概念)令人感到困惑(可能是翻譯問(wèn)題所致),但整體而言仍是一本值得一讀的佳作。對(duì)我個(gè)人而言,“它只是一次添加一個(gè)詞”“概念從何而來(lái)”“什么是模型”“在基礎(chǔ)訓(xùn)練之外”“真正讓ChatGPT發(fā)揮作用的是什么”等章節(jié)收獲頗豐。接下來(lái)我將閱讀《大模型應(yīng)用開(kāi)發(fā)極簡(jiǎn)入門(mén)》以期望能夠更深入地了解這一領(lǐng)域。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容