我們什么時(shí)候應(yīng)該期待 AGI？

如果我們能夠繼續(xù)擴(kuò)展 LLM++（并因此獲得更好、更全面的表現(xiàn)），那么我們有理由期待到 2040 年（或更早）強(qiáng)大的人工智能能夠?qū)崿F(xiàn)大多數(shù)認(rèn)知?jiǎng)趧?dòng)的自動(dòng)化并加速人工智能的進(jìn)一步進(jìn)步。然而，如果擴(kuò)展不起作用，那么通向 AGI 的道路似乎會(huì)更長(zhǎng)、更棘手，原因我在帖子中解釋過(guò)。

為了思考有關(guān)擴(kuò)展的正反兩方面的爭(zhēng)論，我寫了這篇文章，作為我虛構(gòu)的兩個(gè)角色（信徒和懷疑論者）之間的辯論。

我們會(huì)耗盡數(shù)據(jù)嗎？

懷疑論者：

明年我們將耗盡高質(zhì)量的語(yǔ)言數(shù)據(jù)。

即使認(rèn)真對(duì)待手波式縮放曲線也意味著，我們需要 1e35 次 FLOP 才能實(shí)現(xiàn)足夠可靠和智能的 AI 來(lái)撰寫科學(xué)論文（這是人工智能需要自動(dòng)化進(jìn)一步的 AI 研究并在縮放變?yōu)榭衫^續(xù)進(jìn)展的能力的賭注）不可行）1. 這意味著我們需要比我們看起來(lái)?yè)碛械亩?5 OOM（數(shù)量級(jí)）的數(shù)據(jù)2。

我擔(dān)心當(dāng)人們聽到“5 OOMs off”時(shí)，他們的反應(yīng)是，“哦，我們的數(shù)據(jù)比我們需要的少了 5 倍 - 我們只需要在數(shù)據(jù)效率上提高 2 倍，我們就很優(yōu)秀了”。畢竟，朋友之間的 OOM 算什么？

不，5 OOM 意味著我們的數(shù)據(jù)比我們需要的少 100,000 倍。是的，我們將獲得數(shù)據(jù)效率更高的算法。多模式訓(xùn)練將為我們提供更多數(shù)據(jù)，而且我們可以在多個(gè)時(shí)期回收代幣并使用課程學(xué)習(xí)。但即使我們假設(shè)這些技術(shù)可能提供最慷慨的一次性改進(jìn)，它們也不會(huì)為我們提供指數(shù)級(jí)的數(shù)據(jù)增長(zhǎng)，以跟上這些縮放定律所需的計(jì)算指數(shù)級(jí)增長(zhǎng)。

image.png

所以人們說(shuō)，我們將以某種方式讓自我對(duì)弈/合成數(shù)據(jù)發(fā)揮作用。但自我對(duì)戰(zhàn)有兩個(gè)非常困難的挑戰(zhàn)

評(píng)估：自我對(duì)弈與 AlphaGo 配合使用，因?yàn)樵撃Ｐ涂梢愿鶕?jù)具體的獲勝條件（“我贏得了這場(chǎng)圍棋比賽嗎？”）來(lái)判斷自己。但新穎的推理并沒(méi)有具體的獲勝條件。結(jié)果，正如您所期望的那樣，LLM 到目前為止還無(wú)法糾正自己的推理。

計(jì)算：所有這些數(shù)學(xué)/代碼方法都傾向于使用各種類型的樹搜索，您可以在每個(gè)節(jié)點(diǎn)重復(fù)運(yùn)行 LLM。對(duì)于圍棋獲勝這個(gè)相對(duì)有限的任務(wù)來(lái)說(shuō)，AlphaGo 的計(jì)算預(yù)算是驚人的——現(xiàn)在想象一下，你需要搜索所有可能的人類思維空間，而不是搜索圍棋棋步的空間。除了擴(kuò)展參數(shù)本身所需的巨大計(jì)算量之外（計(jì)算 = 參數(shù) * 數(shù)據(jù)），自我運(yùn)行所需的所有額外計(jì)算也是如此。使用人類思維水平的 1e35 FLOP 估計(jì)，我們?cè)诋?dāng)今最大的模型上還需要 9 OOM 的計(jì)算。是的，你會(huì)從更好的硬件和更好的算法中獲得改進(jìn)，但你真的會(huì)得到完全相當(dāng)于 9 個(gè) OOM 的結(jié)果嗎？

信徒：

如果你對(duì)規(guī)?；ぷ鞯闹饕磳?duì)意見只是缺乏數(shù)據(jù)，那么你的直覺(jué)反應(yīng)不應(yīng)該是：“看起來(lái)我們可以通過(guò)擴(kuò)大 Transformer++ 來(lái)產(chǎn)生 AGI，但我想我們首先會(huì)耗盡數(shù)據(jù)?！?/p>

你的反應(yīng)應(yīng)該是，“天哪，如果互聯(lián)網(wǎng)更大，我可以用幾百行 Python 代碼編寫其基本結(jié)構(gòu)的模型進(jìn)行擴(kuò)展，就可以產(chǎn)生人類水平的思維。讓大型計(jì)算變得智能化是如此容易，這是世界上一個(gè)瘋狂的事實(shí)。

LLM “效率低下”的樣本大多只是不相關(guān)的電子商務(wù)垃圾3。我們通過(guò)訓(xùn)練他們預(yù)測(cè)下一個(gè)代幣來(lái)加劇這種缺陷——這是一種與我們希望智能代理在經(jīng)濟(jì)中執(zhí)行的實(shí)際任務(wù)大多無(wú)關(guān)的損失函數(shù)。盡管我們真正想要的能力與我們訓(xùn)練這些模型所用的可怕的損失函數(shù)和數(shù)據(jù)之間存在微小的交集，但我們只需投入微軟年收入的 00.03% 就可以生產(chǎn)出一個(gè)嬰兒 AGI（又名 GPT-4）互聯(lián)網(wǎng)的。

因此，考慮到迄今為止人工智能的進(jìn)展是多么容易和簡(jiǎn)單，如果合成數(shù)據(jù)也能發(fā)揮作用，我們就不應(yīng)該感到驚訝。畢竟，“模型只是想學(xué)習(xí)”。

GPT-4 已經(jīng)發(fā)布 8 個(gè)月了。其他人工智能實(shí)驗(yàn)室剛剛獲得了自己的 GPT-4 級(jí)別模型。這意味著所有研究人員現(xiàn)在才開始著手使自我對(duì)弈與當(dāng)前一代模型一起工作（似乎其中之一可能已經(jīng)成功）。因此，到目前為止，我們還沒(méi)有公開證據(jù)表明合成數(shù)據(jù)能夠大規(guī)模發(fā)揮作用，但這并不意味著它不能。

畢竟，當(dāng)你的基礎(chǔ)模型至少在某些時(shí)候有足夠的能力獲得正確答案時(shí)，強(qiáng)化學(xué)習(xí)就會(huì)變得更加可行（現(xiàn)在你可以獎(jiǎng)勵(lì)模型完成擴(kuò)展數(shù)學(xué)證明所需的思想鏈的 1/100 倍），或編寫完成完整拉取請(qǐng)求所需的 500 行代碼）。很快你的 1/100 成功率就會(huì)變成 10/100，然后是 90/100。現(xiàn)在，您嘗試 1000 行拉取請(qǐng)求，模型不僅有時(shí)會(huì)成功，而且在失敗時(shí)能夠自我批評(píng)。等等。

事實(shí)上，這種合成數(shù)據(jù)引導(dǎo)似乎幾乎直接類似于人類進(jìn)化。我們的靈長(zhǎng)類祖先幾乎沒(méi)有表現(xiàn)出能夠快速辨別和應(yīng)用新見解的能力。但是，一旦人類發(fā)展出語(yǔ)言，就會(huì)產(chǎn)生這種遺傳/文化共同進(jìn)化，這與LLM 的合成數(shù)據(jù)/自我游戲循環(huán)非常相似，其中模型變得更加智能，以便更好地理解相似副本的復(fù)雜符號(hào)輸出。

自我博弈并不要求模型能夠完美地判斷自己的推理。他們只需要更好地評(píng)估推理，而不是從頭開始（這顯然已經(jīng)是這種情況了 - 請(qǐng)參閱憲法人工智能，或者只是玩幾分鐘 GPT，并注意到它似乎更能解釋為什么你會(huì)這樣做）寫下來(lái)比自己得出正確答案是錯(cuò)誤的）4。

幾乎所有與我在大型人工智能實(shí)驗(yàn)室交談過(guò)的研究人員都非常有信心他們能夠讓自我對(duì)弈發(fā)揮作用。當(dāng)我問(wèn)他們?yōu)槭裁慈绱舜_定時(shí)，他們喘了一會(huì)兒，好像急于解釋自己的所有想法。但隨后他們想起保密是一回事，并說(shuō)：“我不能告訴你具體細(xì)節(jié)，但我們可以在這里嘗試很多容易實(shí)現(xiàn)的目標(biāo)?！?或者正如 Dario Amodei（Anthropic 首席執(zhí)行官）在我的播客上告訴我的那樣：

懷疑論者：

憲法人工智能、RLHF 和其他 RL/自我對(duì)戰(zhàn)設(shè)置擅長(zhǎng)發(fā)揮潛在能力（或在能力頑皮時(shí)抑制它們）。但沒(méi)有人展示出一種方法可以真正通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提高模型的潛在能力。

如果某種自我對(duì)弈/合成數(shù)據(jù)不起作用，那你就完蛋了——沒(méi)有其他方法可以繞過(guò)數(shù)據(jù)瓶頸。新的架構(gòu)極不可能提供修復(fù)。您需要比 LSTM 到 Transformer 更大的樣本效率提升。 LSTM 早在 90 年代就被發(fā)明了。因此，你需要比 20 多年來(lái)我們所獲得的更大的飛躍，當(dāng)時(shí)深度學(xué)習(xí)中所有唾手可得的成果都是最容易獲得的。

你從那些對(duì)LLM 規(guī)模有情感或經(jīng)濟(jì)利益的人那里得到的共鳴并不能替代我們完全缺乏證據(jù)表明強(qiáng)化學(xué)習(xí)可以解決許多 OOM 的數(shù)據(jù)短缺問(wèn)題。

此外，LLM 似乎需要如此大量的數(shù)據(jù)才能得出如此平庸的推理，這一事實(shí)表明他們根本沒(méi)有概括能力。如果這些模型無(wú)法在人類 20,000 年后看到的數(shù)據(jù)上達(dá)到接近人類水平的性能，那么我們應(yīng)該考慮 2,000,000,000 年的數(shù)據(jù)也將不夠的可能性。您無(wú)法向飛機(jī)添加任何噴氣燃料以使其到達(dá)月球。

到目前為止，縮放真的有效嗎？

信徒：

你在說(shuō)什么？基準(zhǔn)測(cè)試性能持續(xù)提升 8 個(gè)數(shù)量級(jí)。模型性能的損失已經(jīng)精確到小數(shù)點(diǎn)后幾位，計(jì)算量增加了數(shù)百萬(wàn)倍。

在 GPT-4 技術(shù)報(bào)告中，他們表示，他們能夠“通過(guò)使用相同方法訓(xùn)練的模型，但使用的計(jì)算量最多比 GPT-4 少 10,000 倍”來(lái)預(yù)測(cè)最終 GPT-4 模型的性能。

image.png

我們應(yīng)該假設(shè)在過(guò)去 8 個(gè) OOM 中一直有效的趨勢(shì)在接下來(lái)的 8 個(gè) OOM 中將是可靠的。并且我們將從進(jìn)一步的 8 OOM 擴(kuò)展中獲得的性能（或者在性能方面相當(dāng)于 8 OOM）考慮到算法和硬件進(jìn)步所帶來(lái)的免費(fèi)性能提升）可能會(huì)產(chǎn)生足以加速人工智能研究的模型。

懷疑論者：

但當(dāng)然，我們實(shí)際上并不直接關(guān)心下一個(gè)令牌預(yù)測(cè)的性能。這些模型已經(jīng)在這個(gè)損失函數(shù)上擊敗了人類。我們想要找出這些下一個(gè)標(biāo)記預(yù)測(cè)的縮放曲線是否實(shí)際上對(duì)應(yīng)于通用性的真正進(jìn)展。

信徒：

當(dāng)您擴(kuò)展這些模型時(shí)，根據(jù) MMLU、BIG-bench 和 HumanEval 等基準(zhǔn)衡量，它們的性能在廣泛的任務(wù)上持續(xù)可靠地提高。

image.png

懷疑論者：

但您是否真的嘗試過(guò)查看 MMLU 和 BigBench 問(wèn)題的隨機(jī)樣本？它們幾乎都是 Google 搜索的第一命中結(jié)果。它們是對(duì)記憶力的良好測(cè)試，而不是對(duì)智力的測(cè)試。以下是我從 MMLU 中隨機(jī)挑選的一些問(wèn)題（記住 - 這些是多項(xiàng)選擇 - 模型只需從 4 個(gè)列表中選擇正確的答案）：

為什么令人印象深刻的是，一個(gè)用充滿隨機(jī)事實(shí)的互聯(lián)網(wǎng)文本訓(xùn)練的模型恰好記住了很多隨機(jī)事實(shí)？為什么這以某種方式表明智力或創(chuàng)造力？

即使在這些人為的正交基準(zhǔn)上，性能似乎也趨于穩(wěn)定。據(jù)估計(jì)，谷歌新的 Gemini Ultra 模型的計(jì)算能力幾乎是 GPT-4 的 5 倍。但它在 MMLU、BIG-bench 和其他標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中具有幾乎相同的性能。

無(wú)論如何，常見的基準(zhǔn)測(cè)試根本無(wú)法衡量長(zhǎng)期任務(wù)績(jī)效（你能在一個(gè)月內(nèi)完成一項(xiàng)工作嗎），而接受過(guò)下一個(gè)代幣預(yù)測(cè)訓(xùn)練的LLM 幾乎沒(méi)有什么有效的數(shù)據(jù)點(diǎn)可供學(xué)習(xí)。事實(shí)上，正如我們?cè)?SWE-bench（衡量法LLM 是否可以自主完成拉取請(qǐng)求）上的表現(xiàn)所看到的，他們?cè)陂L(zhǎng)期整合復(fù)雜信息方面非常糟糕。 GPT-4 的得分僅為 1.7%，而 Claude 2 的得分稍高一些，為 4.8%。

我們似乎有兩種基準(zhǔn)：

測(cè)量記憶、回憶和插值的模型（MMLU、BIG-bench、HumanEval），這些模型似乎已經(jīng)匹配甚至擊敗了普通人。這些測(cè)試顯然不能很好地代表智力，因?yàn)榧词故且?guī)模最大化主義者也不得不承認(rèn)模型目前比人類愚蠢得多。
真正衡量跨長(zhǎng)時(shí)間范圍或困難抽象自主解決問(wèn)題的能力的模型（SWE-bench、ARC），而這些模型甚至沒(méi)有在運(yùn)行中。

對(duì)于一個(gè)模型，我們應(yīng)該得出什么結(jié)論，在接受了相當(dāng)于 20,000 年人類輸入的訓(xùn)練之后，該模型仍然不明白如果湯姆·克魯斯的母親是瑪麗·李·菲佛，那么瑪麗·李·菲佛的兒子就是湯姆·克魯斯？或者誰(shuí)的答案如此難以置信地取決于問(wèn)題的措辭方式和順序？

因此，甚至不值得問(wèn)擴(kuò)展是否會(huì)繼續(xù)發(fā)揮作用——到目前為止，我們甚至似乎沒(méi)有證據(jù)表明擴(kuò)展已經(jīng)發(fā)揮了作用。

信徒：

雙子座似乎是一個(gè)奇怪的地方，期待著平穩(wěn)期。 GPT-4 顯然突破了懷疑論者對(duì)聯(lián)結(jié)主義和深度學(xué)習(xí)的所有預(yù)先登記的批評(píng)5。對(duì)于 Gemini 相對(duì)于 GPT-4 的性能，更合理的解釋是 Google 尚未完全趕上 OpenAI 的算法進(jìn)展。

如果深度學(xué)習(xí)和LLM 存在一些基本的硬性上限，那么我們難道不應(yīng)該在他們開始發(fā)展常識(shí)、早期推理和跨抽象思考的能力之前就看到它嗎？期待平庸推理和高級(jí)推理之間存在某種頑固限制的表面原因是什么？

考慮一下 GPT-4 比 GPT-3 好多少。這只是 100 倍的放大。這聽起來(lái)好像很多，直到你考慮到這比我們可以在這些模型上進(jìn)行的額外放大要小多少。在我們達(dá)到世界 GDP 的百分之一之前，我們可以承受 GPT-4 進(jìn)一步擴(kuò)大 10,000 倍（即 GPT-6 水平）。這還是在我們考慮預(yù)訓(xùn)練計(jì)算效率提升（例如專家混合、閃光注意力）、新的訓(xùn)練后方法（RLAI、思維鏈微調(diào)、自我對(duì)弈等）和硬件改進(jìn)之前。其中每一個(gè)對(duì)性能的貢獻(xiàn)都與您從原始擴(kuò)展的許多 OOM 中獲得的性能一樣大（它們過(guò)去一直這樣做）。所有這些加在一起，你大概可以將 GDP 的 1% 轉(zhuǎn)換為 GPT-8 級(jí)別的模型。

有關(guān)社會(huì)愿意在新的通用技術(shù)上花費(fèi)多少錢的背景：
英國(guó)鐵路投資在 1847 年達(dá)到頂峰，占 GDP 的比例達(dá)到驚人的 7%。

“在 1996 年《電信法》生效后的五年里，電信公司投資了超過(guò) 5000 億美元（按今天的價(jià)值計(jì)算，接近一萬(wàn)億美元）……鋪設(shè)光纖電纜、增加新交換機(jī)和建設(shè)無(wú)線網(wǎng)絡(luò)。”

GPT-8（又名具有按比例放大 100,000,000 倍的 GPT-4 性能的模型）可能只比 GPT-4 稍好一點(diǎn)，但我不明白為什么您會(huì)期望如此，當(dāng)我們已經(jīng)看到模型能夠通過(guò)更小的規(guī)模來(lái)思考如何思考以及世界是什么樣子的時(shí)候。

您從那里知道了這個(gè)故事 - 數(shù)以百萬(wàn)計(jì)的 GPT-8 副本編碼內(nèi)核改進(jìn)，尋找更好的超參數(shù)，為自己提供大量高質(zhì)量的反饋以進(jìn)行微調(diào)，等等。這使得開發(fā) GPT-9 變得更便宜、更容易……將其推斷為奇點(diǎn)。

模型了解世界嗎？

信徒：

這是微軟研究院的 Sparks of AGI 論文中眾多令人震驚的發(fā)現(xiàn)之一。他們發(fā)現(xiàn) GPT-4 可以編寫 LaTex 代碼來(lái)繪制獨(dú)角獸。我們已經(jīng)習(xí)慣了這樣的事情，以至于我們不會(huì)停下來(lái)思考這些例子說(shuō)明了什么。據(jù)推測(cè)，LaTex 中的動(dòng)物圖畫不屬于 GPT-4 訓(xùn)練語(yǔ)料庫(kù)的一部分。然而，GPT-4 已經(jīng)開發(fā)出了獨(dú)角獸外觀的內(nèi)部表示，并且能夠利用其對(duì) LaTex 編程的熟練程度來(lái)說(shuō)明它只以語(yǔ)言形式遇到的概念。我們看到 GPT-4 做了一些事情，如果它沒(méi)有世界模型，它顯然無(wú)法做到（如果它不了解獨(dú)角獸的樣子，它怎么能弄清楚如何在 LaTex 中說(shuō)明獨(dú)角獸）6 。

為了預(yù)測(cè)下一個(gè)標(biāo)記，LLM 必須自學(xué)世界上所有導(dǎo)致一個(gè)標(biāo)記跟隨另一個(gè)標(biāo)記的規(guī)律。要預(yù)測(cè)《自私基因》中的下一段需要理解以基因?yàn)橹行牡倪M(jìn)化論觀點(diǎn)，預(yù)測(cè)新短篇小說(shuō)中的下一段需要了解人類角色的心理，等等。

如果你對(duì)LLM 進(jìn)行代碼訓(xùn)練，它會(huì)在語(yǔ)言推理方面變得更好。現(xiàn)在這真是一個(gè)令人震驚的事實(shí)。這告訴我們，該模型已經(jīng)從閱讀大量代碼中擠出了一些對(duì)如何思考的深刻的一般理解——語(yǔ)言和代碼之間不僅存在一些共享的邏輯結(jié)構(gòu)，而且無(wú)監(jiān)督梯度下降可以提取這種結(jié)構(gòu) ，并利用它能夠更好地進(jìn)行推理。

梯度下降試圖找到最有效的數(shù)據(jù)壓縮方法。最有效的壓縮也是最深、最有力的。對(duì)物理教科書最有效的壓縮——幫助你預(yù)測(cè)書中被刪節(jié)的論證可能如何進(jìn)行的壓縮——就是對(duì)底層科學(xué)解釋的深刻內(nèi)化理解。

懷疑論者：

智力涉及（除其他外）壓縮能力。但壓縮本身并不是智能。愛因斯坦很聰明，因?yàn)樗芴岢鱿鄬?duì)論，但愛因斯坦+相對(duì)論并不是一個(gè)對(duì)我來(lái)說(shuō)似乎有意義的更智能的系統(tǒng)。與我+我的知識(shí)相比，說(shuō)柏拉圖是個(gè)白癡是沒(méi)有意義的，因?yàn)樗麤](méi)有我們現(xiàn)代對(duì)生物學(xué)或物理學(xué)的理解。

因此，如果 LLM 只是另一個(gè)過(guò)程（隨機(jī)梯度下降）進(jìn)行的壓縮，那么我不知道為什么這會(huì)告訴我們有關(guān) LLM 自身進(jìn)行壓縮的能力的任何信息（因此，為什么這會(huì)告訴我們有關(guān) LLM 的任何信息）智力）7.

信徒：

對(duì)于為什么擴(kuò)展必須保持工作的無(wú)懈可擊的理論解釋并不是擴(kuò)展保持工作所必需的。蒸汽機(jī)發(fā)明整整一個(gè)世紀(jì)后，我們對(duì)熱力學(xué)有了全面的了解。技術(shù)史上的通常模式是發(fā)明先于理論，我們也應(yīng)該期待智能也是如此。

沒(méi)有任何物理定律表明摩爾定律必須繼續(xù)存在。事實(shí)上，總是存在新的實(shí)際障礙，這意味著摩爾定律的終結(jié)。然而，每隔幾年，臺(tái)積電、英特爾、AMD 等公司的研究人員就會(huì)找出解決這些問(wèn)題的方法，并為這一長(zhǎng)達(dá)數(shù)十年的趨勢(shì)注入新的活力。

您可以對(duì)計(jì)算和數(shù)據(jù)瓶頸以及智能的真實(shí)本質(zhì)和基準(zhǔn)的脆弱性進(jìn)行所有這些心理體操。或者你可以只看那該死的線。

image.png

結(jié)論

改變自我就夠了。這是我個(gè)人的看法。

如果您在過(guò)去幾年中是規(guī)模的信徒，那么我們所看到的進(jìn)步就會(huì)更有意義。有一個(gè)故事可以講述 GPT-4 的驚人性能如何通過(guò)一些永遠(yuǎn)無(wú)法概括的習(xí)語(yǔ)庫(kù)或查找表來(lái)解釋。但這是一個(gè)沒(méi)有任何懷疑論者預(yù)先登記的故事。

舉個(gè)例子——我要為懷疑論者提供的一個(gè)鋼鐵人是，LLM 尚未建立一個(gè)新的聯(lián)系，從而導(dǎo)致一個(gè)新的發(fā)現(xiàn)。如果一個(gè)愚蠢的人能像LLM 一樣記住那么多東西，他們也能做到這一點(diǎn)。老實(shí)說(shuō)，我認(rèn)為這是最令人信服的懷疑點(diǎn)之一，其他許多人也是如此。然后，幾天前，谷歌宣布其 FunSearch 設(shè)置有了新的數(shù)學(xué)發(fā)現(xiàn)8。如果您是一個(gè)懷疑論者，您可能會(huì)一次又一次地經(jīng)歷過(guò)這種經(jīng)歷。

至于信徒，像 Ilya、Dario、Gwern 等人或多或少地闡明了我們?cè)缭?12 年前就因規(guī)模擴(kuò)張而看到的緩慢起飛。

似乎很清楚，一定程度的擴(kuò)展可以讓我們實(shí)現(xiàn)變革性的人工智能——也就是說(shuō)，如果你在這些擴(kuò)展曲線上實(shí)現(xiàn)了不可減少的損失，你就創(chuàng)造了一個(gè)足夠聰明的人工智能，可以自動(dòng)化大多數(shù)認(rèn)知?jiǎng)趧?dòng)（包括使人工智能變得更聰明所需的勞動(dòng)） AI）。

但生活中的大多數(shù)事情都比理論上困難，而且許多理論上可能的事情由于某種原因變得非常困難（聚變能、飛行汽車、納米技術(shù)等）。如果自我對(duì)弈/合成數(shù)據(jù)不起作用，模型看起來(lái)就完蛋了——你永遠(yuǎn)不會(huì)接近柏拉圖式的不可約損失。此外，期望擴(kuò)展能夠繼續(xù)發(fā)揮作用的理論原因尚不清楚，而擴(kuò)展似乎能帶來(lái)更好性能的基準(zhǔn)的普遍性也存在爭(zhēng)議。

所以我的初步概率是： 70%：擴(kuò)展+算法進(jìn)步+硬件進(jìn)步將使我們?cè)?2040 年實(shí)現(xiàn) AGI。 30%：懷疑論者是對(duì)的 - LLM 和任何類似的東西都完蛋了。

我可能錯(cuò)過(guò)了一些關(guān)鍵的證據(jù)——人工智能實(shí)驗(yàn)室根本沒(méi)有發(fā)布那么多研究成果，因?yàn)槿魏侮P(guān)于“人工智能科學(xué)”的見解都會(huì)泄露與構(gòu)建通用人工智能相關(guān)的想法。我的一位朋友是這些實(shí)驗(yàn)室的研究員，他告訴我，他懷念本科時(shí)寫一堆論文的習(xí)慣——現(xiàn)在，沒(méi)有什么值得一讀的文章發(fā)表了。因此，我認(rèn)為我不知道的事情會(huì)縮短我的時(shí)間。

另外，就其價(jià)值而言，我的日常工作是播客。但那些本來(lái)可以寫出更好文章的人卻因?yàn)楸Ｃ芑驒C(jī)會(huì)成本而無(wú)法這樣做。所以讓我休息一下，讓我知道我在評(píng)論中錯(cuò)過(guò)了什么。

附錄

以下是一些額外的注意事項(xiàng)。我覺(jué)得我對(duì)這些主題的理解還不夠深入，無(wú)法充分理解它們對(duì)擴(kuò)展意味著什么。

模型會(huì)獲得基于洞察力的學(xué)習(xí)嗎？

在更大的規(guī)模上，模型自然會(huì)開發(fā)出更有效的元學(xué)習(xí)方法——只有當(dāng)你有一個(gè)大型的過(guò)度參數(shù)化模型并且超出了你訓(xùn)練它對(duì)數(shù)據(jù)嚴(yán)重過(guò)度擬合的程度時(shí)，才會(huì)發(fā)生摸索。摸索似乎與我們的學(xué)習(xí)方式非常相似。我們有如何對(duì)新信息進(jìn)行分類的直覺(jué)和心理模型。隨著時(shí)間的推移，隨著新的觀察，這些心理模型本身也會(huì)發(fā)生變化。對(duì)如此大量數(shù)據(jù)的梯度下降將選擇最通用和外推的電路。因此，我們開始摸索——最終我們將獲得基于洞察力的學(xué)習(xí)。

懷疑論者：

神經(jīng)網(wǎng)絡(luò)具有摸索功能，但這比人類實(shí)際整合新的解釋性見解的效率要低幾個(gè)數(shù)量級(jí)。你教一個(gè)孩子太陽(yáng)位于太陽(yáng)系的中心，這立即改變了他對(duì)夜空的理解。但你不能只將哥白尼的一個(gè)副本輸入到未經(jīng)任何天文學(xué)訓(xùn)練的模型中，并讓它立即將這種見解融入到所有相關(guān)的未來(lái)輸出中。奇怪的是，模型必須在如此多的不同上下文中多次聽到信息才能“理解”潛在的概念。

不僅模型從未展示過(guò)洞察學(xué)習(xí)，而且考慮到我們用梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方式，我不明白這種學(xué)習(xí)是如何可能的——我們?cè)诿總€(gè)例子中都給了它們一堆非常微妙的推動(dòng)，希望足夠多這樣的推動(dòng)會(huì)慢慢地將他們推向正確的山頂。基于洞察的學(xué)習(xí)需要立即從海平面拖放到珠穆朗瑪峰的頂部。

靈長(zhǎng)類動(dòng)物的進(jìn)化是否提供了規(guī)?；淖C據(jù)？

信徒：

我相信你會(huì)在黑猩猩的認(rèn)知中發(fā)現(xiàn)各種令人尷尬的脆弱性，它們比逆轉(zhuǎn)詛咒更可怕。這并不意味著靈長(zhǎng)類動(dòng)物大腦存在一些無(wú)法通過(guò) 3 倍縮放加上一些微調(diào)來(lái)修復(fù)的基本限制。

事實(shí)上，正如 Suzana Herculano-Houzel 所證明的那樣，人腦的神經(jīng)元數(shù)量與你所期望的具有人腦質(zhì)量的靈長(zhǎng)類動(dòng)物大腦的數(shù)量一樣多。嚙齒類動(dòng)物和食蟲動(dòng)物的大腦具有更糟糕的尺度法則——這些目中大腦相對(duì)較大的物種的神經(jīng)元數(shù)量比您僅從它們的大腦質(zhì)量中預(yù)期的要少得多。

這表明，與其他物種的大腦相比，某些靈長(zhǎng)類動(dòng)物的神經(jīng)架構(gòu)確實(shí)具有可擴(kuò)展性，類似于 Transformer 比 LSTM 和 RNN 具有更好的擴(kuò)展曲線。進(jìn)化在設(shè)計(jì)靈長(zhǎng)類大腦時(shí)吸取了（或者至少是偶然發(fā)現(xiàn)）慘痛的教訓(xùn)，而靈長(zhǎng)類動(dòng)物競(jìng)爭(zhēng)的利基環(huán)境會(huì)帶來(lái)智力的邊際增長(zhǎng)（你必須從你的雙目視覺(jué)、可對(duì)生拇指工具中理解所有這些數(shù)據(jù)—— 使用手，以及其他可以與你交談的聰明猴子）。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

大語(yǔ)音模型可以一直變大下去么？

大語(yǔ)音模型可以一直變大下去么？

我們會(huì)耗盡數(shù)據(jù)嗎？

懷疑論者：

信徒：

懷疑論者：

信徒：

懷疑論者：

信徒：

懷疑論者：

信徒：

模型了解世界嗎？

信徒：

懷疑論者：

信徒：

結(jié)論

附錄

模型會(huì)獲得基于洞察力的學(xué)習(xí)嗎？

懷疑論者：

信徒：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

大語(yǔ)音模型可以一直變大下去么？

我們會(huì)耗盡數(shù)據(jù)嗎？

懷疑論者：

信徒：

懷疑論者：

信徒：

懷疑論者：

信徒：

懷疑論者：

信徒：

模型了解世界嗎？

信徒：

懷疑論者：

信徒：

結(jié)論

附錄

模型會(huì)獲得基于洞察力的學(xué)習(xí)嗎？

懷疑論者：

信徒：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

大語(yǔ)音模型可以一直變大下去么？

我們會(huì)耗盡數(shù)據(jù)嗎？

模型了解世界嗎？

模型會(huì)獲得基于洞察力的學(xué)習(xí)嗎？