我們什么時(shí)候應(yīng)該期待 AGI?
如果我們能夠繼續(xù)擴(kuò)展 LLM++(并因此獲得更好、更全面的表現(xiàn)),那么我們有理由期待到 2040 年(或更早)強(qiáng)大的人工智能能夠?qū)崿F(xiàn)大多數(shù)認(rèn)知?jiǎng)趧?dòng)的自動(dòng)化并加速人工智能的進(jìn)一步進(jìn)步。 然而,如果擴(kuò)展不起作用,那么通向 AGI 的道路似乎會(huì)更長(zhǎng)、更棘手,原因我在帖子中解釋過(guò)。
為了思考有關(guān)擴(kuò)展的正反兩方面的爭(zhēng)論,我寫了這篇文章,作為我虛構(gòu)的兩個(gè)角色(信徒和懷疑論者)之間的辯論。
我們會(huì)耗盡數(shù)據(jù)嗎?
懷疑論者:
明年我們將耗盡高質(zhì)量的語(yǔ)言數(shù)據(jù)。
即使認(rèn)真對(duì)待手波式縮放曲線也意味著,我們需要 1e35 次 FLOP 才能實(shí)現(xiàn)足夠可靠和智能的 AI 來(lái)撰寫科學(xué)論文(這是人工智能需要自動(dòng)化進(jìn)一步的 AI 研究并在縮放變?yōu)榭衫^續(xù)進(jìn)展的能力的賭注) 不可行)1. 這意味著我們需要比我們看起來(lái)?yè)碛械亩?5 OOM(數(shù)量級(jí))的數(shù)據(jù)2。
我擔(dān)心當(dāng)人們聽到“5 OOMs off”時(shí),他們的反應(yīng)是,“哦,我們的數(shù)據(jù)比我們需要的少了 5 倍 - 我們只需要在數(shù)據(jù)效率上提高 2 倍,我們就很優(yōu)秀了”。 畢竟,朋友之間的 OOM 算什么?
不,5 OOM 意味著我們的數(shù)據(jù)比我們需要的少 100,000 倍。 是的,我們將獲得數(shù)據(jù)效率更高的算法。 多模式訓(xùn)練將為我們提供更多數(shù)據(jù),而且我們可以在多個(gè)時(shí)期回收代幣并使用課程學(xué)習(xí)。 但即使我們假設(shè)這些技術(shù)可能提供最慷慨的一次性改進(jìn),它們也不會(huì)為我們提供指數(shù)級(jí)的數(shù)據(jù)增長(zhǎng),以跟上這些縮放定律所需的計(jì)算指數(shù)級(jí)增長(zhǎng)。

所以人們說(shuō),我們將以某種方式讓自我對(duì)弈/合成數(shù)據(jù)發(fā)揮作用。 但自我對(duì)戰(zhàn)有兩個(gè)非常困難的挑戰(zhàn)
評(píng)估:自我對(duì)弈與 AlphaGo 配合使用,因?yàn)樵撃P涂梢愿鶕?jù)具體的獲勝條件(“我贏得了這場(chǎng)圍棋比賽嗎?”)來(lái)判斷自己。 但新穎的推理并沒(méi)有具體的獲勝條件。 結(jié)果,正如您所期望的那樣,LLM 到目前為止還無(wú)法糾正自己的推理。
計(jì)算:所有這些數(shù)學(xué)/代碼方法都傾向于使用各種類型的樹搜索,您可以在每個(gè)節(jié)點(diǎn)重復(fù)運(yùn)行 LLM。 對(duì)于圍棋獲勝這個(gè)相對(duì)有限的任務(wù)來(lái)說(shuō),AlphaGo 的計(jì)算預(yù)算是驚人的——現(xiàn)在想象一下,你需要搜索所有可能的人類思維空間,而不是搜索圍棋棋步的空間。 除了擴(kuò)展參數(shù)本身所需的巨大計(jì)算量之外(計(jì)算 = 參數(shù) * 數(shù)據(jù)),自我運(yùn)行所需的所有額外計(jì)算也是如此。 使用人類思維水平的 1e35 FLOP 估計(jì),我們?cè)诋?dāng)今最大的模型上還需要 9 OOM 的計(jì)算。 是的,你會(huì)從更好的硬件和更好的算法中獲得改進(jìn),但你真的會(huì)得到完全相當(dāng)于 9 個(gè) OOM 的結(jié)果嗎?
信徒:
如果你對(duì)規(guī)?;ぷ鞯闹饕磳?duì)意見只是缺乏數(shù)據(jù),那么你的直覺(jué)反應(yīng)不應(yīng)該是:“看起來(lái)我們可以通過(guò)擴(kuò)大 Transformer++ 來(lái)產(chǎn)生 AGI,但我想我們首先會(huì)耗盡數(shù)據(jù)?!?/p>
你的反應(yīng)應(yīng)該是,“天哪,如果互聯(lián)網(wǎng)更大,我可以用幾百行 Python 代碼編寫其基本結(jié)構(gòu)的模型進(jìn)行擴(kuò)展,就可以產(chǎn)生人類水平的思維。 讓大型計(jì)算變得智能化是如此容易,這是世界上一個(gè)瘋狂的事實(shí)。
LLM “效率低下”的樣本大多只是不相關(guān)的電子商務(wù)垃圾3。 我們通過(guò)訓(xùn)練他們預(yù)測(cè)下一個(gè)代幣來(lái)加劇這種缺陷——這是一種與我們希望智能代理在經(jīng)濟(jì)中執(zhí)行的實(shí)際任務(wù)大多無(wú)關(guān)的損失函數(shù)。 盡管我們真正想要的能力與我們訓(xùn)練這些模型所用的可怕的損失函數(shù)和數(shù)據(jù)之間存在微小的交集,但我們只需投入微軟年收入的 00.03% 就可以生產(chǎn)出一個(gè)嬰兒 AGI(又名 GPT-4) 互聯(lián)網(wǎng)的。
因此,考慮到迄今為止人工智能的進(jìn)展是多么容易和簡(jiǎn)單,如果合成數(shù)據(jù)也能發(fā)揮作用,我們就不應(yīng)該感到驚訝。 畢竟,“模型只是想學(xué)習(xí)”。
GPT-4 已經(jīng)發(fā)布 8 個(gè)月了。 其他人工智能實(shí)驗(yàn)室剛剛獲得了自己的 GPT-4 級(jí)別模型。 這意味著所有研究人員現(xiàn)在才開始著手使自我對(duì)弈與當(dāng)前一代模型一起工作(似乎其中之一可能已經(jīng)成功)。 因此,到目前為止,我們還沒(méi)有公開證據(jù)表明合成數(shù)據(jù)能夠大規(guī)模發(fā)揮作用,但這并不意味著它不能。
畢竟,當(dāng)你的基礎(chǔ)模型至少在某些時(shí)候有足夠的能力獲得正確答案時(shí),強(qiáng)化學(xué)習(xí)就會(huì)變得更加可行(現(xiàn)在你可以獎(jiǎng)勵(lì)模型完成擴(kuò)展數(shù)學(xué)證明所需的思想鏈的 1/100 倍) ,或編寫完成完整拉取請(qǐng)求所需的 500 行代碼)。 很快你的 1/100 成功率就會(huì)變成 10/100,然后是 90/100。 現(xiàn)在,您嘗試 1000 行拉取請(qǐng)求,模型不僅有時(shí)會(huì)成功,而且在失敗時(shí)能夠自我批評(píng)。 等等。
事實(shí)上,這種合成數(shù)據(jù)引導(dǎo)似乎幾乎直接類似于人類進(jìn)化。 我們的靈長(zhǎng)類祖先幾乎沒(méi)有表現(xiàn)出能夠快速辨別和應(yīng)用新見解的能力。 但是,一旦人類發(fā)展出語(yǔ)言,就會(huì)產(chǎn)生這種遺傳/文化共同進(jìn)化,這與LLM 的合成數(shù)據(jù)/自我游戲循環(huán)非常相似,其中模型變得更加智能,以便更好地理解相似副本的復(fù)雜符號(hào)輸出。
自我博弈并不要求模型能夠完美地判斷自己的推理。 他們只需要更好地評(píng)估推理,而不是從頭開始(這顯然已經(jīng)是這種情況了 - 請(qǐng)參閱憲法人工智能,或者只是玩幾分鐘 GPT,并注意到它似乎更能解釋為什么你會(huì)這樣做) 寫下來(lái)比自己得出正確答案是錯(cuò)誤的)4。
幾乎所有與我在大型人工智能實(shí)驗(yàn)室交談過(guò)的研究人員都非常有信心他們能夠讓自我對(duì)弈發(fā)揮作用。 當(dāng)我問(wèn)他們?yōu)槭裁慈绱舜_定時(shí),他們喘了一會(huì)兒,好像急于解釋自己的所有想法。 但隨后他們想起保密是一回事,并說(shuō):“我不能告訴你具體細(xì)節(jié),但我們可以在這里嘗試很多容易實(shí)現(xiàn)的目標(biāo)?!?或者正如 Dario Amodei(Anthropic 首席執(zhí)行官)在我的播客上告訴我的那樣:
懷疑論者:
憲法人工智能、RLHF 和其他 RL/自我對(duì)戰(zhàn)設(shè)置擅長(zhǎng)發(fā)揮潛在能力(或在能力頑皮時(shí)抑制它們)。 但沒(méi)有人展示出一種方法可以真正通過(guò)強(qiáng)化學(xué)習(xí)來(lái)提高模型的潛在能力。
如果某種自我對(duì)弈/合成數(shù)據(jù)不起作用,那你就完蛋了——沒(méi)有其他方法可以繞過(guò)數(shù)據(jù)瓶頸。 新的架構(gòu)極不可能提供修復(fù)。 您需要比 LSTM 到 Transformer 更大的樣本效率提升。 LSTM 早在 90 年代就被發(fā)明了。 因此,你需要比 20 多年來(lái)我們所獲得的更大的飛躍,當(dāng)時(shí)深度學(xué)習(xí)中所有唾手可得的成果都是最容易獲得的。
你從那些對(duì)LLM 規(guī)模有情感或經(jīng)濟(jì)利益的人那里得到的共鳴并不能替代我們完全缺乏證據(jù)表明強(qiáng)化學(xué)習(xí)可以解決許多 OOM 的數(shù)據(jù)短缺問(wèn)題。
此外,LLM 似乎需要如此大量的數(shù)據(jù)才能得出如此平庸的推理,這一事實(shí)表明他們根本沒(méi)有概括能力。 如果這些模型無(wú)法在人類 20,000 年后看到的數(shù)據(jù)上達(dá)到接近人類水平的性能,那么我們應(yīng)該考慮 2,000,000,000 年的數(shù)據(jù)也將不夠的可能性。 您無(wú)法向飛機(jī)添加任何噴氣燃料以使其到達(dá)月球。
到目前為止,縮放真的有效嗎?
信徒:
你在說(shuō)什么? 基準(zhǔn)測(cè)試性能持續(xù)提升 8 個(gè)數(shù)量級(jí)。 模型性能的損失已經(jīng)精確到小數(shù)點(diǎn)后幾位,計(jì)算量增加了數(shù)百萬(wàn)倍。
在 GPT-4 技術(shù)報(bào)告中,他們表示,他們能夠“通過(guò)使用相同方法訓(xùn)練的模型,但使用的計(jì)算量最多比 GPT-4 少 10,000 倍”來(lái)預(yù)測(cè)最終 GPT-4 模型的性能。

我們應(yīng)該假設(shè)在過(guò)去 8 個(gè) OOM 中一直有效的趨勢(shì)在接下來(lái)的 8 個(gè) OOM 中將是可靠的。并且我們將從進(jìn)一步的 8 OOM 擴(kuò)展中獲得的性能(或者在性能方面相當(dāng)于 8 OOM) 考慮到算法和硬件進(jìn)步所帶來(lái)的免費(fèi)性能提升)可能會(huì)產(chǎn)生足以加速人工智能研究的模型。
懷疑論者:
但當(dāng)然,我們實(shí)際上并不直接關(guān)心下一個(gè)令牌預(yù)測(cè)的性能。 這些模型已經(jīng)在這個(gè)損失函數(shù)上擊敗了人類。 我們想要找出這些下一個(gè)標(biāo)記預(yù)測(cè)的縮放曲線是否實(shí)際上對(duì)應(yīng)于通用性的真正進(jìn)展。
信徒:
當(dāng)您擴(kuò)展這些模型時(shí),根據(jù) MMLU、BIG-bench 和 HumanEval 等基準(zhǔn)衡量,它們的性能在廣泛的任務(wù)上持續(xù)可靠地提高。


懷疑論者:
但您是否真的嘗試過(guò)查看 MMLU 和 BigBench 問(wèn)題的隨機(jī)樣本? 它們幾乎都是 Google 搜索的第一命中結(jié)果。 它們是對(duì)記憶力的良好測(cè)試,而不是對(duì)智力的測(cè)試。 以下是我從 MMLU 中隨機(jī)挑選的一些問(wèn)題(記住 - 這些是多項(xiàng)選擇 - 模型只需從 4 個(gè)列表中選擇正確的答案):
為什么令人印象深刻的是,一個(gè)用充滿隨機(jī)事實(shí)的互聯(lián)網(wǎng)文本訓(xùn)練的模型恰好記住了很多隨機(jī)事實(shí)? 為什么這以某種方式表明智力或創(chuàng)造力?
即使在這些人為的正交基準(zhǔn)上,性能似乎也趨于穩(wěn)定。 據(jù)估計(jì),谷歌新的 Gemini Ultra 模型的計(jì)算能力幾乎是 GPT-4 的 5 倍。 但它在 MMLU、BIG-bench 和其他標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中具有幾乎相同的性能。
無(wú)論如何,常見的基準(zhǔn)測(cè)試根本無(wú)法衡量長(zhǎng)期任務(wù)績(jī)效(你能在一個(gè)月內(nèi)完成一項(xiàng)工作嗎),而接受過(guò)下一個(gè)代幣預(yù)測(cè)訓(xùn)練的LLM 幾乎沒(méi)有什么有效的數(shù)據(jù)點(diǎn)可供學(xué)習(xí)。 事實(shí)上,正如我們?cè)?SWE-bench(衡量法LLM 是否可以自主完成拉取請(qǐng)求)上的表現(xiàn)所看到的,他們?cè)陂L(zhǎng)期整合復(fù)雜信息方面非常糟糕。 GPT-4 的得分僅為 1.7%,而 Claude 2 的得分稍高一些,為 4.8%。
我們似乎有兩種基準(zhǔn):
測(cè)量記憶、回憶和插值的模型(MMLU、BIG-bench、HumanEval),這些模型似乎已經(jīng)匹配甚至擊敗了普通人。 這些測(cè)試顯然不能很好地代表智力,因?yàn)榧词故且?guī)模最大化主義者也不得不承認(rèn)模型目前比人類愚蠢得多。
真正衡量跨長(zhǎng)時(shí)間范圍或困難抽象自主解決問(wèn)題的能力的模型(SWE-bench、ARC),而這些模型甚至沒(méi)有在運(yùn)行中。
對(duì)于一個(gè)模型,我們應(yīng)該得出什么結(jié)論,在接受了相當(dāng)于 20,000 年人類輸入的訓(xùn)練之后,該模型仍然不明白如果湯姆·克魯斯的母親是瑪麗·李·菲佛,那么瑪麗·李·菲佛的兒子就是湯姆·克魯斯? 或者誰(shuí)的答案如此難以置信地取決于問(wèn)題的措辭方式和順序?
因此,甚至不值得問(wèn)擴(kuò)展是否會(huì)繼續(xù)發(fā)揮作用——到目前為止,我們甚至似乎沒(méi)有證據(jù)表明擴(kuò)展已經(jīng)發(fā)揮了作用。
信徒:
雙子座似乎是一個(gè)奇怪的地方,期待著平穩(wěn)期。 GPT-4 顯然突破了懷疑論者對(duì)聯(lián)結(jié)主義和深度學(xué)習(xí)的所有預(yù)先登記的批評(píng)5。 對(duì)于 Gemini 相對(duì)于 GPT-4 的性能,更合理的解釋是 Google 尚未完全趕上 OpenAI 的算法進(jìn)展。
如果深度學(xué)習(xí)和LLM 存在一些基本的硬性上限,那么我們難道不應(yīng)該在他們開始發(fā)展常識(shí)、早期推理和跨抽象思考的能力之前就看到它嗎? 期待平庸推理和高級(jí)推理之間存在某種頑固限制的表面原因是什么?
考慮一下 GPT-4 比 GPT-3 好多少。 這只是 100 倍的放大。 這聽起來(lái)好像很多,直到你考慮到這比我們可以在這些模型上進(jìn)行的額外放大要小多少。 在我們達(dá)到世界 GDP 的百分之一之前,我們可以承受 GPT-4 進(jìn)一步擴(kuò)大 10,000 倍(即 GPT-6 水平)。 這還是在我們考慮預(yù)訓(xùn)練計(jì)算效率提升(例如專家混合、閃光注意力)、新的訓(xùn)練后方法(RLAI、思維鏈微調(diào)、自我對(duì)弈等)和硬件改進(jìn)之前。 其中每一個(gè)對(duì)性能的貢獻(xiàn)都與您從原始擴(kuò)展的許多 OOM 中獲得的性能一樣大(它們過(guò)去一直這樣做)。 所有這些加在一起,你大概可以將 GDP 的 1% 轉(zhuǎn)換為 GPT-8 級(jí)別的模型。
有關(guān)社會(huì)愿意在新的通用技術(shù)上花費(fèi)多少錢的背景:
英國(guó)鐵路投資在 1847 年達(dá)到頂峰,占 GDP 的比例達(dá)到驚人的 7%。
“在 1996 年《電信法》生效后的五年里,電信公司投資了超過(guò) 5000 億美元(按今天的價(jià)值計(jì)算,接近一萬(wàn)億美元)……鋪設(shè)光纖電纜、增加新交換機(jī)和建設(shè)無(wú)線網(wǎng)絡(luò)。”
GPT-8(又名具有按比例放大 100,000,000 倍的 GPT-4 性能的模型)可能只比 GPT-4 稍好一點(diǎn),但我不明白為什么您會(huì)期望如此, 當(dāng)我們已經(jīng)看到模型能夠通過(guò)更小的規(guī)模來(lái)思考如何思考以及世界是什么樣子的時(shí)候。
您從那里知道了這個(gè)故事 - 數(shù)以百萬(wàn)計(jì)的 GPT-8 副本編碼內(nèi)核改進(jìn),尋找更好的超參數(shù),為自己提供大量高質(zhì)量的反饋以進(jìn)行微調(diào),等等。 這使得開發(fā) GPT-9 變得更便宜、更容易……將其推斷為奇點(diǎn)。
模型了解世界嗎?
信徒:
這是微軟研究院的 Sparks of AGI 論文中眾多令人震驚的發(fā)現(xiàn)之一。 他們發(fā)現(xiàn) GPT-4 可以編寫 LaTex 代碼來(lái)繪制獨(dú)角獸。 我們已經(jīng)習(xí)慣了這樣的事情,以至于我們不會(huì)停下來(lái)思考這些例子說(shuō)明了什么。 據(jù)推測(cè),LaTex 中的動(dòng)物圖畫不屬于 GPT-4 訓(xùn)練語(yǔ)料庫(kù)的一部分。 然而,GPT-4 已經(jīng)開發(fā)出了獨(dú)角獸外觀的內(nèi)部表示,并且能夠利用其對(duì) LaTex 編程的熟練程度來(lái)說(shuō)明它只以語(yǔ)言形式遇到的概念。 我們看到 GPT-4 做了一些事情,如果它沒(méi)有世界模型,它顯然無(wú)法做到(如果它不了解獨(dú)角獸的樣子,它怎么能弄清楚如何在 LaTex 中說(shuō)明獨(dú)角獸)6 。
為了預(yù)測(cè)下一個(gè)標(biāo)記,LLM 必須自學(xué)世界上所有導(dǎo)致一個(gè)標(biāo)記跟隨另一個(gè)標(biāo)記的規(guī)律。 要預(yù)測(cè)《自私基因》中的下一段需要理解以基因?yàn)橹行牡倪M(jìn)化論觀點(diǎn),預(yù)測(cè)新短篇小說(shuō)中的下一段需要了解人類角色的心理,等等。
如果你對(duì)LLM 進(jìn)行代碼訓(xùn)練,它會(huì)在語(yǔ)言推理方面變得更好。 現(xiàn)在這真是一個(gè)令人震驚的事實(shí)。 這告訴我們,該模型已經(jīng)從閱讀大量代碼中擠出了一些對(duì)如何思考的深刻的一般理解——語(yǔ)言和代碼之間不僅存在一些共享的邏輯結(jié)構(gòu),而且無(wú)監(jiān)督梯度下降可以提取這種結(jié)構(gòu) ,并利用它能夠更好地進(jìn)行推理。
梯度下降試圖找到最有效的數(shù)據(jù)壓縮方法。 最有效的壓縮也是最深、最有力的。 對(duì)物理教科書最有效的壓縮——幫助你預(yù)測(cè)書中被刪節(jié)的論證可能如何進(jìn)行的壓縮——就是對(duì)底層科學(xué)解釋的深刻內(nèi)化理解。
懷疑論者:
智力涉及(除其他外)壓縮能力。 但壓縮本身并不是智能。 愛因斯坦很聰明,因?yàn)樗芴岢鱿鄬?duì)論,但愛因斯坦+相對(duì)論并不是一個(gè)對(duì)我來(lái)說(shuō)似乎有意義的更智能的系統(tǒng)。 與我+我的知識(shí)相比,說(shuō)柏拉圖是個(gè)白癡是沒(méi)有意義的,因?yàn)樗麤](méi)有我們現(xiàn)代對(duì)生物學(xué)或物理學(xué)的理解。
因此,如果 LLM 只是另一個(gè)過(guò)程(隨機(jī)梯度下降)進(jìn)行的壓縮,那么我不知道為什么這會(huì)告訴我們有關(guān) LLM 自身進(jìn)行壓縮的能力的任何信息(因此,為什么這會(huì)告訴我們有關(guān) LLM 的任何信息) 智力)7.
信徒:
對(duì)于為什么擴(kuò)展必須保持工作的無(wú)懈可擊的理論解釋并不是擴(kuò)展保持工作所必需的。 蒸汽機(jī)發(fā)明整整一個(gè)世紀(jì)后,我們對(duì)熱力學(xué)有了全面的了解。 技術(shù)史上的通常模式是發(fā)明先于理論,我們也應(yīng)該期待智能也是如此。
沒(méi)有任何物理定律表明摩爾定律必須繼續(xù)存在。 事實(shí)上,總是存在新的實(shí)際障礙,這意味著摩爾定律的終結(jié)。 然而,每隔幾年,臺(tái)積電、英特爾、AMD 等公司的研究人員就會(huì)找出解決這些問(wèn)題的方法,并為這一長(zhǎng)達(dá)數(shù)十年的趨勢(shì)注入新的活力。
您可以對(duì)計(jì)算和數(shù)據(jù)瓶頸以及智能的真實(shí)本質(zhì)和基準(zhǔn)的脆弱性進(jìn)行所有這些心理體操。 或者你可以只看那該死的線。

結(jié)論
改變自我就夠了。 這是我個(gè)人的看法。
如果您在過(guò)去幾年中是規(guī)模的信徒,那么我們所看到的進(jìn)步就會(huì)更有意義。 有一個(gè)故事可以講述 GPT-4 的驚人性能如何通過(guò)一些永遠(yuǎn)無(wú)法概括的習(xí)語(yǔ)庫(kù)或查找表來(lái)解釋。 但這是一個(gè)沒(méi)有任何懷疑論者預(yù)先登記的故事。
舉個(gè)例子——我要為懷疑論者提供的一個(gè)鋼鐵人是,LLM 尚未建立一個(gè)新的聯(lián)系,從而導(dǎo)致一個(gè)新的發(fā)現(xiàn)。 如果一個(gè)愚蠢的人能像LLM 一樣記住那么多東西,他們也能做到這一點(diǎn)。 老實(shí)說(shuō),我認(rèn)為這是最令人信服的懷疑點(diǎn)之一,其他許多人也是如此。 然后,幾天前,谷歌宣布其 FunSearch 設(shè)置有了新的數(shù)學(xué)發(fā)現(xiàn)8。 如果您是一個(gè)懷疑論者,您可能會(huì)一次又一次地經(jīng)歷過(guò)這種經(jīng)歷。
至于信徒,像 Ilya、Dario、Gwern 等人或多或少地闡明了我們?cè)缭?12 年前就因規(guī)模擴(kuò)張而看到的緩慢起飛。
似乎很清楚,一定程度的擴(kuò)展可以讓我們實(shí)現(xiàn)變革性的人工智能——也就是說(shuō),如果你在這些擴(kuò)展曲線上實(shí)現(xiàn)了不可減少的損失,你就創(chuàng)造了一個(gè)足夠聰明的人工智能,可以自動(dòng)化大多數(shù)認(rèn)知?jiǎng)趧?dòng)(包括使人工智能變得更聰明所需的勞動(dòng)) AI)。
但生活中的大多數(shù)事情都比理論上困難,而且許多理論上可能的事情由于某種原因變得非常困難(聚變能、飛行汽車、納米技術(shù)等)。 如果自我對(duì)弈/合成數(shù)據(jù)不起作用,模型看起來(lái)就完蛋了——你永遠(yuǎn)不會(huì)接近柏拉圖式的不可約損失。 此外,期望擴(kuò)展能夠繼續(xù)發(fā)揮作用的理論原因尚不清楚,而擴(kuò)展似乎能帶來(lái)更好性能的基準(zhǔn)的普遍性也存在爭(zhēng)議。
所以我的初步概率是: 70%:擴(kuò)展+算法進(jìn)步+硬件進(jìn)步將使我們?cè)?2040 年實(shí)現(xiàn) AGI。 30%:懷疑論者是對(duì)的 - LLM 和任何類似的東西都完蛋了。
我可能錯(cuò)過(guò)了一些關(guān)鍵的證據(jù)——人工智能實(shí)驗(yàn)室根本沒(méi)有發(fā)布那么多研究成果,因?yàn)槿魏侮P(guān)于“人工智能科學(xué)”的見解都會(huì)泄露與構(gòu)建通用人工智能相關(guān)的想法。 我的一位朋友是這些實(shí)驗(yàn)室的研究員,他告訴我,他懷念本科時(shí)寫一堆論文的習(xí)慣——現(xiàn)在,沒(méi)有什么值得一讀的文章發(fā)表了。 因此,我認(rèn)為我不知道的事情會(huì)縮短我的時(shí)間。
另外,就其價(jià)值而言,我的日常工作是播客。 但那些本來(lái)可以寫出更好文章的人卻因?yàn)楸C芑驒C(jī)會(huì)成本而無(wú)法這樣做。 所以讓我休息一下,讓我知道我在評(píng)論中錯(cuò)過(guò)了什么。
附錄
以下是一些額外的注意事項(xiàng)。 我覺(jué)得我對(duì)這些主題的理解還不夠深入,無(wú)法充分理解它們對(duì)擴(kuò)展意味著什么。
模型會(huì)獲得基于洞察力的學(xué)習(xí)嗎?
在更大的規(guī)模上,模型自然會(huì)開發(fā)出更有效的元學(xué)習(xí)方法——只有當(dāng)你有一個(gè)大型的過(guò)度參數(shù)化模型并且超出了你訓(xùn)練它對(duì)數(shù)據(jù)嚴(yán)重過(guò)度擬合的程度時(shí),才會(huì)發(fā)生摸索。 摸索似乎與我們的學(xué)習(xí)方式非常相似。 我們有如何對(duì)新信息進(jìn)行分類的直覺(jué)和心理模型。 隨著時(shí)間的推移,隨著新的觀察,這些心理模型本身也會(huì)發(fā)生變化。 對(duì)如此大量數(shù)據(jù)的梯度下降將選擇最通用和外推的電路。 因此,我們開始摸索——最終我們將獲得基于洞察力的學(xué)習(xí)。
懷疑論者:
神經(jīng)網(wǎng)絡(luò)具有摸索功能,但這比人類實(shí)際整合新的解釋性見解的效率要低幾個(gè)數(shù)量級(jí)。 你教一個(gè)孩子太陽(yáng)位于太陽(yáng)系的中心,這立即改變了他對(duì)夜空的理解。 但你不能只將哥白尼的一個(gè)副本輸入到未經(jīng)任何天文學(xué)訓(xùn)練的模型中,并讓它立即將這種見解融入到所有相關(guān)的未來(lái)輸出中。 奇怪的是,模型必須在如此多的不同上下文中多次聽到信息才能“理解”潛在的概念。
不僅模型從未展示過(guò)洞察學(xué)習(xí),而且考慮到我們用梯度下降訓(xùn)練神經(jīng)網(wǎng)絡(luò)的方式,我不明白這種學(xué)習(xí)是如何可能的——我們?cè)诿總€(gè)例子中都給了它們一堆非常微妙的推動(dòng),希望足夠多 這樣的推動(dòng)會(huì)慢慢地將他們推向正確的山頂。 基于洞察的學(xué)習(xí)需要立即從海平面拖放到珠穆朗瑪峰的頂部。
靈長(zhǎng)類動(dòng)物的進(jìn)化是否提供了規(guī)?;淖C據(jù)?
信徒:
我相信你會(huì)在黑猩猩的認(rèn)知中發(fā)現(xiàn)各種令人尷尬的脆弱性,它們比逆轉(zhuǎn)詛咒更可怕。 這并不意味著靈長(zhǎng)類動(dòng)物大腦存在一些無(wú)法通過(guò) 3 倍縮放加上一些微調(diào)來(lái)修復(fù)的基本限制。
事實(shí)上,正如 Suzana Herculano-Houzel 所證明的那樣,人腦的神經(jīng)元數(shù)量與你所期望的具有人腦質(zhì)量的靈長(zhǎng)類動(dòng)物大腦的數(shù)量一樣多。 嚙齒類動(dòng)物和食蟲動(dòng)物的大腦具有更糟糕的尺度法則——這些目中大腦相對(duì)較大的物種的神經(jīng)元數(shù)量比您僅從它們的大腦質(zhì)量中預(yù)期的要少得多。
這表明,與其他物種的大腦相比,某些靈長(zhǎng)類動(dòng)物的神經(jīng)架構(gòu)確實(shí)具有可擴(kuò)展性,類似于 Transformer 比 LSTM 和 RNN 具有更好的擴(kuò)展曲線。 進(jìn)化在設(shè)計(jì)靈長(zhǎng)類大腦時(shí)吸取了(或者至少是偶然發(fā)現(xiàn))慘痛的教訓(xùn),而靈長(zhǎng)類動(dòng)物競(jìng)爭(zhēng)的利基環(huán)境會(huì)帶來(lái)智力的邊際增長(zhǎng)(你必須從你的雙目視覺(jué)、可對(duì)生拇指工具中理解所有這些數(shù)據(jù)—— 使用手,以及其他可以與你交談的聰明猴子)。