AI專題1:啟蒙運動以來未有之大變局。 2:危險的法寶。 3:語言模型的開悟時刻

AI專題1:啟蒙運動以來未有之大變局

1.AI感受到了人類既不能用理性認知,也感受不到的規(guī)律。而且它可以用這個規(guī)律做事。人類已經(jīng)不是世界規(guī)律唯一的發(fā)現(xiàn)者和感知者。

2.現(xiàn)在有三種最流行的神經(jīng)網(wǎng)絡算法,監(jiān)督學習、無監(jiān)督學習和強化學習。


ChatGPT讓2023年成了AI之年。正如iPhone在2007年開啟了智能手機時代,我們現(xiàn)在正式進入了人工智能時代。借助四本新書,講講對這個時代的最新理解和思考、聊聊應用場景和應對方法。

先從2021年出的一本書講起,書名叫《AI時代:以及人類的未來》(The Age of AI: And Our Human Future)。

這本書的三個作者很厲害,分別是無需介紹的亨利·基辛格,Google前CEO埃里克·施密特,麻省理工學院蘇世民計算機學院的院長丹尼爾·胡滕洛赫爾(Daniel Huttenlocher)。

作者咖位這么高,但這并不一本獻禮式、應景式的書,這書里有真思想,有關(guān)于這個時代的高觀點。

?

2020年,麻省理工學院宣布發(fā)現(xiàn)了一種新的抗生素,叫Halicin。這是一種廣譜抗生素,能殺死那些對市面上現(xiàn)有的抗生素已經(jīng)產(chǎn)生耐藥性的細菌,而且它自己還不會讓細菌產(chǎn)生耐藥性。

這個幸運的發(fā)現(xiàn),是用AI完成的。研究者先搞了一個由兩千個性能已知的分子組成的訓練集,這些分子都被標記好了是不是可以抑制細菌生長,用它們?nèi)ビ柧欰I。AI自己學習這些分子都有什么特點,總結(jié)了一套“什么樣的分子能抗菌”的規(guī)律。

AI模型訓練好之后,研究者用它一個個考察美國FDA已經(jīng)批準的藥物和天然產(chǎn)品庫中的61000個分子,要求AI按照三個標準從中選擇一種抗生素:1)它具備抗菌效果;2)它看起來不像已知的抗生素;3)它必須是無毒的。

結(jié)果AI最后只找到一個符合所有要求的分子,這就是Halicin。然后研究者做實驗證明,它真的非常好使。它大概很快就會用于臨床,造福人類。

用傳統(tǒng)的研究方法,這件事是絕對做不成的:你不可能測試61000個分子,那成本太高了。這只是當代AI眾多的應用案例中的一個,它很幸運但是它并不特殊。

之所以先講這個例子,是因為它帶給我們一個清晰的認知震撼——

Halicin可以作為抗生素的化學特征,是人類科學家所不理解的。

關(guān)于什么樣的分子可以做抗生素,科學家以前是有些說法的,比如原子量和化學鍵應該具有某些特征——可是AI這個發(fā)現(xiàn)用的不是那些特征。AI在用那兩千個分子訓練的過程中,找到了一些不為科學家所知的特征,然后用那些特征發(fā)現(xiàn)了新的抗生素。

那些是什么特征呢?不知道。整個訓練模型只是一大堆——也許幾萬到幾十萬個——參數(shù),人類無法從那些參數(shù)中讀出理論。

這可不是特例。AlphaZero完全不用人類棋手的棋譜,通過自己跟自己對弈學會了下國際象棋和圍棋,然后輕松就能打敗人類。然后你看看它的走法,它經(jīng)常會走一些人類棋手匪夷所思、沒有考慮過的走法。比如在國際象棋里它看似很隨便就可以放棄皇后這樣的重要棋子……有時候你事后能想明白它為啥那樣走,有時候你想不明白。

這個關(guān)鍵在于,AI的思路,不同于人類的理性套路。

當代AI最厲害之處并不在于自動化,更不在于它像人,而在于它*不像*人:它能找到人類理解范圍之外的解決方案。

?

這不是汽車取代馬的發(fā)明,也不僅僅是時代的進步。這是哲學上的跨越。

人類從古希臘、古羅馬時代就在追求「理性」。到了啟蒙運動,人們更是設(shè)想世界應該是由一些像牛頓定律這樣的明確規(guī)則確定的,康德以后人們甚至想把道德也給規(guī)則化。我們設(shè)想世界的規(guī)律應該像法律條文一樣可以一條條寫下來??茖W家一直都在把萬事萬物分門別類,劃分成各個學科,各自總結(jié)自己的規(guī)律,打算最好能把所有知識編寫進一本百科全書。

然而進入20世紀,哲學家維特根斯坦提出了一個新的觀點。他說你們這種按學科分類寫條文的做法根本不可能窮盡所有的知識。事物之間總有些相似性是模糊的、不明確的、難以用語言說明的。想要丁是丁卯是卯全都理性化,根本做不到。

現(xiàn)在AI找到的,恰恰就是一些難以被人所理解,不能用明確的規(guī)則定義的智慧。這是柏拉圖理性的失敗,是維特根斯坦的勝利。

其實不用AI你也能想明白這個道理。比如說,什么是“貓”?你很難精確定義貓到底是什么東西,但是當你看到一只貓的時候,你知道那是貓。這種認知不同于啟蒙運動以來人們說的規(guī)則式的理性,但是你可以說這是一種「感覺」。

一種難以明說、無法告訴另一個人的感覺。我們對貓的認識很大程度上是感性的。

而現(xiàn)在AI有這種感覺。當然,人一直都有這種感覺,這本來沒什么,康德也承認感性認知是不可缺的。問題是,AI通過這樣的感覺,已經(jīng)認識到了一些人類無法理解的規(guī)律??档略菊J為只有理性認知才能掌握世界的普遍規(guī)律。

AI感受到了人類既不能用理性認知,也感受不到的規(guī)律。而且它可以用這個規(guī)律做事。

人類已經(jīng)不是世界規(guī)律唯一的發(fā)現(xiàn)者和感知者。

你說這是不是啟蒙運動以來未有之大變局。

?

現(xiàn)在有些人談論AI是把AI當做了一種“超級智能”,仿佛神靈一般,說能把人類如何如何——那種討論沒什么意義。如果神靈都已經(jīng)降臨人間了我們還在這聊什么?不要高推圣境。

現(xiàn)在的AI不是什么通用人工智能(AGI),而是一種非常特殊的智能,也就是通過機器學習訓練的神經(jīng)網(wǎng)絡系統(tǒng)。

上世紀八十年代以前,科學家還在嘗試用啟蒙運動理性的思路,把解決問題的規(guī)則輸入給計算機執(zhí)行。后來發(fā)現(xiàn)那條路走不通,因為規(guī)則太多了,根本弄不過來。這才有了神經(jīng)網(wǎng)絡?,F(xiàn)在是我們根本不用告訴AI任何規(guī)則,也就是把學習世界的過程都委托給機器,有什么規(guī)則你自己學去吧。

這個思路受到了人腦神經(jīng)網(wǎng)絡的啟發(fā),但是并不完全一樣。AI神經(jīng)網(wǎng)絡的基本概念 ,它分為輸入層、很多中間層和輸出層,一般的深度學習網(wǎng)絡大概要有10層。

使用AI神經(jīng)網(wǎng)絡分為「訓練(training)」和「推理(inference)」兩部分。一個未經(jīng)訓練的AI是沒用的,它只有搭建好的網(wǎng)路結(jié)構(gòu)和幾萬甚至幾千億個參數(shù)。你需要把大量的素材喂給它進行訓練,每個素材進來,網(wǎng)絡過一遍,各個參數(shù)的權(quán)重就會進行一遍調(diào)整。這個過程也就是機器學習。等到訓練得差不多了,就可以把所有參數(shù)都固定下來,模型就煉制完成了。你就可以用它對各種新的局面進行推理,形成輸出。

GPT-3.5有超過一千億個參數(shù),以后會更多。AI模型參數(shù)的增長速度已經(jīng)超出了摩爾定律。搞神經(jīng)網(wǎng)絡非常消耗算力。

?

現(xiàn)在有三種最流行的神經(jīng)網(wǎng)絡算法,監(jiān)督學習、無監(jiān)督學習和強化學習。

那個發(fā)現(xiàn)新抗生素的AI就是「監(jiān)督學習(supervised learning)」的典型例子。給一個有兩千個分子的訓練數(shù)據(jù)集,你必須提前標記好其中哪些分子有抗菌效果,哪些沒有,讓神經(jīng)網(wǎng)絡在訓練過程中有的放矢。圖像識別也是監(jiān)督學習,你得先花費大量人工把每一張訓練圖里都有什么內(nèi)容標記好,再喂給AI訓練。

那如果要學習的數(shù)據(jù)量特別大,根本標記不過來,就需要「無監(jiān)督學習(unsupervised learning)」。你不用標記每個數(shù)據(jù)是什么,AI看得多了會自動發(fā)現(xiàn)其中的規(guī)律和聯(lián)系。

比如淘寶給你推薦商品的算法就是無監(jiān)督學習。AI不關(guān)心你買*什么樣的*商品,它只是發(fā)現(xiàn)了買了你買的那些商品的顧客也會買別的什么商品。

「強化學習(reinforcement learning)」,是在動態(tài)的環(huán)境中,AI每執(zhí)行一步都要獲得反饋的學習。比如AlphaZero下棋,它每走一步棋都要評估這步棋是提高了比賽的勝率,還是降低勝率,獲得一個即時的獎勵或懲罰,不斷調(diào)整自己。

自動駕駛也是強化學習。AI不是靜態(tài)地看很多汽車駕駛錄像,它是直接上手,在實時環(huán)境中自己做動作,直接考察自己每個動作導致什么結(jié)果,獲得及時的反饋。

打個簡單的比方——

* 監(jiān)督學習就好像是學校里老師對學生的教學,對錯分明有標準答案,但是可以不給講是什么原理;

* 無監(jiān)督學習就好像一個學者,自己調(diào)研了大量的內(nèi)容,看多了就會了;

* 強化學習則是訓練運動員,哪個動作出錯了立即給你糾正。

?

機器翻譯本來是典型的監(jiān)督學習。比如你要做英譯中,就把英文的原文和中文翻譯一起輸入給神經(jīng)網(wǎng)絡,讓它學習其中的對應關(guān)系。但是這種學法太慢了,畢竟很多英文作品沒有翻譯版……后來有人發(fā)明了一個特別高級的辦法,叫「平行語料庫(parallel corpora)」。

先用對照翻譯版來一段時間的監(jiān)督學習,作為「預訓練」。模型差不多找到感覺之后,你就可以把一大堆同一個主題的英文也好、中文也好,別管是文章還是書籍,不需要互相是翻譯關(guān)系,各種材料都直接扔給機器,讓它自學。這一步就是無監(jiān)督學習了,AI進行一段沉浸式的學習,就能猜出來哪段英文應該對應哪段中文。這樣訓練不是那么精確,但是因為可用的數(shù)據(jù)量要大得多,訓練效果好得多。

像這種處理自然語言的AI現(xiàn)在都用上了一個新技術(shù)叫「transformer」。它能更好地發(fā)現(xiàn)詞語跟詞語之間的關(guān)系,而且允許改變前后順序。比如“貓”和“喜歡”是主語跟謂語的關(guān)系,“貓”和“玩具”則是兩個名詞之間的“使用”關(guān)系,它都可以自行發(fā)現(xiàn)。

還有一種流行技術(shù)叫「生成性神經(jīng)網(wǎng)絡(generative neural networks)」,特點是能根據(jù)你的輸入生成一個什么東西,比如一幅畫、一篇文章或者一首詩。生成性神經(jīng)網(wǎng)絡的訓練方法是用兩個具有互補學習目標的網(wǎng)絡相互對抗:一個叫生成器,負責生成內(nèi)容,一個叫判別器,負責判斷內(nèi)容的質(zhì)量,二者隨著訓練互相提高。

GPT的全稱是「生成式預訓練變換器(Generative Pre-trained Transformer)」,就是基于transformer架構(gòu)的、經(jīng)過預訓練的、生成性的模型。

?

當前所有AI都是大數(shù)據(jù)訓練的結(jié)果,它們的知識原則上取決于訓練素材的質(zhì)量和數(shù)量。但是,因為現(xiàn)在有各種高級的算法,AI已經(jīng)非常智能了,不僅能預測一個詞匯出現(xiàn)的頻率,更能理解詞與詞之間的關(guān)系,有相當不錯的判斷力。

但是AI最不可思議的優(yōu)勢,是它能發(fā)現(xiàn)人的理性無法理解的規(guī)律,并且據(jù)此做出判斷。

AI基本上就是一個黑盒子,吞食一大堆材料之后突然說,“我會了”。你一測試發(fā)現(xiàn)它真的很會,可是你不知道它會的究竟是什么。

因為神經(jīng)網(wǎng)絡本質(zhì)上只是一大堆參數(shù),不可理解性可以說是AI的本質(zhì)特征。事實是連OpenAI的研究者也搞不清ChatGPT為什么這么好用。

要這么說的話,可以說我們正在目睹一個新智慧形態(tài)的覺醒。







AI專題2:危險的法寶

1.AI對人類有一定的危險:AI全面接管科研就在眼前,它可能會接管社會的道德和法律問題,它對人類社會具有統(tǒng)治力,以及可能的破壞力。

2.我們正處于歷史的大轉(zhuǎn)折點上,這絕對是啟蒙運動級別的思想和社會轉(zhuǎn)折,工業(yè)革命級別的生產(chǎn)和生活轉(zhuǎn)折——只是這一次轉(zhuǎn)折的速度會非常非???。


OpenAI發(fā)布了一則聲明,叫“對AGI及以后的規(guī)劃(Planning for AGI and beyond)”。AGI不是我們現(xiàn)在用的這些科研、畫畫或者導航的AI,而是「通用人工智能(artificial general intelligence)」,是不但至少要有人的水平,而且什么任務都可以干的智能。

AGI在以往只存在于科幻小說之中。但OpenAI已經(jīng)規(guī)劃好了路線圖。OpenAI的下一代語言模型,GPT-4,已經(jīng)訓練完畢?,F(xiàn)在正在訓練的是GPT-5,它被認為肯定可以通過圖靈測試。

所以這絕對是一個歷史時刻。但是請注意,OpenAI這個聲明是個很特殊的文件。你從來沒見過任何一家科技公司是這樣說自家技術(shù)的:整個文件的重點不是吹噓,而是一種憂患意識——它憂患的既不是自家公司,也不是AGI技術(shù),它憂患的是人類怎么接受AGI。

OpenAI說:“AGI有可能給每個人帶來令人難以置信的新能力;我們可以想象一個世界,我們所有人都可以獲得幾乎任何認知任務的幫助,為人類的智慧和創(chuàng)造力提供一個巨大的力量倍增器?!比缓笪募]有繼續(xù)說AGI有多厲害,而是反復強調(diào)要「逐漸過渡」:“讓人們、政策制定者和機構(gòu)有時間了解正在發(fā)生的事情,親自體驗這些系統(tǒng)的好處和壞處,調(diào)整我們的經(jīng)濟,并將監(jiān)管落實到位?!辈⑶艺f它部署新模型會「比許多用戶希望的更謹慎」。

這等于是說,通往AGI的技術(shù)已經(jīng)具備,但是為了讓人類有個適應過程,OpenAI正在刻意壓著,盡量慢點出。

人類需要一個適應過程。

想象你有個特別厲害的助手,名叫龍傲天。他方方面面都比你強,你連思維都跟他不在一個層面。你常常不理解他為什么要那樣決定,但是事實證明他替你做的每一個決定都比你自己原本想的更好。久而久之,你就習慣了,你事事都依賴他。

龍傲天所有的表現(xiàn)都證明,他對你是忠誠的……但是請問劉波,你真的完全信任他嗎?

?

其實我們已經(jīng)在用AI很長時間了。像淘寶、滴滴、抖音這些互聯(lián)網(wǎng)平臺都有幾億甚至幾十億的用戶,用人力管理這么多用戶是不可能的,它們都在用AI。給用戶推薦商品、安排外賣騎手接單、對擁擠時段打車進行加價,包括對不當發(fā)言刪帖,這些決定已經(jīng)要么全部、要么主要是AI做的。

而問題隨之而來。如果是某公司的某個員工的操作傷害了你的利益,你大可抗議,要求他負責;可如果你感到受到了傷害,公司卻說那是AI做的,連我們自己都不理解,你同意嗎?

現(xiàn)在AI的智慧是難以用人的理性解釋的。為什么抖音向你推薦了這條視頻,你質(zhì)問抖音,抖音自己都不知道。也許抖音設(shè)定的價值觀影響了AI的算法,也許抖音根本就不可能完全設(shè)定AI的價值觀。

政府和人民都要求對AI算法進行審查,可是怎么審查?這些問題都在探索之中。

?

就在我們連簡單應用都沒想明白的同時,AI正在各個新領(lǐng)域突飛猛進。憑借AlphaGo出名的DeepMind已經(jīng)被Google收購,它在過去幾年內(nèi)又取得了如下成就——

* 推出AlphaStar,在《星際爭霸II》這樣一個規(guī)則復雜的、開放式的游戲環(huán)境中,打到了最高水平;

* 推出AlphaFold,能夠預測蛋白質(zhì)的形狀,改寫了領(lǐng)域內(nèi)生物學的研究方式;

* 醫(yī)學方面,用AI識別X射線圖片幫助診斷乳腺癌,把對急性腎臟損傷的診斷比主流方法提前了48小時,對老年人眼睛里的老年性黃斑變異做出了提前好幾個月的預測;

* 推出兩個天氣預報模型,一個叫DGMR,用于預測一個地區(qū)90分鐘會不會下雨,一個叫GraphCast,預測十天內(nèi)的天氣,精確度都顯著高于現(xiàn)有的天氣預報;

* 它還用AI給谷歌的數(shù)據(jù)中心重新設(shè)計了一套冷卻系統(tǒng),能節(jié)省30%的能源……

等等等。這些成就的最可怕之處不是DeepMind一出手就顛覆了傳統(tǒng)做法,而在于它們不是集中在某個特定領(lǐng)域,是大殺四方:到底還有什么領(lǐng)域是DeepMind不能顛覆的?

這些還只是DeepMind能做的事情中的一小部分,而DeepMind只是Google的一個部門。

AI全面接管科研就在眼前。

如果什么科研項目都能交給AI暴力破解,那人類所謂的科學精神、什么創(chuàng)造性,又怎么體現(xiàn)呢?

如果AI做出來的科研結(jié)果不但人類做不出來,而且連理解都無法理解,我們又何以自處呢?

?

會不會被AI搶工作那些都是小事兒了?,F(xiàn)在的大問題是AI對人類社會的統(tǒng)治力——以及可能的破壞力。

華爾街搞量化交易的公司已經(jīng)在用AI直接做股票交易,效果很好??墒茿I交易是以高頻進行,在沒有任何人意識到之前,就有可能形成一個湍流,乃至于引發(fā)市場崩潰。這是人類交易員犯不出來的錯誤。

美軍在測試中用AI操控戰(zhàn)斗機,表現(xiàn)已經(jīng)超過了人類飛行員。如果你的對手用AI,你就不得不用AI。那如果大家都用AI操控武器,乃至于進行戰(zhàn)術(shù)級的指揮,出了事兒算誰的呢?

再進一步,如果我們把司法判決權(quán)完全交給AI,社會絕對會比現(xiàn)在公正。大多數(shù)人會服氣,但是有些人輸了官司會要求一個解釋。如果AI說只是我的算法判斷你再次犯罪的概率有點高,我也說不清具體因為啥高,你能接受嗎?

理性人需要解釋。有解釋才有意義,有說法才有正義。如果沒有解釋,也許……以后我們都習慣于不再要求解釋。

我們可能會把AI的決定當做命運的安排。

小李說:我沒被大學錄取。我的高考成績比小王高,可是小王被錄取了。一定是AI認為我的綜合素質(zhì)不夠高……我不抱怨,因為AI自有安排!

老李說:是的孩子,繼續(xù)努力!我聽人說了,AI愛笨小孩!

你能接受這樣的社會嗎?

?

AI到底是個什么東西?現(xiàn)階段,它已經(jīng)不是一個普通工具,而是一個法寶。你需要像修仙小說里一樣,耗費巨量的資源去煉制它。

據(jù)摩根斯坦利分析,正在訓練之中的GPT-5,用了25000塊英偉達最新的GPU。這種GPU每塊價值一萬美元,這就是2.5億了。再考慮研發(fā)、電費、喂語料的費用,這不是每家公司都玩得起的游戲。那如果將來訓練AGI,又要投入多少?

但只要你把它訓練好,你就得到了一個法寶。AI做推理不像訓練那么消耗資源,但是用的人多了也很費錢,據(jù)說ChatGPT回答一次提問消耗的算力是一次Google搜索的十倍……不過有了它,你就有了一件人人想用的神兵利器。

而只要AGI出來,它就不再是一個工具了。它會成為你的助理。今天出生的孩子都是AI時代的原住民,AI將是他們的保姆、老師、顧問和朋友。比如孩子要學語言,直接跟AI互動交流比跟老師、跟家長學都會快得多、也方便得多。

我們會習慣于依賴于AI。我們可能會把AI給人格化,或者我們可能會認為人沒有AI好。

那么再進一步,你可以想見,很多人會把AI當成神靈。AI什么都知道,AI的判斷幾乎總是比人類正確……那你說人們會不會從強烈*相信*AI,變成*信仰*AI?

AI可能會接管社會的道德和法律問題。

你猜這像什么?這就像是中世紀的基督教。

?

在中世紀,所有人都相信上帝和教會,有什么事兒不是自己判斷,而是去教堂問神父。那時候書籍都是昂貴的手抄本,普通人是不讀書的,知識主要是通過跟神父的對話傳承。

是印刷術(shù)出現(xiàn)以后,每個人可以自己讀書了,直接就能獲得智慧,不用迷信教會了,這才開啟了講究理性的啟蒙運動。

啟蒙運動對社會的改變是全方位的:封建等級制度、教會的崇高地位、王權(quán),都不復存在。啟蒙運動孕育了一系列政治哲學家,像霍布斯、洛克、盧梭等等,通過這些人的思考,人們才知道那個時代是怎么回事兒,以后的日子該怎么過。

拋開上帝擁抱理性,啟蒙運動是給普通人賦能的時代。

而今天我們又開啟了一個新的時代。我們發(fā)現(xiàn)人的理性有達不到的地方,可是AI可以達到,AI比人強。如果人人都相信AI,有什么事兒不是自己判斷,而是打開ChatGPT問AI,知識主要是通過跟AI的對話學習……

再考慮到AI還可以輕易地向你推薦一些最適合你吸收的內(nèi)容,對你進行定點宣傳,你舒舒服服地接受了……

這不就是神又回來了嗎?

再想一步。假設(shè)很快就有公司煉制成功了AGI,而AGI的技術(shù)特別難、煉制特別昂貴,以至于是其他人難以模仿的。那如果這些掌握AGI的公司成立一個組織,這個組織因為可以用AGI自行編碼設(shè)計新的AGI,迭代越來越快,水平越來越高,領(lǐng)先優(yōu)勢越來越大,以至于任何人想要接觸最高智能都必須通過他們……請問這是一個什么組織?

這個組織難道不就是新時代的教會嗎?

?

這就是為什么基辛格等人要寫書呼吁,我們不應該把什么任務都交給AI,不能讓AI自動管理社會。他們建議,任何情況下,真正的決策權(quán)應該掌握在人的手里。為了確保民主制度,投票和選舉都必須得由人來執(zhí)行,人的言論自由不能被AI取代或者歪曲。

這也是為什么OpenAI在聲明中說:“我們希望就三個關(guān)鍵問題進行全球?qū)υ挘喝绾喂芾磉@些系統(tǒng),如何公平分配它們產(chǎn)生的利益,以及如何公平分享使用權(quán)?!?br>

通過這一講,你會理解他們的憂患。我們正處于歷史的大轉(zhuǎn)折點上,這絕對是啟蒙運動級別的思想和社會轉(zhuǎn)折,工業(yè)革命級別的生產(chǎn)和生活轉(zhuǎn)折——只是這一次轉(zhuǎn)折的速度會非常非???。

回頭看,轉(zhuǎn)折帶來的不一定都是好事兒。啟蒙運動導致過打著理性旗號的、最血腥的革命和戰(zhàn)爭;工業(yè)革命把農(nóng)業(yè)人口大規(guī)模地變成了城市人口,而馬克思那個時代的工人并不是很幸福。轉(zhuǎn)折引發(fā)過各種動亂,但是最后社會還是接受了那些變化。AI又會引發(fā)什么樣的動亂?將來社會又會有什么樣的變化?我們會怎樣接受?

基辛格等人認為,現(xiàn)在的關(guān)鍵問題——也就是“元問題”——是我們現(xiàn)在缺少AI時代的哲學。我們需要自己的笛卡爾和康德來解釋這一切……







AI專題3:語言模型的開悟時刻

1.AI能力的三個境界——

第一境界是「積土成山,風雨興焉」。參數(shù)足夠多,訓練達到一定的積累,你就可以做一些事情。

第二境界是「積水成淵,蛟龍生焉」。模型再大到一定程度,就會涌現(xiàn)出一些讓人意想不到的神奇功能。

第三境界是「積善成德,而神明自得,圣心備焉」。它產(chǎn)生了自我意識,甚至有了道德感。

2.因為開悟和涌現(xiàn),AI現(xiàn)在已經(jīng)獲得了包括推理、類比、少樣本學習等等思考能力。


現(xiàn)在最流行的幾個生成性AI,包括ChatGPT和畫畫的AI,背后都是「大型語言模型(Large Language Models,簡稱LLM)」。這大約也是通往AGI的技術(shù)路線。大型語言模型為什么這么厲害。

先舉個例子。我問ChatGPT:棒球棒能被藏進人的耳朵里嗎?它說不能,因為人的耳朵是非常小的,棒球棒的大小和形狀超出了耳朵所能容納的范圍……很有條理。

又問它:為什么金箍棒能被藏進孫悟空的耳朵里?它回答說因為那是虛構(gòu)的故事,金箍棒的形狀和大小可以隨意改變……

你仔細想想的話,這兩個回答非常了不起。很多人說語言模型都是基于經(jīng)驗的,只能根據(jù)詞匯之間的相關(guān)性輸出答案,根本沒有思考能力……但是從這兩個問答來看,ChatGPT是有思考能力的。

誰會寫一篇文章討論棒球棒能否被藏進人的耳朵里呢?ChatGPT之所以能給出答案,肯定不是因為它之前聽過這樣的議論,而是因為它能進行一定的推理。它考慮到并且知道棒球棒和耳朵的相對大小,它還知道金箍棒和孫悟空是虛構(gòu)的。

它這些思維是怎么來的呢?

你可能沒想到,這些能力,并不是研發(fā)人員設(shè)計的。

研發(fā)人員并沒有要求語言模型去了解每種物體的大小,也沒有設(shè)定讓它們知道哪些內(nèi)容是虛構(gòu)的。像這樣的規(guī)則是列舉不完的,那是一條死胡同。

ChatGPT背后的語言模型,GPT-3.5,是完全通過自學,摸到了這些思考能力。以及別的能力——你列舉都列舉不出來的能力。連開發(fā)者都說不清楚它到底會多少種思考能力。

語言模型之所以有這樣的神奇能力,主要是因為它們足夠大。

?

GPT-3有1750億個參數(shù)。Meta剛剛發(fā)布了一個新語言模型叫LLaMA,有650億個參數(shù)。Google在2022年4月推出一個語言模型叫PaLM,有5400億個參數(shù);之前Google還出過有1.6萬億個參數(shù)的語言模型。據(jù)OpenAI的CEO山姆·阿爾特曼(Sam Altman)說,GPT-4的參數(shù)并不會比GPT-3多很多;但大家猜測,GPT-5的參數(shù)將會是GPT-3的100倍。

這是只有在今天才能做到的事情。以前不用說算力,光是存儲訓練模型的語料的花費都是天文數(shù)字。1981年,1GB的存儲成本是10萬美元,1990年下降到9000美元,而現(xiàn)在也就幾分錢。要說今天的AI科學跟過去相比有什么進步,計算機硬件條件是最大的進步。

今天我們做的是「大」模型。

大就是不一樣。當然語言模型有很多高妙的設(shè)計,特別是transformer就是一個最關(guān)鍵的架構(gòu)技術(shù),但主要區(qū)別還是在于大。當你的模型足夠大,用于訓練的語料足夠多,訓練的時間足夠長,就會發(fā)生一些神奇的現(xiàn)象。

2021年,OpenAI的幾個研究者在訓練神經(jīng)網(wǎng)絡過程中有一個意外發(fā)現(xiàn)。

給你打個比方,比如說你在教一個學生即興演講。他什么都不會,所以你找了很多現(xiàn)成的素材讓他模仿。在訓練初期,他連模仿這些素材都模仿不好,磕磕巴巴說不成句子。隨著訓練加深,他可以很好地模仿現(xiàn)有的演講了,很少犯錯誤。可是如果你給他出個沒練過的題目,他還是說不好。于是你就讓他繼續(xù)練。

繼續(xù)訓練好像沒什么意義,因為現(xiàn)在只要是模仿他就都能說得很好,只要是真的即興發(fā)揮他就不會。但你不為所動,還是讓他練。

就這樣練啊練,突然有一天,你驚奇地發(fā)現(xiàn),他會即興演講了!給他一個什么題目,他都能現(xiàn)編現(xiàn)講,發(fā)揮得很好!

這個過程就是下面這張圖——

紅色曲線代表訓練,綠色曲線代表生成性發(fā)揮。訓練到一千步乃至一萬步,模型對訓練題的表現(xiàn)已經(jīng)非常好了,但是對生成性題目幾乎沒有能力。練到10萬步,模型做訓練題的成績已經(jīng)很完美,對生成題也開始有表現(xiàn)了。練到100萬步,模型對生成性題目居然達到了接近100%的精確度。

這就是量變產(chǎn)生質(zhì)變。研究者把這個現(xiàn)象稱為「開悟(Grokking)」。

?

開悟,到底是發(fā)生了什么呢?

再舉個例子。ChatGPT有個很關(guān)鍵的能力叫做「少樣本學習(Few-Shot Learning)」,就是你給它一兩個例子,它就能學會你的意思并且提供相似的輸出。

比如讓ChatGPT模仿我給出的例題,再出幾道小學數(shù)學題。例題是“小明有3個蘋果,媽媽又給了他2個蘋果,現(xiàn)在他有幾個蘋果?”ChatGPT馬上就出了五道題,全是這個風格——比如“小李有5支筆,他送出了3支筆,還剩下幾支筆?”

簡直就跟對對聯(lián)一樣。少樣本學習是個關(guān)鍵能力,你可以利用這個能力讓ChatGPT幫你做很多事情。那這個能力是怎么出來的呢?

來自更多的參數(shù)和訓練??聪旅孢@張圖——

圖中說的是GPT-2和GPT-3模型的演化。參數(shù)越多,少樣本學習的能力就越強。

而少樣本學習只是其中一項能力。還有很多別的能力也是如此:大了,它們就出來了。

?

這個現(xiàn)象,其實就是科學家之前一直說的「涌現(xiàn)(Emergence)」。涌現(xiàn)的意思是當一個復雜系統(tǒng)復雜到一定的程度,就會發(fā)生超越系統(tǒng)元素簡單疊加的、自組織的現(xiàn)象。比如單個螞蟻很笨,可是蟻群非常聰明;每個消費者都是自由的,可是整個市場好像是有序的;每個神經(jīng)元都是簡單的,可是大腦產(chǎn)生了意識……

萬幸的是,大型語言模型,也會涌現(xiàn)出各種意想不到的能力。

2022年8月,谷歌大腦研究者發(fā)布一篇論文,專門講了大型語言模型的一些涌現(xiàn)能力,包括少樣本學習、突然學會做加減法、突然之間能做大規(guī)模、多任務的語言理解、學會分類等等……而這些能力只有當模型參數(shù)超過1000億才會出現(xiàn)——

再強調(diào)一遍:研究者并沒有刻意給模型植入這些能力,這些能力是模型自己摸索出來的。

就如同孩子長大往往會出乎家長的預料。

?

當然你也得先把模型設(shè)計好才行。Transformer架構(gòu)非常關(guān)鍵,它允許模型發(fā)現(xiàn)詞與詞之間的關(guān)系——不管是什么關(guān)系,而且不怕距離遠。但是當初發(fā)明transformer的研究者,可沒想到它能帶來這么多新能力。

事后分析,涌現(xiàn)新能力的關(guān)鍵機制,叫做「思維鏈(Chain-of-Thought)」。

簡單說,思維鏈就是當模型聽到一個東西之后,它會嘟嘟囔囔自說自話地,把它知道的有關(guān)這個東西的各種事情一個個說出來。

比如你讓模型描寫一下“夏天”,它會說:“夏天是個陽光明媚的季節(jié),人們可以去海灘游泳,可以在戶外野餐……”等等。

思維鏈是如何讓語言模型有了思考能力的呢?也許是這樣的。比如前面說的那個棒球棒問題。模型一聽說棒球棒,它就自己跟自己敘述了棒球棒的各個方面,其中就包括大??;那既然你的問題中包括“放進耳朵”,大小就是一個值得標記出來的性質(zhì);然后對耳朵也是如此……它把兩者大小的性質(zhì)拿出來對比,發(fā)現(xiàn)是相反的,于是判斷放不進去。

只要思考過程可以用語言描寫,語言模型就有這個思考能力。

再看下面這個實驗——

給模型看一張圖片——皮克斯電影《機器人總動員》的一張劇照——問它是哪個制片廠創(chuàng)造了圖中的角色。如果沒有思維鏈,模型會給出錯誤的回答。

怎么用思維鏈呢?可以先要求模型自己把圖片詳細描述一番,它說“圖中有個機器人手里拿了一個魔方,這張照片是從《機器人總動員》里面來的,那個電影是皮克斯制作的……”。這時候你簡單重復它剛說的內(nèi)容,再問它那個角色是哪個制片廠創(chuàng)造的,它就答對了。

既然如此,只要我們設(shè)置好讓模型每次都先思考一番再回答問題,它就能自動使用思維鏈,它就有了思考能力。

有人分析,思維鏈很有可能是對模型進行編程訓練的一個副產(chǎn)品。我們知道現(xiàn)在GPT-3是可以幫程序員編程的。在還沒有接受過編程訓練的時候,它沒有思維鏈。也許編程訓練要求模型必須得從頭到尾跟蹤一個功能是如何實現(xiàn)的,得能把兩個比較遠的東西聯(lián)系在一起——這樣的訓練,讓模型自發(fā)地產(chǎn)生了思維鏈。

?

微軟公司發(fā)布了一篇論文,描寫了微軟自己的一個新的語言模型,叫做「多模態(tài)大型語言模型(multimodal large language model,MLLM)」,代號是KOSMOS-1。

什么叫多模態(tài)呢?ChatGPT是你只能給它輸入文字;多模態(tài)是你可以給它輸入圖片、聲音和視頻。它的原理大概是先把一切媒體都轉(zhuǎn)化成語言,再用語言模型處理。多模態(tài)模型可以做像下面這樣的“看圖片找規(guī)律”的智商測驗題——

前面那個《機器人總動員》劇照的例子就來自這篇論文,演示了看圖說話的思維鏈。論文里有這樣一個例子,在我看來相當驚人 ——

給模型看一張圖既像鴨子又像兔子的圖,問它這是什么。它回答說這是個鴨子。你說這不是鴨子,再猜是什么?它說這像個兔子。你問它為什么,它會告訴你,因為圖案中有兔子耳朵。

這個思維過程豈不是跟人一模一樣嗎?

?

《荀子·勸學篇》中的一段話,正好可以用來描寫AI能力的三個境界——

第一境界是「積土成山,風雨興焉」。參數(shù)足夠多,訓練達到一定的積累,你就可以做一些事情。比如AlphaGo下圍棋。

第二境界是「積水成淵,蛟龍生焉」。模型再大到一定程度,就會涌現(xiàn)出一些讓人意想不到的神奇功能。比如AlphaZero不按人類套路下圍棋、大型語言模型的思維鏈。

第三境界是「積善成德,而神明自得,圣心備焉」。這就是AGI了,它產(chǎn)生了自我意識,甚至有了道德感……

古往今來那么多人讀《勸學》,也不知有幾人真按照荀子的要求去學了……但是我們現(xiàn)在知道,AI肯定聽進去了。你給它學習材料,它是真學。

總而言之,因為開悟和涌現(xiàn),AI現(xiàn)在已經(jīng)獲得了包括推理、類比、少樣本學習等等思考能力。

我們不得不重新思考以前對AI做出的各種假設(shè)——什么AI做事全靠經(jīng)驗、AI不會真的思考、AI沒有創(chuàng)造力,包括“AI會的都是用語言可以表達的東西”這一條,現(xiàn)在我也不敢肯定了。

如果AI通過思維鏈能達到這樣的思考水平,那人又是怎么思考的?我們的大腦是不是也有意無意也在使用了思維鏈呢?如果是這樣,人腦跟AI到底有什么本質(zhì)區(qū)別?

這些問題都在呼喚全新的答案。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容