一文帶你了解爆火的Chat GPT

導(dǎo)讀

OpenAI近期發(fā)布聊天機器人模型ChatGPT,迅速出圈全網(wǎng)。它以對話方式進行交互。以更貼近人的對話方式與使用者互動,可以回答問題、承認錯誤、挑戰(zhàn)不正確的前提、拒絕不適當?shù)恼埱?。高質(zhì)量的回答、上癮式的交互體驗,圈內(nèi)外都紛紛驚呼。


為什么有如此高的評價?理論支撐是什么?背后的技術(shù)原理是什么?待解決的問題和方案有哪些?資本怎么看待這件事?本文的目標是將這些問題詳細的給大家講清楚。


1 ChatGPT是什么?

ChatGPT本質(zhì)是一個應(yīng)用在對話場景的語言模型,基于GPT3.5通過人類反饋的強化學(xué)習(xí)微調(diào)而來,能夠回答后續(xù)問題、承認錯誤、質(zhì)疑不正確的前提以及拒絕不適當?shù)恼埱蟆J紫茸屛覀兘裉斓闹鹘荂hatGPT來親自介紹自己。


1.1讓ChatGPT介紹自己

ChatGPT是什么?既然ChatGPT是語言模型,語言模型是什么?通過強化學(xué)習(xí)訓(xùn)練,強化學(xué)習(xí)又是什么?








1.2全球范圍的興起和爆發(fā)

OpenAI 11月30號發(fā)布,首先在北美、歐洲等已經(jīng)引發(fā)了熱烈的討論。隨后在國內(nèi)開始火起來。全球用戶爭相曬出自己極具創(chuàng)意的與ChatGPT交流的成果。ChatGPT在大量網(wǎng)友的瘋狂測試中表現(xiàn)出各種驚人的能力,如流暢對答、寫代碼、寫劇本、糾錯等,甚至讓記者編輯、程序員等從業(yè)者都感受到了威脅,更不乏其將取代谷歌搜索引擎之說。繼AlphaGo擊敗李世石、AI繪畫大火之后,ChatGPT成為又一新晉網(wǎng)紅。下面是谷歌全球指數(shù),我們可以看到火爆的程度。




國內(nèi)對比各大平臺,最先火起來是在微信上,通過微信指數(shù)我們可以看到,97.48%來自于公眾號,開始于科技圈,迅速拓展到投資圈等。我最先了解到ChatGPT相關(guān)信息的也是在關(guān)注的科技公眾號上,隨后看到各大公眾號出現(xiàn)關(guān)于介紹ChatGPT各種震驚體關(guān)鍵詞地震、殺瘋了、毀滅人類等。隨后各行各業(yè)都參與進來有趣的整活,問數(shù)學(xué)題,問歷史,還有寫小說,寫日報,寫代碼找BUG......




1.3背后的金主OpenAI

OpenAI是一個人工智能研究實驗室,目的是促進和發(fā)展友好的人工智能,使人類整體受益。OpenAI原是非營利機構(gòu),但為了更好地實現(xiàn)產(chǎn)研結(jié)合,2019年3月成立OpenAI LP子公司,目的為營利所用。


2019年7月微軟投資雙方將攜手合作,2020年6月宣布了GPT-3語言模型,刷新了人們對AI的認知。GPT系列語言模型讓我們不斷對通用人工智能(AGI)充滿了期待。


OpenAI目標之初就很遠大,解決通用人工智能問題,主要涉及強化學(xué)習(xí)和生成模型。


強化學(xué)習(xí)最早被認為是實現(xiàn)人類通用智能重要手段,2016年DeepMind開發(fā)的AlphaGo Zero 使用強化學(xué)習(xí)訓(xùn)練,讓人類圍棋的歷史經(jīng)驗成為了「Zero」,標志著人類向通用型的人工智能邁出了重要一步。2019年OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍。OpenAI在強化學(xué)習(xí)有很多深入的研究,Dactyl也是一款OpenAI通過強化強化學(xué)習(xí)訓(xùn)練能夠高精度操縱物體的機器人手,OpenAI Gym是一款用于研發(fā)和比較強化學(xué)習(xí)算法的工具包,所以ChatGPT中使用強化學(xué)習(xí)也是順理成章。


生成模型方面,為我們熟知的是GPT-3,這是一個強大的語言模型能夠生成人類一樣流暢的語言。DellE 2是最近很火的AI繪畫根據(jù)文本描述生成圖片。Codex是和微軟合作通過github代碼訓(xùn)練而來,可以生成代碼和Debug,已經(jīng)商業(yè)化。


作為OpenAI曾經(jīng)的創(chuàng)始人伊隆·馬斯克也發(fā)表了對ChatGPT的評價!




看看ChatGPT是怎么介紹自家公司的?




2 ChatGPT一些有趣的體驗

作為一個聊天機器人,我們體驗發(fā)現(xiàn)相比傳統(tǒng)的機器人在連貫性問答中更加流暢自然。微信上已經(jīng)有很多的小程序可以體驗,或者直接講ChatGPT接入了微信中,下面體驗一下已經(jīng)接入到企業(yè)微信的ChatGPT。


1)公司一向注重價值觀,第一道題回答對一半,公司規(guī)定應(yīng)第一時間退回,特殊情況無法退回,無論價值多少都需要進行申報,所以ChatGPT應(yīng)該入職不了我司。第二道經(jīng)典問題的回答還蠻符合公司正直的價值觀的,哈哈。


2)公司協(xié)會活動總又人放鴿子,我來問問ChatGPT這些人啥心態(tài)??吹綆兔ο氲睦碛珊头砒澴拥娜苏f的一樣,我有點懷疑他們的心態(tài)了。


3)職場工具人看看能不能通過ChatGPT代勞,可以看到文案寫作還是不錯的。回答的這個提綱有一點小問題但不影響大局。講故事編劇本也是不錯的,先幫中國足球?qū)懞脜⒓邮澜绫奈陌?,就是不知道能不能用的上了?/p>



4)身邊同事很重視娃的教育,那么從娃娃抓起先看看ChatGPT能不能帶娃學(xué)習(xí)。文化常識題回答正確,數(shù)學(xué)題這推理能力,我擔心娃考不上初中,可以用但是家長給把把關(guān)??!同時也考察了一下他腦筋急轉(zhuǎn)彎怎么樣,這個傻瓜沒答對。



5)號稱編程神器可寫代碼、修bug,考察一下Leetcode中等難度的都沒問題。雖然它自謙不會編程,但根據(jù)測試和網(wǎng)友的驗證能力確實強。



6)考察一下互聯(lián)網(wǎng)知識儲備,挑戰(zhàn)失??!如ChatGPT自己所述,他還有很多局限性比如給出看起來沒問題其實挺離譜的答案,例如回答自己公司的成果還夾雜私人感情,把競爭對手DeepMind的AlphaGo功勞都據(jù)為己有。



做一個小節(jié),其實網(wǎng)上有特別多有趣的案例,這里篇幅有限只是簡單了列舉幾個。通過體驗結(jié)合網(wǎng)友的反饋,ChatGPT的確掌握了一些知識體系和回答技巧。我們看到相比傳統(tǒng)的聊天機器人,ChatGPT在連貫性問答中更加流暢自然,什么話都能接住。除了好玩的聊天神器外還有很多實用的價值,比如解答專業(yè)概念、編程類問題、從日常郵件、寫請假條、廣告文案等等,都可以通過ChatGPT代勞??赐赀@些有趣的案例,那么ChatGPT究竟如何實現(xiàn)的,我們接下來將講解關(guān)于ChatGPT的哪些技術(shù)原理。


3 ChatGPT之前技術(shù)沿襲

ChatGPT是基于GPT3.5語言模型,人類反饋的強化學(xué)習(xí)微調(diào)而來。本節(jié)將對涉及語言模型和強化學(xué)習(xí)兩個重要技術(shù)做一個科普,已經(jīng)熟悉的可直接跳過本節(jié)。


3.1語言模型的技術(shù)演進

語言模型通俗講是判斷這句話是否通順、正確。數(shù)學(xué)函數(shù)表達為給定前N個詞,預(yù)測第N+1 個詞概率,將概率序列分解成條件概率乘積的形式,這個函數(shù)就可以實現(xiàn)語言模型去生成句子。那么是什么樣的語言模型如此強大,本小節(jié)梳理了深度學(xué)習(xí)開始的語言模型演技過程,如下圖所示:




第一次開始用神經(jīng)網(wǎng)絡(luò)做語言模型是2003年Bengio提出的NNLM的網(wǎng)絡(luò)結(jié)構(gòu),隨著圖像領(lǐng)域預(yù)訓(xùn)練的取得的突破迅速遷移到NLP領(lǐng)域,有了我們熟知的word2vec,通常做NLP任務(wù)句子中每個單詞Onehot形式輸入,使用預(yù)訓(xùn)練好的word embedding初始化網(wǎng)絡(luò)的第一層,進行下游任務(wù)。word2vec的弊端是word embedding靜態(tài)的,后續(xù)代表性工作中ELMo通過采用雙層雙向LSTM實現(xiàn)了根據(jù)當前上下文對Word Embedding動態(tài)調(diào)整。


ELMo非常明顯的缺點在特征抽取器LSTM結(jié)構(gòu)帶來的,17年Google在機器翻譯Transformer取得了效果的突破,NLP各種任務(wù)開始驗證Transformer特征提取的能力比LSTM強很多。自此NLP開啟了Transformer時代。


2018年OpenAI采用Transformer Decoder結(jié)構(gòu)在大規(guī)模語料上訓(xùn)練 GPT1模型橫掃了各項NLP任務(wù),自此邁入大規(guī)模預(yù)訓(xùn)練時代NLP任務(wù)標準的預(yù)訓(xùn)練+微調(diào)范式。由于GPT采用Decoder的單向結(jié)構(gòu)天然缺陷是無法感知上下文,Google很快提出了Encoder結(jié)構(gòu)的Bert模型可以感知上下文效果上也明顯有提升。隨后2019年OpenAI提出了GPT2,GPT2擁有和GPT1一樣的模型結(jié)構(gòu),但得益于更高的數(shù)據(jù)質(zhì)量和更大的數(shù)據(jù)規(guī)模有了驚人的生成能力。同年Google采用了Encoder-Decoder結(jié)構(gòu),提出了T5模型。從此大規(guī)模預(yù)訓(xùn)練語言模型兵分三路,開始了一系列延續(xù)的工作。


2020年OpenAI提出GPT3將GPT模型提升到全新的高度,其訓(xùn)練參數(shù)達到了1750億,自此超大模型時代開啟。技術(shù)路線上摒棄了之前預(yù)訓(xùn)練+微調(diào)的范式,通過輸入自然語言當作指示生成答案,開始了NLP任務(wù)新的范式預(yù)訓(xùn)練+提示學(xué)習(xí)。由于GPT3可以產(chǎn)生通順的句子但是準確性等問題一直存在,出現(xiàn)WebGPT、InstructGPT、ChatGPT等后續(xù)優(yōu)化的工作,實現(xiàn)了模型可以理解人類指令的含義,會甄別高水準答案,質(zhì)疑錯誤問題和拒絕不適當?shù)恼埱蟆?/p>


3.2深度強化學(xué)習(xí)技術(shù)演進

深度強化學(xué)習(xí)(deep reinforcement learning,DRL)是強化學(xué)習(xí)一個分支,基于深度學(xué)習(xí)強大的感知能力來處理復(fù)雜的、高維的環(huán)境特征,并結(jié)合強化學(xué)習(xí)的思想與環(huán)境進行交互,完成決策過程。DRL在游戲場景這種封閉、靜態(tài)和確定性環(huán)境可以達到甚至超越人類的決策水平。比較著名的事件是2017年DeepMind 根據(jù)深度學(xué)習(xí)和策略搜索的 AlphaGo 擊敗了圍棋世界冠軍李世石。2018 年OpenAI 團隊基于多智能體 DRL推出的OpenAI Five 在Dota2游戲中擊敗了人類玩家。DRL算法主要分為以下兩類:


值函數(shù)算法:值函數(shù)算法通過迭代更新值函數(shù)來間接得到智能體的策略,智能體的最優(yōu)策略通過最優(yōu)值函數(shù)得到?;谥岛瘮?shù)的DRL算法采用深度神經(jīng)網(wǎng)絡(luò)對值函數(shù)或者動作值函數(shù)進行近似,通過時間差分學(xué)習(xí)或者 Q 學(xué)習(xí)的方式分別對值函數(shù)或者動作值函數(shù)進行更新。代表性的是2015 年 DeepMind 團隊提出深度Q網(wǎng)絡(luò)(DQN),及其后的各種變種DDQN、Dueling DQN、分布式DQN等。


策略梯度算法:策略梯度算法直接采用函數(shù)近似的方法建立策略網(wǎng)絡(luò),通過策略網(wǎng)絡(luò)選取動作得到獎勵值,并沿梯度方向?qū)Σ呗跃W(wǎng)絡(luò)參數(shù)進行優(yōu)化,得到優(yōu)化的策略最大化獎勵值??梢杂脕硖幚磉B續(xù)動作。在實際應(yīng)用中流行的做法是將值函數(shù)算法和策略梯度算法結(jié)合得到的執(zhí)行器?評價器(AC)結(jié)構(gòu)。代表性工作有策略梯度算法、AC 算法以及各種變種DDPG、A3C、PPO等。ChatGPT使用的就是策略梯度算法PPO。


4 ChatGPT背后的技術(shù)原理

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語言模型通過人工反饋強化學(xué)習(xí)來微調(diào)模型,讓模型一方面學(xué)習(xí)人的指令,另一方面學(xué)習(xí)回答的好不好。


本節(jié)首先闡述ChatGPT提升的效果及背后對應(yīng)的技術(shù),然后介紹ChatGPT的整體訓(xùn)練流程,其次介紹提升涉及幾個技術(shù)細節(jié)。


4.1核心提升了什么?

ChatGPT在對話場景核心提升了以下三方面:


1)更好的理解用戶的提問,提升模型和人類意圖的一致性,同時具備連續(xù)多輪對話能力。


2)大幅提升結(jié)果的準確性,主要表現(xiàn)在回答的更加的全面,同時可以承認錯誤、發(fā)現(xiàn)無法回答的問題。


3)具備識別非法和偏見的機制,針對不合理提問提示并拒絕回答。


ChatGPT的提升主要涉及以下三方面技術(shù):


1)性能強大的預(yù)訓(xùn)練語言模型GPT3.5,使得模型具備了博學(xué)的基礎(chǔ)。


2)webGPT等工作驗證了監(jiān)督學(xué)習(xí)信號可大幅提升模型準確性。


3)InstructGPT等工作引入強化學(xué)習(xí)驗證了對齊模型和用戶意圖的能力。


4.1整體技術(shù)流程

ChatGPT的訓(xùn)練過程分為微調(diào)GPT3.5模型、訓(xùn)練回報模型、強化學(xué)習(xí)來增強微調(diào)模型三步:




第一步:微調(diào)GPT3.5模型。讓GPT 3.5在對話場景初步具備理解人類的的意圖,從用戶的prompt集合中采樣,人工標注prompt對應(yīng)的答案,然后將標注好的prompt和對應(yīng)的答案去Fine-tune GPT3.5,經(jīng)過微調(diào)的模型具備了一定理解人類意圖的能力。


第二步:訓(xùn)練回報模型。第一步微調(diào)的模型顯然不夠好,至少他不知道自己答的好不好,這一步通過人工標注數(shù)據(jù)訓(xùn)練一個回報模型,讓回報模型來幫助評估回答的好不好。具體做法是采樣用戶提交的prompt,先通過第一步微調(diào)的模型生成n個不同的答案,比如A、B、C、D。接下來人工對A、B、C、D按照相關(guān)性、有害性等標準標準并進行綜合打分。有了這個人工標準數(shù)據(jù),采取pair-wise 損失函數(shù)來訓(xùn)練回報模型RM。這一步實現(xiàn)了模型判別答案的好壞。


第三步:強化學(xué)習(xí)來增強微調(diào)模型。使用第一步微調(diào)GPT3.5模型初始化PPO模型,采樣一批和前面用戶提交prompt不同的集合,使用PPO模型生成答案,使用第二步回報模型對答案打分。通過產(chǎn)生的策略梯度去更新PPO模型。這一步利用強化學(xué)習(xí)來鼓勵PPO模型生成更符合RM模型判別高質(zhì)量的答案。


通過第二和第三步的迭代訓(xùn)練并相互促進,使得PPO模型能力越來越強。


4.3主要涉及的技術(shù)細節(jié)

4.3.1 GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進行微調(diào)的,這里對GPT-3.5在GPT3基礎(chǔ)上做的工作進行梳理,官方列舉了以下GPT-3.5系列幾個型號:


code-davinci-002是一個基礎(chǔ)模型,對于純代碼補全任務(wù)。這也是ChatGPT具備超強代碼生成能力的原因。


text-davinci-002是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型,訓(xùn)練策略是instructGPT+FeedRM。


text-davinci-003是基于text-davinci-002模型的增強版本,訓(xùn)練策略是instructGPT+PPO。


根據(jù)如下圖官方發(fā)布的模型時間線和文檔,我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來,這也是ChatGPT模型性能如此強大的核心要素。因為GPT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練,所以我們體驗ChatGPT時候同樣無法回答訓(xùn)練樣本日期之后的問題。




4.3.2監(jiān)督信號提升效果顯著

GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標準范式,GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布,用戶不具備微調(diào)的能力,官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力。Prompt方法本質(zhì)是挖掘語言模型本身具備的知識,恰當?shù)奶崾救ゼぐl(fā)語言模型的補全能力。監(jiān)督信號微調(diào)可以理解為改變了語言模型的理解能力,InstructGPT的工作可以理解為對GPT3-SFT做了數(shù)據(jù)增強提升,使得模型在理解人類指令方面更出色。但這并不影響監(jiān)督信號對最終效果的價值。


在InstructGPT的工作中,我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺、理解客戶能力上,監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強化學(xué)習(xí)對比有很大的競爭力,甚至在幻覺角度比基于強化學(xué)習(xí)的InstructGPT提升很明顯。




4.3.3人類反饋強化微調(diào)效果

ChatGPT通過人類反饋強化學(xué)習(xí)(RLHF)來讓模型理解人類的指令。人類反饋強化學(xué)習(xí)(RLHF)是DeepMind早期提出的,使用少量的人類反饋來解決現(xiàn)代RL任務(wù)。RLHF的思想在很多工作中都有體現(xiàn),例如OpenAI的webGPT、DeepMind中Sparrow等都通過人類的反饋進一步提升大模型的效果。


RLHF整個訓(xùn)練過程如下圖所示:




目標是實現(xiàn)后空翻的任務(wù),智能體Agent在環(huán)境中隨機行動,每隔一段時間,兩個行為的視頻片段給一個人,人判斷兩個視頻哪個更接近目標。通過人的反饋數(shù)據(jù),學(xué)習(xí)一個最能解釋人類判斷的獎勵模型Reward Model,然后使用RL來學(xué)習(xí)如何實現(xiàn)目標。隨著人類繼續(xù)提供模型無法判斷時候的反饋,實現(xiàn)了進一步完善它對目標的理解。智能體Agent從人類反饋中學(xué)習(xí)最終在許多環(huán)境中有時甚至是超過人類的表現(xiàn)。


4.4行動驅(qū)動的大語言模型

盡管學(xué)術(shù)界一直無法真正定義AGI,今年大型語言模型(LLM)的表現(xiàn)讓我們對通用人工智能有了期待,通過OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功,人工智能的未來應(yīng)該是行動驅(qū)動的,一個行動驅(qū)動的LLM看起來很像AGI,如下圖所示:




模型的行為就像一個智能體Agent選擇行動。在中間,我們有開箱即用的基礎(chǔ)模型LLM。用戶通過Prompt詢問模型結(jié)果。


左邊是外部可利用的資源,這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù),包括搜索、數(shù)據(jù)庫、代碼解釋器和與人聊天等,它可以增強模型的能力。


右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練,如instruction tuning、RLHF等。instruction tuning相對好實現(xiàn),RLHF需要調(diào)整PPO算法相對較難。整體上RL利用使用日志等專有數(shù)據(jù),通過創(chuàng)建強大的反饋回路,訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化。


5總結(jié)與展望

5.1技術(shù)創(chuàng)新:待解決問題和改進

ChatGPT一個問題是只能回答2021年前的問題。模型無法獲取近期的知識,將ChatGPT+webGPT結(jié)合是一個可以想到的方案。DeepMind提出的Sparrow就是一個參考,Sparrow model針對對話內(nèi)容模型生成結(jié)果并判斷是否搜索互聯(lián)網(wǎng),以提供更多的正確參考答案,用強化學(xué)習(xí)算法去優(yōu)化Sparrow的輸出結(jié)果。整體流程如下圖所示:




5.2技術(shù)應(yīng)用:能否取代搜索引擎

應(yīng)該不會取代,根據(jù)目前體驗的效果,距離搜索引擎還有很長的路要走,主要基于幾個方面。


首先ChatGPT本質(zhì)是語言模型,當前的訓(xùn)練技術(shù)模型不具備或者說很弱的推理能力,一些推理問題比如小學(xué)生問題完敗。根據(jù)當前體驗看擅長創(chuàng)作類文案,其他問題經(jīng)常出現(xiàn)一些事實錯誤情況。而搜索引擎技術(shù)的核心索引、檢索和排序是給到用戶Top相關(guān)性內(nèi)容,用戶自主多了一層推理、對比篩選、總結(jié)。


其次目前的ChatGPT不能夠回答21年之后的問題,新知識的獲取是通過增加標注數(shù)據(jù)實現(xiàn)。如果要支持獲取社會熱點新聞等,就需要改變底層技術(shù)方案。盡管這個問題WebGPT、Sparrow通過搜索引擎解決,能否替代自己就有了答案。


最后就是成本問題,ChatGPT火的原因之一就是免費體驗,之前超大模型GPT3收費模式根本沒有產(chǎn)生這么大的反響。商業(yè)化一直是大模型的痛,模型效果和模型參數(shù)成正比。搜索引擎索引、檢索、排序的成本和ChatGPT這種模型計算成本不在一個量級上。


5.3未來預(yù)期:資本市場怎么看

和負責(zé)投資和戰(zhàn)略的同學(xué)聊,近期都在討論AI。AI賽道無疑是投資界“今年最大的熱點之一”。ChatGPT和今年大火的AI繪畫都屬于泛AIGC領(lǐng)域,AIGC 是繼 PGC、UGC 后的新內(nèi)容生產(chǎn)形態(tài)。AI投資人看來,從語音、文字、圖像的內(nèi)容生成都將出現(xiàn)增長,而對話可能是其中最重要的殺手級應(yīng)用。根據(jù) Gartner 預(yù)計,到 2025 年,生成式人工智能將占所有生成數(shù)據(jù)的 10%,而當前占比小于 1%。


回顧一下OpenAI,作為AIGC頂級技術(shù)公司已經(jīng)做了不少商業(yè)化的嘗試,通過API方式來推動GPT-3的技術(shù)商業(yè)化,將GPT3作為一項付費服務(wù)來推廣。Codex也是已經(jīng)商業(yè)化的產(chǎn)品。GPT-3歷經(jīng)兩年商業(yè)化嘗試,如今并未取代記者編輯或碼農(nóng)的職業(yè)生涯,OpenAI也從中發(fā)現(xiàn),將GPT系列作為輔助生產(chǎn)力工具對商業(yè)化更為合適。此次ChatGPT采取免費試用可能是OpenAI準備繼續(xù)打磨這款產(chǎn)品,根據(jù)用戶的反饋幫助模型改進從而作出更恰當?shù)姆磻?yīng)。等產(chǎn)品打磨好可能為GPT-4商業(yè)化鋪路。


回顧國內(nèi)行業(yè)巨頭和高校科研機構(gòu)大規(guī)模預(yù)訓(xùn)練模型軍備競賽一直持續(xù)。百度發(fā)布了產(chǎn)業(yè)級知識增強大模型“文心”(參數(shù)規(guī)模達2600億),并基于“文心”模型形成了產(chǎn)業(yè)全景圖。華為聯(lián)合鵬程實驗室發(fā)布“盤古”大模型,阿里巴巴達摩院發(fā)布的中文語言模型 PLUG。智源人工智能研究院的超大規(guī)模預(yù)訓(xùn)練模型“悟道”(悟道2.0參數(shù)規(guī)模達1.75萬億)?;仡檱鴥?nèi)創(chuàng)業(yè)公司,根據(jù)睿獸分析顯示2022年以來大規(guī)模預(yù)訓(xùn)練模型賽道出現(xiàn)多筆融資,其中不乏聯(lián)想創(chuàng)投、君聯(lián)資本、啟明創(chuàng)投、創(chuàng)新工場等知名投資機構(gòu)。瀾舟科技、聆心智能、小冰等這些企業(yè)均將商業(yè)落地作為融資后的發(fā)力重點。


2022年以來 AIGC 應(yīng)用多點開花,伴隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,AIGC 有望加速發(fā)展,讓人們對通用人工智能有了更多的期待。


6參考材料

ChatGPT: Optimizing Language Models for Dialogue


Aligning Language Models to Follow Instructions


WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing


Aligning Language Models to Follow Instructions


Learning from Human Preferences


Proximal Policy Optimization


https://gpt.Chatapi.art/?


Building safer dialogue agents


https://jmcdonnell.substack.com/p/the-near-future-of-ai-is-action-driven


火爆全網(wǎng)的ChatGPT,早被資本盯上了,國內(nèi)有人剛?cè)诹?0億


關(guān)于引爆全球的ChatGPT,AI算法工程師和分析師們的看法并不相通|數(shù)智前瞻-36氪


一文看懂什么是強化學(xué)習(xí)?(基本概念+應(yīng)用場景+主流算法)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容