久久AV免费在线,网站黄页4188

導(dǎo)讀

OpenAI近期發(fā)布聊天機(jī)器人模型ChatGPT，迅速出圈全網(wǎng)。它以對(duì)話方式進(jìn)行交互。以更貼近人的對(duì)話方式與使用者互動(dòng)，可以回答問(wèn)題、承認(rèn)錯(cuò)誤、挑戰(zhàn)不正確的前提、拒絕不適當(dāng)?shù)恼?qǐng)求。高質(zhì)量的回答、上癮式的交互體驗(yàn)，圈內(nèi)外都紛紛驚呼。

為什么有如此高的評(píng)價(jià)？理論支撐是什么？背后的技術(shù)原理是什么？待解決的問(wèn)題和方案有哪些？資本怎么看待這件事？本文的目標(biāo)是將這些問(wèn)題詳細(xì)的給大家講清楚。

1 ChatGPT是什么？

ChatGPT本質(zhì)是一個(gè)應(yīng)用在對(duì)話場(chǎng)景的語(yǔ)言模型，基于GPT3.5通過(guò)人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來(lái)，能夠回答后續(xù)問(wèn)題、承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提以及拒絕不適當(dāng)?shù)恼?qǐng)求。首先讓我們今天的主角ChatGPT來(lái)親自介紹自己。

1.1讓ChatGPT介紹自己

ChatGPT是什么？既然ChatGPT是語(yǔ)言模型，語(yǔ)言模型是什么？通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練，強(qiáng)化學(xué)習(xí)又是什么？

1.2全球范圍的興起和爆發(fā)

OpenAI 11月30號(hào)發(fā)布，首先在北美、歐洲等已經(jīng)引發(fā)了熱烈的討論。隨后在國(guó)內(nèi)開始火起來(lái)。全球用戶爭(zhēng)相曬出自己極具創(chuàng)意的與ChatGPT交流的成果。ChatGPT在大量網(wǎng)友的瘋狂測(cè)試中表現(xiàn)出各種驚人的能力，如流暢對(duì)答、寫代碼、寫劇本、糾錯(cuò)等，甚至讓記者編輯、程序員等從業(yè)者都感受到了威脅，更不乏其將取代谷歌搜索引擎之說(shuō)。繼AlphaGo擊敗李世石、AI繪畫大火之后，ChatGPT成為又一新晉網(wǎng)紅。下面是谷歌全球指數(shù)，我們可以看到火爆的程度。

國(guó)內(nèi)對(duì)比各大平臺(tái)，最先火起來(lái)是在微信上，通過(guò)微信指數(shù)我們可以看到，97.48%來(lái)自于公眾號(hào)，開始于科技圈，迅速拓展到投資圈等。我最先了解到ChatGPT相關(guān)信息的也是在關(guān)注的科技公眾號(hào)上，隨后看到各大公眾號(hào)出現(xiàn)關(guān)于介紹ChatGPT各種震驚體關(guān)鍵詞地震、殺瘋了、毀滅人類等。隨后各行各業(yè)都參與進(jìn)來(lái)有趣的整活，問(wèn)數(shù)學(xué)題，問(wèn)歷史，還有寫小說(shuō)，寫日?qǐng)?bào)，寫代碼找BUG......

1.3背后的金主OpenAI

OpenAI是一個(gè)人工智能研究實(shí)驗(yàn)室，目的是促進(jìn)和發(fā)展友好的人工智能，使人類整體受益。OpenAI原是非營(yíng)利機(jī)構(gòu)，但為了更好地實(shí)現(xiàn)產(chǎn)研結(jié)合，2019年3月成立OpenAI LP子公司，目的為營(yíng)利所用。

2019年7月微軟投資雙方將攜手合作，2020年6月宣布了GPT-3語(yǔ)言模型，刷新了人們對(duì)AI的認(rèn)知。GPT系列語(yǔ)言模型讓我們不斷對(duì)通用人工智能（AGI）充滿了期待。

OpenAI目標(biāo)之初就很遠(yuǎn)大，解決通用人工智能問(wèn)題，主要涉及強(qiáng)化學(xué)習(xí)和生成模型。

強(qiáng)化學(xué)習(xí)最早被認(rèn)為是實(shí)現(xiàn)人類通用智能重要手段，2016年DeepMind開發(fā)的AlphaGo Zero 使用強(qiáng)化學(xué)習(xí)訓(xùn)練，讓人類圍棋的歷史經(jīng)驗(yàn)成為了「Zero」，標(biāo)志著人類向通用型的人工智能邁出了重要一步。2019年OpenAI 在《Dota2》的比賽中戰(zhàn)勝了人類世界冠軍。OpenAI在強(qiáng)化學(xué)習(xí)有很多深入的研究，Dactyl也是一款OpenAI通過(guò)強(qiáng)化強(qiáng)化學(xué)習(xí)訓(xùn)練能夠高精度操縱物體的機(jī)器人手，OpenAI Gym是一款用于研發(fā)和比較強(qiáng)化學(xué)習(xí)算法的工具包，所以ChatGPT中使用強(qiáng)化學(xué)習(xí)也是順理成章。

生成模型方面，為我們熟知的是GPT-3，這是一個(gè)強(qiáng)大的語(yǔ)言模型能夠生成人類一樣流暢的語(yǔ)言。DellE 2是最近很火的AI繪畫根據(jù)文本描述生成圖片。Codex是和微軟合作通過(guò)github代碼訓(xùn)練而來(lái)，可以生成代碼和Debug，已經(jīng)商業(yè)化。

作為OpenAI曾經(jīng)的創(chuàng)始人伊隆·馬斯克也發(fā)表了對(duì)ChatGPT的評(píng)價(jià)！

看看ChatGPT是怎么介紹自家公司的？

2 ChatGPT一些有趣的體驗(yàn)

作為一個(gè)聊天機(jī)器人，我們體驗(yàn)發(fā)現(xiàn)相比傳統(tǒng)的機(jī)器人在連貫性問(wèn)答中更加流暢自然。微信上已經(jīng)有很多的小程序可以體驗(yàn)，或者直接講ChatGPT接入了微信中，下面體驗(yàn)一下已經(jīng)接入到企業(yè)微信的ChatGPT。

1）公司一向注重價(jià)值觀，第一道題回答對(duì)一半，公司規(guī)定應(yīng)第一時(shí)間退回，特殊情況無(wú)法退回，無(wú)論價(jià)值多少都需要進(jìn)行申報(bào)，所以ChatGPT應(yīng)該入職不了我司。第二道經(jīng)典問(wèn)題的回答還蠻符合公司正直的價(jià)值觀的，哈哈。

2）公司協(xié)會(huì)活動(dòng)總又人放鴿子，我來(lái)問(wèn)問(wèn)ChatGPT這些人啥心態(tài)。看到幫忙想的理由和放鴿子的人說(shuō)的一樣，我有點(diǎn)懷疑他們的心態(tài)了。

3）職場(chǎng)工具人看看能不能通過(guò)ChatGPT代勞，可以看到文案寫作還是不錯(cuò)的?；卮鸬倪@個(gè)提綱有一點(diǎn)小問(wèn)題但不影響大局。講故事編劇本也是不錯(cuò)的，先幫中國(guó)足球?qū)懞脜⒓邮澜绫奈陌福褪遣恢滥懿荒苡玫纳狭恕?/p>

4）身邊同事很重視娃的教育，那么從娃娃抓起先看看ChatGPT能不能帶娃學(xué)習(xí)。文化常識(shí)題回答正確，數(shù)學(xué)題這推理能力，我擔(dān)心娃考不上初中，可以用但是家長(zhǎng)給把把關(guān)??！同時(shí)也考察了一下他腦筋急轉(zhuǎn)彎怎么樣，這個(gè)傻瓜沒(méi)答對(duì)。

5）號(hào)稱編程神器可寫代碼、修bug，考察一下Leetcode中等難度的都沒(méi)問(wèn)題。雖然它自謙不會(huì)編程，但根據(jù)測(cè)試和網(wǎng)友的驗(yàn)證能力確實(shí)強(qiáng)。

6）考察一下互聯(lián)網(wǎng)知識(shí)儲(chǔ)備，挑戰(zhàn)失?。∪鏑hatGPT自己所述，他還有很多局限性比如給出看起來(lái)沒(méi)問(wèn)題其實(shí)挺離譜的答案，例如回答自己公司的成果還夾雜私人感情，把競(jìng)爭(zhēng)對(duì)手DeepMind的AlphaGo功勞都據(jù)為己有。

做一個(gè)小節(jié)，其實(shí)網(wǎng)上有特別多有趣的案例，這里篇幅有限只是簡(jiǎn)單了列舉幾個(gè)。通過(guò)體驗(yàn)結(jié)合網(wǎng)友的反饋，ChatGPT的確掌握了一些知識(shí)體系和回答技巧。我們看到相比傳統(tǒng)的聊天機(jī)器人，ChatGPT在連貫性問(wèn)答中更加流暢自然，什么話都能接住。除了好玩的聊天神器外還有很多實(shí)用的價(jià)值，比如解答專業(yè)概念、編程類問(wèn)題、從日常郵件、寫請(qǐng)假條、廣告文案等等，都可以通過(guò)ChatGPT代勞?？赐赀@些有趣的案例，那么ChatGPT究竟如何實(shí)現(xiàn)的，我們接下來(lái)將講解關(guān)于ChatGPT的哪些技術(shù)原理。

3 ChatGPT之前技術(shù)沿襲

ChatGPT是基于GPT3.5語(yǔ)言模型，人類反饋的強(qiáng)化學(xué)習(xí)微調(diào)而來(lái)。本節(jié)將對(duì)涉及語(yǔ)言模型和強(qiáng)化學(xué)習(xí)兩個(gè)重要技術(shù)做一個(gè)科普，已經(jīng)熟悉的可直接跳過(guò)本節(jié)。

3.1語(yǔ)言模型的技術(shù)演進(jìn)

語(yǔ)言模型通俗講是判斷這句話是否通順、正確。數(shù)學(xué)函數(shù)表達(dá)為給定前N個(gè)詞，預(yù)測(cè)第N+1 個(gè)詞概率，將概率序列分解成條件概率乘積的形式，這個(gè)函數(shù)就可以實(shí)現(xiàn)語(yǔ)言模型去生成句子。那么是什么樣的語(yǔ)言模型如此強(qiáng)大，本小節(jié)梳理了深度學(xué)習(xí)開始的語(yǔ)言模型演技過(guò)程，如下圖所示：

第一次開始用神經(jīng)網(wǎng)絡(luò)做語(yǔ)言模型是2003年Bengio提出的NNLM的網(wǎng)絡(luò)結(jié)構(gòu)，隨著圖像領(lǐng)域預(yù)訓(xùn)練的取得的突破迅速遷移到NLP領(lǐng)域，有了我們熟知的word2vec，通常做NLP任務(wù)句子中每個(gè)單詞Onehot形式輸入，使用預(yù)訓(xùn)練好的word embedding初始化網(wǎng)絡(luò)的第一層，進(jìn)行下游任務(wù)。word2vec的弊端是word embedding靜態(tài)的，后續(xù)代表性工作中ELMo通過(guò)采用雙層雙向LSTM實(shí)現(xiàn)了根據(jù)當(dāng)前上下文對(duì)Word Embedding動(dòng)態(tài)調(diào)整。

ELMo非常明顯的缺點(diǎn)在特征抽取器LSTM結(jié)構(gòu)帶來(lái)的，17年Google在機(jī)器翻譯Transformer取得了效果的突破，NLP各種任務(wù)開始驗(yàn)證Transformer特征提取的能力比LSTM強(qiáng)很多。自此NLP開啟了Transformer時(shí)代。

2018年OpenAI采用Transformer Decoder結(jié)構(gòu)在大規(guī)模語(yǔ)料上訓(xùn)練 GPT1模型橫掃了各項(xiàng)NLP任務(wù)，自此邁入大規(guī)模預(yù)訓(xùn)練時(shí)代NLP任務(wù)標(biāo)準(zhǔn)的預(yù)訓(xùn)練+微調(diào)范式。由于GPT采用Decoder的單向結(jié)構(gòu)天然缺陷是無(wú)法感知上下文，Google很快提出了Encoder結(jié)構(gòu)的Bert模型可以感知上下文效果上也明顯有提升。隨后2019年OpenAI提出了GPT2，GPT2擁有和GPT1一樣的模型結(jié)構(gòu)，但得益于更高的數(shù)據(jù)質(zhì)量和更大的數(shù)據(jù)規(guī)模有了驚人的生成能力。同年Google采用了Encoder-Decoder結(jié)構(gòu)，提出了T5模型。從此大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型兵分三路，開始了一系列延續(xù)的工作。

2020年OpenAI提出GPT3將GPT模型提升到全新的高度，其訓(xùn)練參數(shù)達(dá)到了1750億，自此超大模型時(shí)代開啟。技術(shù)路線上摒棄了之前預(yù)訓(xùn)練+微調(diào)的范式，通過(guò)輸入自然語(yǔ)言當(dāng)作指示生成答案，開始了NLP任務(wù)新的范式預(yù)訓(xùn)練+提示學(xué)習(xí)。由于GPT3可以產(chǎn)生通順的句子但是準(zhǔn)確性等問(wèn)題一直存在，出現(xiàn)WebGPT、InstructGPT、ChatGPT等后續(xù)優(yōu)化的工作，實(shí)現(xiàn)了模型可以理解人類指令的含義，會(huì)甄別高水準(zhǔn)答案，質(zhì)疑錯(cuò)誤問(wèn)題和拒絕不適當(dāng)?shù)恼?qǐng)求。

3.2深度強(qiáng)化學(xué)習(xí)技術(shù)演進(jìn)

深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）是強(qiáng)化學(xué)習(xí)一個(gè)分支，基于深度學(xué)習(xí)強(qiáng)大的感知能力來(lái)處理復(fù)雜的、高維的環(huán)境特征，并結(jié)合強(qiáng)化學(xué)習(xí)的思想與環(huán)境進(jìn)行交互，完成決策過(guò)程。DRL在游戲場(chǎng)景這種封閉、靜態(tài)和確定性環(huán)境可以達(dá)到甚至超越人類的決策水平。比較著名的事件是2017年DeepMind 根據(jù)深度學(xué)習(xí)和策略搜索的 AlphaGo 擊敗了圍棋世界冠軍李世石。2018 年OpenAI 團(tuán)隊(duì)基于多智能體 DRL推出的OpenAI Five 在Dota2游戲中擊敗了人類玩家。DRL算法主要分為以下兩類：

值函數(shù)算法：值函數(shù)算法通過(guò)迭代更新值函數(shù)來(lái)間接得到智能體的策略，智能體的最優(yōu)策略通過(guò)最優(yōu)值函數(shù)得到?；谥岛瘮?shù)的DRL算法采用深度神經(jīng)網(wǎng)絡(luò)對(duì)值函數(shù)或者動(dòng)作值函數(shù)進(jìn)行近似，通過(guò)時(shí)間差分學(xué)習(xí)或者 Q 學(xué)習(xí)的方式分別對(duì)值函數(shù)或者動(dòng)作值函數(shù)進(jìn)行更新。代表性的是2015 年 DeepMind 團(tuán)隊(duì)提出深度Q網(wǎng)絡(luò)（DQN），及其后的各種變種DDQN、Dueling DQN、分布式DQN等。

策略梯度算法：策略梯度算法直接采用函數(shù)近似的方法建立策略網(wǎng)絡(luò)，通過(guò)策略網(wǎng)絡(luò)選取動(dòng)作得到獎(jiǎng)勵(lì)值，并沿梯度方向?qū)Σ呗跃W(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化，得到優(yōu)化的策略最大化獎(jiǎng)勵(lì)值?？梢杂脕?lái)處理連續(xù)動(dòng)作。在實(shí)際應(yīng)用中流行的做法是將值函數(shù)算法和策略梯度算法結(jié)合得到的執(zhí)行器?評(píng)價(jià)器（AC）結(jié)構(gòu)。代表性工作有策略梯度算法、AC 算法以及各種變種DDPG、A3C、PPO等。ChatGPT使用的就是策略梯度算法PPO。

4 ChatGPT背后的技術(shù)原理

ChatGPT整體技術(shù)方案是基于 GPT-3.5 大規(guī)模語(yǔ)言模型通過(guò)人工反饋強(qiáng)化學(xué)習(xí)來(lái)微調(diào)模型，讓模型一方面學(xué)習(xí)人的指令，另一方面學(xué)習(xí)回答的好不好。

本節(jié)首先闡述ChatGPT提升的效果及背后對(duì)應(yīng)的技術(shù)，然后介紹ChatGPT的整體訓(xùn)練流程，其次介紹提升涉及幾個(gè)技術(shù)細(xì)節(jié)。

4.1核心提升了什么？

ChatGPT在對(duì)話場(chǎng)景核心提升了以下三方面：

1）更好的理解用戶的提問(wèn)，提升模型和人類意圖的一致性，同時(shí)具備連續(xù)多輪對(duì)話能力。

2）大幅提升結(jié)果的準(zhǔn)確性，主要表現(xiàn)在回答的更加的全面，同時(shí)可以承認(rèn)錯(cuò)誤、發(fā)現(xiàn)無(wú)法回答的問(wèn)題。

3）具備識(shí)別非法和偏見的機(jī)制，針對(duì)不合理提問(wèn)提示并拒絕回答。

ChatGPT的提升主要涉及以下三方面技術(shù)：

1）性能強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型GPT3.5，使得模型具備了博學(xué)的基礎(chǔ)。

2）webGPT等工作驗(yàn)證了監(jiān)督學(xué)習(xí)信號(hào)可大幅提升模型準(zhǔn)確性。

3）InstructGPT等工作引入強(qiáng)化學(xué)習(xí)驗(yàn)證了對(duì)齊模型和用戶意圖的能力。

4.1整體技術(shù)流程

ChatGPT的訓(xùn)練過(guò)程分為微調(diào)GPT3.5模型、訓(xùn)練回報(bào)模型、強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)微調(diào)模型三步：

第一步：微調(diào)GPT3.5模型。讓GPT 3.5在對(duì)話場(chǎng)景初步具備理解人類的的意圖，從用戶的prompt集合中采樣，人工標(biāo)注prompt對(duì)應(yīng)的答案，然后將標(biāo)注好的prompt和對(duì)應(yīng)的答案去Fine-tune GPT3.5，經(jīng)過(guò)微調(diào)的模型具備了一定理解人類意圖的能力。

第二步：訓(xùn)練回報(bào)模型。第一步微調(diào)的模型顯然不夠好，至少他不知道自己答的好不好，這一步通過(guò)人工標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)回報(bào)模型，讓回報(bào)模型來(lái)幫助評(píng)估回答的好不好。具體做法是采樣用戶提交的prompt，先通過(guò)第一步微調(diào)的模型生成n個(gè)不同的答案，比如A、B、C、D。接下來(lái)人工對(duì)A、B、C、D按照相關(guān)性、有害性等標(biāo)準(zhǔn)標(biāo)準(zhǔn)并進(jìn)行綜合打分。有了這個(gè)人工標(biāo)準(zhǔn)數(shù)據(jù)，采取pair-wise 損失函數(shù)來(lái)訓(xùn)練回報(bào)模型RM。這一步實(shí)現(xiàn)了模型判別答案的好壞。

第三步：強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)微調(diào)模型。使用第一步微調(diào)GPT3.5模型初始化PPO模型，采樣一批和前面用戶提交prompt不同的集合，使用PPO模型生成答案，使用第二步回報(bào)模型對(duì)答案打分。通過(guò)產(chǎn)生的策略梯度去更新PPO模型。這一步利用強(qiáng)化學(xué)習(xí)來(lái)鼓勵(lì)PPO模型生成更符合RM模型判別高質(zhì)量的答案。

通過(guò)第二和第三步的迭代訓(xùn)練并相互促進(jìn)，使得PPO模型能力越來(lái)越強(qiáng)。

4.3主要涉及的技術(shù)細(xì)節(jié)

4.3.1 GPT3.5理解能力提升

ChatGPT是在GPT3.5模型技術(shù)上進(jìn)行微調(diào)的，這里對(duì)GPT-3.5在GPT3基礎(chǔ)上做的工作進(jìn)行梳理，官方列舉了以下GPT-3.5系列幾個(gè)型號(hào)：

code-davinci-002是一個(gè)基礎(chǔ)模型,對(duì)于純代碼補(bǔ)全任務(wù)。這也是ChatGPT具備超強(qiáng)代碼生成能力的原因。

text-davinci-002是在code-davinci-002基礎(chǔ)上訓(xùn)練的InstructGPT模型，訓(xùn)練策略是instructGPT+FeedRM。

text-davinci-003是基于text-davinci-002模型的增強(qiáng)版本，訓(xùn)練策略是instructGPT+PPO。

根據(jù)如下圖官方發(fā)布的模型時(shí)間線和文檔，我們可以了解到ChatGPT是在text-davinci-003 基礎(chǔ)上微調(diào)而來(lái)，這也是ChatGPT模型性能如此強(qiáng)大的核心要素。因?yàn)镚PT-3.5系列模型是在2021年第四季度之前的文本和代碼樣本上訓(xùn)練，所以我們體驗(yàn)ChatGPT時(shí)候同樣無(wú)法回答訓(xùn)練樣本日期之后的問(wèn)題。

4.3.2監(jiān)督信號(hào)提升效果顯著

GPT3之前在預(yù)訓(xùn)練+微調(diào)已經(jīng)是NLP任務(wù)中標(biāo)準(zhǔn)范式，GPT3模型的訓(xùn)練是純自監(jiān)督學(xué)習(xí)并以API的形式發(fā)布，用戶不具備微調(diào)的能力，官方也是主打預(yù)訓(xùn)練+提示學(xué)習(xí)的能力。Prompt方法本質(zhì)是挖掘語(yǔ)言模型本身具備的知識(shí)，恰當(dāng)?shù)奶崾救ゼぐl(fā)語(yǔ)言模型的補(bǔ)全能力。監(jiān)督信號(hào)微調(diào)可以理解為改變了語(yǔ)言模型的理解能力，InstructGPT的工作可以理解為對(duì)GPT3-SFT做了數(shù)據(jù)增強(qiáng)提升，使得模型在理解人類指令方面更出色。但這并不影響監(jiān)督信號(hào)對(duì)最終效果的價(jià)值。

在InstructGPT的工作中，我們可以看到GPT3-SFT和InstructGPT在毒性、幻覺、理解客戶能力上，監(jiān)督學(xué)習(xí)微調(diào)已經(jīng)和強(qiáng)化學(xué)習(xí)對(duì)比有很大的競(jìng)爭(zhēng)力，甚至在幻覺角度比基于強(qiáng)化學(xué)習(xí)的InstructGPT提升很明顯。

4.3.3人類反饋強(qiáng)化微調(diào)效果

ChatGPT通過(guò)人類反饋強(qiáng)化學(xué)習(xí)（RLHF）來(lái)讓模型理解人類的指令。人類反饋強(qiáng)化學(xué)習(xí)（RLHF）是DeepMind早期提出的，使用少量的人類反饋來(lái)解決現(xiàn)代RL任務(wù)。RLHF的思想在很多工作中都有體現(xiàn)，例如OpenAI的webGPT、DeepMind中Sparrow等都通過(guò)人類的反饋進(jìn)一步提升大模型的效果。

RLHF整個(gè)訓(xùn)練過(guò)程如下圖所示：

目標(biāo)是實(shí)現(xiàn)后空翻的任務(wù)，智能體Agent在環(huán)境中隨機(jī)行動(dòng)，每隔一段時(shí)間，兩個(gè)行為的視頻片段給一個(gè)人，人判斷兩個(gè)視頻哪個(gè)更接近目標(biāo)。通過(guò)人的反饋數(shù)據(jù)，學(xué)習(xí)一個(gè)最能解釋人類判斷的獎(jiǎng)勵(lì)模型Reward Model，然后使用RL來(lái)學(xué)習(xí)如何實(shí)現(xiàn)目標(biāo)。隨著人類繼續(xù)提供模型無(wú)法判斷時(shí)候的反饋，實(shí)現(xiàn)了進(jìn)一步完善它對(duì)目標(biāo)的理解。智能體Agent從人類反饋中學(xué)習(xí)最終在許多環(huán)境中有時(shí)甚至是超過(guò)人類的表現(xiàn)。

4.4行動(dòng)驅(qū)動(dòng)的大語(yǔ)言模型

盡管學(xué)術(shù)界一直無(wú)法真正定義AGI，今年大型語(yǔ)言模型（LLM）的表現(xiàn)讓我們對(duì)通用人工智能有了期待，通過(guò)OpenAI的ChatGPT、Google的PaLM、DeepMind的Sparrow取得的成功，人工智能的未來(lái)應(yīng)該是行動(dòng)驅(qū)動(dòng)的，一個(gè)行動(dòng)驅(qū)動(dòng)的LLM看起來(lái)很像AGI，如下圖所示:

模型的行為就像一個(gè)智能體Agent選擇行動(dòng)。在中間，我們有開箱即用的基礎(chǔ)模型LLM。用戶通過(guò)Prompt詢問(wèn)模型結(jié)果。

左邊是外部可利用的資源，這些可以是任何將文本作為輸入并提供文本作為輸出的函數(shù)，包括搜索、數(shù)據(jù)庫(kù)、代碼解釋器和與人聊天等，它可以增強(qiáng)模型的能力。

右邊是我們有任務(wù)導(dǎo)向的訓(xùn)練，如instruction tuning、RLHF等。instruction tuning相對(duì)好實(shí)現(xiàn)，RLHF需要調(diào)整PPO算法相對(duì)較難。整體上RL利用使用日志等專有數(shù)據(jù)，通過(guò)創(chuàng)建強(qiáng)大的反饋回路，訓(xùn)練模型使其更加符合任務(wù)需求并迭代優(yōu)化。

5總結(jié)與展望

5.1技術(shù)創(chuàng)新：待解決問(wèn)題和改進(jìn)

ChatGPT一個(gè)問(wèn)題是只能回答2021年前的問(wèn)題。模型無(wú)法獲取近期的知識(shí)，將ChatGPT+webGPT結(jié)合是一個(gè)可以想到的方案。DeepMind提出的Sparrow就是一個(gè)參考，Sparrow model針對(duì)對(duì)話內(nèi)容模型生成結(jié)果并判斷是否搜索互聯(lián)網(wǎng),以提供更多的正確參考答案，用強(qiáng)化學(xué)習(xí)算法去優(yōu)化Sparrow的輸出結(jié)果。整體流程如下圖所示：

5.2技術(shù)應(yīng)用：能否取代搜索引擎

應(yīng)該不會(huì)取代，根據(jù)目前體驗(yàn)的效果，距離搜索引擎還有很長(zhǎng)的路要走，主要基于幾個(gè)方面。

首先ChatGPT本質(zhì)是語(yǔ)言模型，當(dāng)前的訓(xùn)練技術(shù)模型不具備或者說(shuō)很弱的推理能力，一些推理問(wèn)題比如小學(xué)生問(wèn)題完敗。根據(jù)當(dāng)前體驗(yàn)看擅長(zhǎng)創(chuàng)作類文案，其他問(wèn)題經(jīng)常出現(xiàn)一些事實(shí)錯(cuò)誤情況。而搜索引擎技術(shù)的核心索引、檢索和排序是給到用戶Top相關(guān)性內(nèi)容，用戶自主多了一層推理、對(duì)比篩選、總結(jié)。

其次目前的ChatGPT不能夠回答21年之后的問(wèn)題，新知識(shí)的獲取是通過(guò)增加標(biāo)注數(shù)據(jù)實(shí)現(xiàn)。如果要支持獲取社會(huì)熱點(diǎn)新聞等，就需要改變底層技術(shù)方案。盡管這個(gè)問(wèn)題WebGPT、Sparrow通過(guò)搜索引擎解決，能否替代自己就有了答案。

最后就是成本問(wèn)題，ChatGPT火的原因之一就是免費(fèi)體驗(yàn)，之前超大模型GPT3收費(fèi)模式根本沒(méi)有產(chǎn)生這么大的反響。商業(yè)化一直是大模型的痛，模型效果和模型參數(shù)成正比。搜索引擎索引、檢索、排序的成本和ChatGPT這種模型計(jì)算成本不在一個(gè)量級(jí)上。

5.3未來(lái)預(yù)期：資本市場(chǎng)怎么看

和負(fù)責(zé)投資和戰(zhàn)略的同學(xué)聊，近期都在討論AI。AI賽道無(wú)疑是投資界“今年最大的熱點(diǎn)之一”。ChatGPT和今年大火的AI繪畫都屬于泛AIGC領(lǐng)域，AIGC 是繼 PGC、UGC 后的新內(nèi)容生產(chǎn)形態(tài)。AI投資人看來(lái)，從語(yǔ)音、文字、圖像的內(nèi)容生成都將出現(xiàn)增長(zhǎng)，而對(duì)話可能是其中最重要的殺手級(jí)應(yīng)用。根據(jù) Gartner 預(yù)計(jì)，到 2025 年，生成式人工智能將占所有生成數(shù)據(jù)的 10%，而當(dāng)前占比小于 1%。

回顧一下OpenAI，作為AIGC頂級(jí)技術(shù)公司已經(jīng)做了不少商業(yè)化的嘗試，通過(guò)API方式來(lái)推動(dòng)GPT-3的技術(shù)商業(yè)化，將GPT3作為一項(xiàng)付費(fèi)服務(wù)來(lái)推廣。Codex也是已經(jīng)商業(yè)化的產(chǎn)品。GPT-3歷經(jīng)兩年商業(yè)化嘗試，如今并未取代記者編輯或碼農(nóng)的職業(yè)生涯，OpenAI也從中發(fā)現(xiàn)，將GPT系列作為輔助生產(chǎn)力工具對(duì)商業(yè)化更為合適。此次ChatGPT采取免費(fèi)試用可能是OpenAI準(zhǔn)備繼續(xù)打磨這款產(chǎn)品，根據(jù)用戶的反饋幫助模型改進(jìn)從而作出更恰當(dāng)?shù)姆磻?yīng)。等產(chǎn)品打磨好可能為GPT-4商業(yè)化鋪路。

回顧國(guó)內(nèi)行業(yè)巨頭和高?？蒲袡C(jī)構(gòu)大規(guī)模預(yù)訓(xùn)練模型軍備競(jìng)賽一直持續(xù)。百度發(fā)布了產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型“文心”（參數(shù)規(guī)模達(dá)2600億），并基于“文心”模型形成了產(chǎn)業(yè)全景圖。華為聯(lián)合鵬程實(shí)驗(yàn)室發(fā)布“盤古”大模型，阿里巴巴達(dá)摩院發(fā)布的中文語(yǔ)言模型 PLUG。智源人工智能研究院的超大規(guī)模預(yù)訓(xùn)練模型“悟道”（悟道2.0參數(shù)規(guī)模達(dá)1.75萬(wàn)億）?；仡檱?guó)內(nèi)創(chuàng)業(yè)公司，根據(jù)睿獸分析顯示2022年以來(lái)大規(guī)模預(yù)訓(xùn)練模型賽道出現(xiàn)多筆融資，其中不乏聯(lián)想創(chuàng)投、君聯(lián)資本、啟明創(chuàng)投、創(chuàng)新工場(chǎng)等知名投資機(jī)構(gòu)。瀾舟科技、聆心智能、小冰等這些企業(yè)均將商業(yè)落地作為融資后的發(fā)力重點(diǎn)。

2022年以來(lái) AIGC 應(yīng)用多點(diǎn)開花，伴隨著深度學(xué)習(xí)模型不斷完善、開源模式的推動(dòng)、大模型探索商業(yè)化的可能，AIGC 有望加速發(fā)展，讓人們對(duì)通用人工智能有了更多的期待。

6參考材料

ChatGPT: Optimizing Language Models for Dialogue

Aligning Language Models to Follow Instructions

WebGPT: Improving the Factual Accuracy of Language Models through Web Browsing

Aligning Language Models to Follow Instructions

Learning from Human Preferences

Proximal Policy Optimization

https://gpt.Chatapi.art/?

Building safer dialogue agents

https://jmcdonnell.substack.com/p/the-near-future-of-ai-is-action-driven

火爆全網(wǎng)的ChatGPT，早被資本盯上了，國(guó)內(nèi)有人剛?cè)诹?0億

關(guān)于引爆全球的ChatGPT，AI算法工程師和分析師們的看法并不相通｜數(shù)智前瞻-36氪

一文看懂什么是強(qiáng)化學(xué)習(xí)？（基本概念+應(yīng)用場(chǎng)景+主流算法）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一文帶你了解爆火的Chat GPT

一文帶你了解爆火的Chat GPT

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

一文帶你了解爆火的Chat GPT

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av