
引言

2022年11月30日,OpenAI公布了他們的新產(chǎn)品:ChatGPT。隨后ChatGPT火得一塌糊涂。通過(guò)b站搜索“ChatGPT”的結(jié)果:

搞學(xué)術(shù)的想著從它身上找點(diǎn)創(chuàng)新,吃瓜群眾吃著這鍋熱瓜,想賺錢的眼睛賊亮??????
由于OpenAI不支持對(duì)中國(guó)服務(wù),就有人通過(guò)淘寶賣ChatGPT注冊(cè)賬號(hào)賺了不少錢(月銷達(dá)到了3萬(wàn))
我也好奇看看這個(gè)新玩意,于是我試著注冊(cè)賬號(hào)。。。
卻發(fā)現(xiàn):

不過(guò)最后呢,我還是成功了。
這篇博客聊一下我使用的情況、ChatGPT的原理以及存在的問(wèn)題。
ChatGPT的使用
說(shuō)實(shí)話,我用得有點(diǎn)晚了,之前一直忙七七八八的事,昨天才開(kāi)始使用的,我登錄進(jìn)去之后出于禮貌,首先用英文發(fā)了句“hi”:

看它也挺有禮貌的回了我,但是,,發(fā)第二句就出錯(cuò)了。
可能是網(wǎng)絡(luò)問(wèn)題,也可能是它太火了,訪問(wèn)人數(shù)太多吧
我又試著用中文跟它聊天:

它回復(fù)中文了,我好開(kāi)心,它是一個(gè)字一個(gè)字的回答的,因此我很期待的等啊等,,結(jié)果卻報(bào)了個(gè)網(wǎng)絡(luò)錯(cuò)誤。(難過(guò)。。)
今天,我?guī)臀依蠋熞沧?cè)了個(gè)賬號(hào),她問(wèn)了下ChatGPT關(guān)于糖尿病的問(wèn)題,ChatGPT還是給出了挺好的回答:

我老師讓它寫段條件隨機(jī)場(chǎng)的代碼:

可惜寫著寫著掉線了
這里用的是英文,不過(guò)我在網(wǎng)上也看了很多中文的問(wèn)題,也回答得挺好。
以上就是我的使用情況,總體來(lái)說(shuō)還行,就是網(wǎng)絡(luò)不太好總掉線
下面我講一下它的一個(gè)簡(jiǎn)單原理吧~
由于ChatGPT的論文還沒(méi)出來(lái),也沒(méi)有提供開(kāi)源代碼,我只能通過(guò)OpenAI的博客和相關(guān)研究等來(lái)了解ChatGPT了。
首先了解一下OpenAI公司
OpenAI

OpenAI是一個(gè)人工智能研究實(shí)驗(yàn)室,由營(yíng)利組織 OpenAI LP 與母公司非營(yíng)利組織 OpenAI Inc 組成,目的是促進(jìn)和發(fā)展友好的人工智能,讓更多人受益。
OpenAI 有兩位創(chuàng)始人其中一位是埃隆·馬斯克,這個(gè)大家應(yīng)該都認(rèn)識(shí),就是特斯拉的CEO,提出造火箭帶人類星際旅行的人,《硅谷鋼鐵俠》里說(shuō)的就是他:

OpenAI 另一個(gè)創(chuàng)始人是原Y Combinator(美國(guó)著名創(chuàng)業(yè)孵化器)總裁山姆·阿爾特曼,美國(guó)斯坦福大學(xué)計(jì)算機(jī)系輟學(xué)生。
總的來(lái)說(shuō)OpenAI是不差錢了,在ChatGPT之前研發(fā)的GPT3的訓(xùn)練就花了1200萬(wàn)美元。
OpenAI除了今天的主角之外,還有很多產(chǎn)品,
如:OpenAI曾跟Github合作,開(kāi)發(fā)了智能編程助手 Copilot :

這里說(shuō)的是“產(chǎn)品”,雖然OpenAI曾說(shuō)自己是非營(yíng)利機(jī)構(gòu),但從出產(chǎn)品的情況來(lái)看,有趨向營(yíng)利的目的,例如:ChatGPT,很多人都關(guān)心它會(huì)不會(huì)開(kāi)源,而目前它的論文還沒(méi)出來(lái),它的前一代InstructGPT沒(méi)有開(kāi)源,就連前前代GPT3都沒(méi)開(kāi)源,從趨勢(shì)上判斷,ChatGPT開(kāi)源的可能性有點(diǎn)小了。
ChatGPT原理
要講ChatGPT的原理,不得不向上追溯這樣的一個(gè)鏈:

從上圖來(lái)看,有兩條鏈,上面那條是OpenAI,下面是Google,其根源還在于2017年Google技術(shù)提出的 Transformer[1]
而Transformer由Encoder和Decoder組成:

如果看起來(lái)復(fù)雜,請(qǐng)看下面這張圖:

Google的BERT系列使用的是Transformer的Encoder部分,而OpenAI的GPT系列使用的是Decoder部分。
Google提出的Transformer一開(kāi)始是用于機(jī)器翻譯,Encoder用于輸入,Decoder用于輸出,如:英語(yǔ)翻德語(yǔ),Encoder就主要是學(xué)習(xí)到英語(yǔ)句子中的詞及其關(guān)系,然后丟給Decoder,Decoder得到后進(jìn)行處理并輸出德語(yǔ)出來(lái)。
其中,Encoder的輸入是整個(gè)句子,比如一句話“I love China”,其中"love"的上文是"I",下文是“China”,而Decoder輸出是一個(gè)詞一個(gè)詞的輸出的如“我愛(ài)中國(guó)”的輸出順序是“我”、“愛(ài)”、“中國(guó)”,
從上可知Encoder的特點(diǎn)是:在結(jié)構(gòu)上對(duì)上下文的理解更強(qiáng),更適合嵌入式的表達(dá),因此它比較適合做“完形填空”式的任務(wù);而Decoder的特點(diǎn)是:基于上文而不知道下文,因此它比較適合做“根據(jù)上文推測(cè)下文”的任務(wù)。
由上可知,Decoder就適合ChatGPT這種聊天的場(chǎng)景了。
回到前面的圖,在ChatGPT之前是由:GPT->GPT2->GPT3,再然后有一個(gè)叫:InstructGPT[2]的,我從ChatGPT官網(wǎng)上看到這樣一句話:

請(qǐng)注意我用藍(lán)色框 框起來(lái)的這里,他說(shuō) ChatGPT是InstructGPT的姊妹,她倆都是“基于人類反饋的強(qiáng)化學(xué)習(xí)”(后面這句是我從文獻(xiàn)中獲得的)
ChatGPT和InstructGPT與之前GPT系列模型的區(qū)別就在于“基于人類反饋的強(qiáng)化學(xué)習(xí)”。
通俗來(lái)講,我們可以把之前的GPT模型想象成一大堆數(shù)據(jù)訓(xùn)練出來(lái)的模型,在應(yīng)用時(shí),這模型有個(gè)致命缺點(diǎn)就是它輸出的內(nèi)容對(duì)人類不太友好(比如輸出有毒的內(nèi)容或編造出來(lái)的內(nèi)容,不符合人類邏輯等等)
“基于人類反饋的強(qiáng)化學(xué)習(xí)”,就是在訓(xùn)練GPT模型之前,先用一批專家的知識(shí)來(lái)訓(xùn)練一個(gè)反饋模型,然后再訓(xùn)練GPT3模型,如下圖:

從圖中可知,該模型與之前GPT模型區(qū)別就像是“注入了人類的意識(shí)”,基于人類反饋模型訓(xùn)練的模型就被叫做“基于人類反饋的強(qiáng)化學(xué)習(xí)”(Reinforcement Learning from Human Feedback)
原理就簡(jiǎn)單介紹到這里了,如果你有興趣的話,給我留言,激勵(lì)我出更多GPT相關(guān)內(nèi)容。
ChatGPT的應(yīng)用
ChatGPT的應(yīng)用就很多了,這里簡(jiǎn)單提一下,如:寫作、寫代碼、聊天、指導(dǎo)決策等等。。
我老師關(guān)注醫(yī)療方面的應(yīng)用,于是我也搜了一下,
有人對(duì)ChatGPT醫(yī)療建議進(jìn)行圖靈測(cè)試[3],發(fā)現(xiàn)機(jī)器人對(duì)于不同的問(wèn)題,回答的正確分類在49.0%到85.7%之間,平均而言,患者對(duì)聊天機(jī)器人功能的信任度反應(yīng)較弱,并隨著問(wèn)題任務(wù)與健康相關(guān)的復(fù)雜性增加,信任度也會(huì)降低,但整體而言,ChatGPT對(duì)患者問(wèn)題的回答與人類提供者對(duì)問(wèn)題的回答難以區(qū)分,外行似乎相信使用聊天機(jī)器人來(lái)回答風(fēng)險(xiǎn)較低的健康問(wèn)題。
看來(lái)未來(lái)應(yīng)用于醫(yī)療也不是不可能。
到這里,就不得不擔(dān)心ChatGPT可能帶來(lái)的問(wèn)題了。
ChatGPT可能存在的問(wèn)題
什么某些人失業(yè)啊,這啥啥的,我就不說(shuō)了。
我想提的是“道德問(wèn)題”,這靈感也是來(lái)源于我老師。
我也搜了一下,確實(shí)有這方面的文獻(xiàn)[4]。
這也可想而知的,該模型的訓(xùn)練注入了人類老師的標(biāo)記嘛。
而該聊天模型功能強(qiáng)大,能作為工作、決策的好助手,那么它作為一個(gè)機(jī)器人,如何對(duì)自己說(shuō)的話負(fù)責(zé)呢?
這就存在自動(dòng)駕駛一樣的問(wèn)題了。
總結(jié)
本文主要講了以下內(nèi)容:
- 我對(duì)ChatGPT的使用過(guò)程;
- OpenAI的簡(jiǎn)單介紹;
- ChatGPT的簡(jiǎn)單原理:
Transformer的Encoder->GPT->GPT2->GPT3->InstructGPT->ChatGPT;
以及,“基于人類反饋的強(qiáng)化學(xué)習(xí)”是什么; - ChatGPT的應(yīng)用;
- ChatGPT可能帶來(lái)的道德問(wèn)題。
參考文獻(xiàn)
[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[2] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. arXiv preprint arXiv:2203.02155, 2022.
[3] Nov O, Singh N, Mann D M. Putting ChatGPT's Medical Advice to the (Turing) Test[J]. medRxiv, 2023: 2023.01. 23.23284735.
[4] Krügel S, Ostermaier A, Uhl M. The moral authority of ChatGPT[J]. arXiv preprint arXiv:2301.07098, 2023.