OpenAI在推出GPT-3后,分享過一個AI大模型的「伸縮法則」,簡單說就是算法參數(shù)越大,數(shù)據(jù)量越高,AI大模型的效果就越好,但他們當(dāng)時認(rèn)為算法參數(shù)才是重點(diǎn)。
隨著谷歌也加入到研究中,大家發(fā)現(xiàn),數(shù)據(jù)才是更關(guān)鍵的部分,參數(shù)規(guī)模如何與數(shù)據(jù)規(guī)模匹配,數(shù)據(jù)質(zhì)量的高低,對結(jié)果都有顯著影響。
這也就是說,中國chatGPT的開發(fā)既要解決算法上的問題,還要積累一個與超大規(guī)模算法匹配的優(yōu)質(zhì)數(shù)據(jù)庫,前者靠聰明的大腦或許能加速不少,但后者就是實(shí)打?qū)嵉目喙Ψ?,會成為不少AI企業(yè)面對的最大難點(diǎn)。