前幾天細(xì)讀GPT的paper,里面使用的基礎(chǔ)模型和BERT一樣都是Transformer,區(qū)別就在于GPT用的是單向Transformer,而BERT使用的是雙向Transf...
前幾天細(xì)讀GPT的paper,里面使用的基礎(chǔ)模型和BERT一樣都是Transformer,區(qū)別就在于GPT用的是單向Transformer,而BERT使用的是雙向Transf...
這兩天能一本正經(jīng)胡說的語言模型GPT-2.0大火,官方OPENAI以模型太強(qiáng)大擔(dān)心被壞人使用為由,也只公布了117M的模型,是不到號稱的15億參數(shù)的十分之一,同時牽起了OPE...