作者:冰闊落[http://km.oa.dragonest.com/pages/viewpage.action?pageId=52544567&src=contextnavp...
作者:冰闊落[http://km.oa.dragonest.com/pages/viewpage.action?pageId=52544567&src=contextnavp...
FrEIA:Framework for Easily Invertible Architectures FrEIA 是實現(xiàn) INN 的基礎,可以理解為實現(xiàn) INN 的最重要的...
TFRecord生成 一、為什么使用TFRecord? 正常情況下我們訓練文件夾經(jīng)常會生成 train, test 或者val文件夾,這些文件夾內(nèi)部往往會存著成千上萬的圖片或...
對于java起手的程序猿,python的計算多維度數(shù)組的方式真的是有點蛋疼。最近看代碼的時候需要弄明白tf.slice()的具體操作方法。去看了看官方的注釋和例子還是一頭霧水...
在XLNet全面超越Bert后沒多久,F(xiàn)acebook提出了RoBERTa(a Robustly Optimized BERT Pretraining Approach)。再...
Ablation studies 即模型簡化測試 顧名思義,就是去掉模型中的部分模塊,然后看模型的性能是否發(fā)生變化。 英文解釋:An ablation study typic...
最近在看代碼的過程中,需要知道錯誤是怎么樣被反向傳播回去的。所以查閱了一些相關資料,在此分享。 其中有個問題是為什么在每個batch之前將參數(shù)的梯度設置為0呢?因為當使用ba...
[論文] 《Transformer-XL:Attentive Language Models beyond a Fixed-Length Context》- CMU & Go...