深度模型超參數(shù)量很多,如何調(diào)試這些參數(shù)需要長(zhǎng)期經(jīng)驗(yàn)的積累。下面,總結(jié)了相關(guān)的調(diào)參技巧方面的文章:
《神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的Tricks之高效BP(反向傳播算法)》翻譯文章。神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的Tricks之高效BP(反向傳播算法),來(lái)自與于《Neural Networks: Tricks of the Trade》一書第二版中的第一章 Efficient BackProp 的部分小節(jié)。
《Deep Learning for Vision: Tricks of the Trade》Marc’Aurelio Ranzato 在 CVPR 上 的 presentation slides/talk(Youtube 等地方可以搜到)。caffe 作者之一賈揚(yáng)清推薦。涉及到了許多 DL 的調(diào)參技巧(在 slides 比較靠后的地方)
《Optimizing RNN performance》百度 Silicon Valley AI Lab 的分享,現(xiàn)在主要是 GEMM 的性能優(yōu)化,以后還會(huì)有并行 GPU,GRU 和 LSTM 的實(shí)現(xiàn)技巧等……
《Must Know Tips/Tricks in Deep Neural Networks》來(lái)自 NJU LAMDA 實(shí)驗(yàn)室的 Xiu-Shen Wei 的總結(jié),主要集中于 CNN,包括各種數(shù)據(jù)處理上可能帶來(lái)的性能和表現(xiàn)的差異。圖表豐富,有理有據(jù)。
《訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的時(shí)候需要注意的一些小技巧》這篇是綜合翻譯,沒(méi)給出都從哪節(jié)選的。我收集的英文版在下面:
《Training Tricks from Deeplearning4j》deeplearning4j 的 googlegroups 也很推薦。這篇其實(shí)干貨不多,但是也有一些了。包括對(duì)于訓(xùn)練的理解,并不全是干貨般的總結(jié)。
《Suggestions for DL from Llya Sutskeve》Hinton 親傳弟子介紹深度學(xué)習(xí)的實(shí)際 tricks,包括data, preprocessing, minibatches, gradient normalization, learning rate, weight initialization, data augmentation, dropout和ensemble。
《Efficient Training Strategies for Deep Neural Network Language Models》討論了如何設(shè)置 batch-size, initial learning rate, network initialization,但最有趣的結(jié)論應(yīng)該是:普通的 deep feed-forward architecture比recurrent NN 在 model long distance dependency 效果和效率都更好。
《Neural Networks Best Practice》Uber 的 data scientist 寫的。比如: Rectifier is becoming popular as an activation function. However, I find its theory dubious and my experiments have not shown that it is always better. That said, I’m experimenting with new activation functions. (Little trivia: I’m borrowing many ideas from my graduate work in computational wave propagation.)
《How transferable are features in deep neural networks?》也是爭(zhēng)議比較大的一篇文章,finetuning 有一定幫助,但是不夠細(xì)致。
《Dark Knowledge from Hinton》有心人整理的 Hinton 提到的 Dark Knowledge 的一些資源。
《Stochastic Gradient Descent Tricks》L eon Bottou 寫的 Stochastic Gradient Descent Tricks 挺好,做工程也要做的漂亮。
《Advice for applying Machine Learning》主要集中在如何觀察數(shù)據(jù)來(lái)選擇方法。
《How to Debug Learning Algorithm for Regression Model》主要都是講回歸中遇到的各種“預(yù)期不符”的結(jié)果。配合 ESL 第二章和第三章內(nèi)容看效果加成。
《Large-scale L-BFGS using MapReduce》NIPS’14 的論文,簡(jiǎn)單并行化 LBFGS里面的雙循環(huán)(最耗時(shí),計(jì)算量巨大)。
《特征工程選擇系列》特征工程系列文章:Part1.單變量選取 Part2.線性模型和正則化 Part3.隨機(jī)森林 Part4.穩(wěn)定性選擇法、遞歸特征排除法(RFE)及綜合比較。有 Python 代碼。
《機(jī)器學(xué)習(xí)代碼心得之有監(jiān)督學(xué)習(xí)的模塊 機(jī)器學(xué)習(xí)代碼心得之迭代器和流水處理》新一代大神微博@陳天奇怪 的系列文章,有興趣的直接順著看吧。
《STOCHASTIC GRADIENT BOOSTING: CHOOSING THE BEST NUMBER OF ITERATIONS》Kaggle 達(dá)人 YANIR SEROUSSI 告訴你如何選擇 Stochastic Gradient Boosting 的訓(xùn)練最佳 iteration 超參數(shù)。不過(guò)我比較存疑,因?yàn)槿绻麠l件允許,當(dāng)然迭代的越多越好……
《Large-Scale High-Precision Topic Modeling on Twitter》Twitter 高級(jí)研究員的 KDD’14論文。有不少實(shí)用技巧,比如短文本特征,LR結(jié)果概率化修正,正樣本抽樣,PU學(xué)習(xí)后負(fù)樣本選取。