超參數(shù)調(diào)試、正則化以及優(yōu)化

吳恩達(dá):超參數(shù)調(diào)試、正則化以及優(yōu)化

基本原則

超參數(shù)搜索講究?jī)蓚€(gè)基本原則,即隨機(jī)取值和精細(xì)搜索

  1. 隨機(jī)取值
    在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,當(dāng)遇到兩個(gè)超參數(shù)需要調(diào)節(jié)的情況下,會(huì)采用網(wǎng)格取值法,比如說(shuō)兩個(gè)超參數(shù)各取5個(gè)點(diǎn),這樣組成25個(gè)點(diǎn)進(jìn)行測(cè)試。這種傳統(tǒng)方法是有缺陷的,因?yàn)楹芏喑瑓?shù)實(shí)際上不重要,如果兩個(gè)超參數(shù)一個(gè)重要而一個(gè)不重要,上述網(wǎng)格法在進(jìn)行25次運(yùn)算后獲得的結(jié)果實(shí)際上只能歸于5大類(5類對(duì)于重要超參數(shù)的調(diào)節(jié)),大部分獲得了類似的結(jié)果。
    所以對(duì)于超參數(shù)的隨機(jī)取值變得重要,兩類超參數(shù)均在限定范圍內(nèi)取25個(gè)點(diǎn),這樣可以讓篩選過(guò)程更有效。就算有一個(gè)超參數(shù)無(wú)關(guān)緊要,也沒(méi)有浪費(fèi)25次的計(jì)算過(guò)程,因?yàn)榈玫搅酥匾瑓?shù)25次不同的結(jié)果。

  2. 精細(xì)搜索
    在隨機(jī)取值后,將獲得優(yōu)秀結(jié)果的少數(shù)超參數(shù)組合的區(qū)域適當(dāng)擴(kuò)大并在這個(gè)小區(qū)域內(nèi)(對(duì)比于原本區(qū)域變?。┰俅尾蓸?,則節(jié)省算力并且獲得更優(yōu)結(jié)果。

進(jìn)階:為超參數(shù)選擇合適的標(biāo)尺

在某些情況下,選擇均勻分布采樣也許是合適的,比如說(shuō)神經(jīng)網(wǎng)絡(luò)層數(shù)或者隱藏層緯度。而學(xué)習(xí)率則不適合采用均勻標(biāo)尺,假設(shè)學(xué)習(xí)率搜索范圍是0.00011,采用均勻搜索將會(huì)吧算力90%浪費(fèi)在0.1-1,而實(shí)際上很少用這么大的學(xué)習(xí)率。
所以可以采用指數(shù)分布,具體做法如下
r = -4 * np.random.rand()
\alpha = 10^r
這樣0.00010.001的取值便占據(jù)了\frac14,合理了許多。

顯然,在遇到10^{-4}10^0的參數(shù)空間情況,在[0,4]均勻取值作為冪就可以。那么對(duì)于\beta取值為[0.9,0.999],則可以將其變?yōu)榭紤]1-\beta,區(qū)間變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5B10%5E%7B-3%7D%2C10%5E%7B-1%7D%5D" alt="[10^{-3},10^{-1}]" mathimg="1">,然后進(jìn)行類似于上面的均勻采樣就行。

注意:

  1. 這里取指數(shù)平均的具體原因是這些參數(shù)接近1的時(shí)候,會(huì)變得敏感,如Bias Correction時(shí)\frac{1}{1-\beta}會(huì)在\beta接近1時(shí)變得特別陡峭。如果\beta取值在[0.9,0.9005]可以直接采用平均分布采樣。而\beta取值在[0.999,0.9995]時(shí),則需要指數(shù)平均以增大\beta在接近1時(shí)取值的概率。
  2. 如果采樣點(diǎn)足夠多,直接均勻分布采樣也是可以的,何況精細(xì)搜索最終還是會(huì)讓你聚焦于有效區(qū)域。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容