吳恩達(dá):超參數(shù)調(diào)試、正則化以及優(yōu)化
基本原則
超參數(shù)搜索講究?jī)蓚€(gè)基本原則,即隨機(jī)取值和精細(xì)搜索
隨機(jī)取值
在傳統(tǒng)機(jī)器學(xué)習(xí)方法中,當(dāng)遇到兩個(gè)超參數(shù)需要調(diào)節(jié)的情況下,會(huì)采用網(wǎng)格取值法,比如說(shuō)兩個(gè)超參數(shù)各取5個(gè)點(diǎn),這樣組成25個(gè)點(diǎn)進(jìn)行測(cè)試。這種傳統(tǒng)方法是有缺陷的,因?yàn)楹芏喑瑓?shù)實(shí)際上不重要,如果兩個(gè)超參數(shù)一個(gè)重要而一個(gè)不重要,上述網(wǎng)格法在進(jìn)行25次運(yùn)算后獲得的結(jié)果實(shí)際上只能歸于5大類(5類對(duì)于重要超參數(shù)的調(diào)節(jié)),大部分獲得了類似的結(jié)果。
所以對(duì)于超參數(shù)的隨機(jī)取值變得重要,兩類超參數(shù)均在限定范圍內(nèi)取25個(gè)點(diǎn),這樣可以讓篩選過(guò)程更有效。就算有一個(gè)超參數(shù)無(wú)關(guān)緊要,也沒(méi)有浪費(fèi)25次的計(jì)算過(guò)程,因?yàn)榈玫搅酥匾瑓?shù)25次不同的結(jié)果。精細(xì)搜索
在隨機(jī)取值后,將獲得優(yōu)秀結(jié)果的少數(shù)超參數(shù)組合的區(qū)域適當(dāng)擴(kuò)大并在這個(gè)小區(qū)域內(nèi)(對(duì)比于原本區(qū)域變?。┰俅尾蓸?,則節(jié)省算力并且獲得更優(yōu)結(jié)果。
進(jìn)階:為超參數(shù)選擇合適的標(biāo)尺
在某些情況下,選擇均勻分布采樣也許是合適的,比如說(shuō)神經(jīng)網(wǎng)絡(luò)層數(shù)或者隱藏層緯度。而學(xué)習(xí)率則不適合采用均勻標(biāo)尺,假設(shè)學(xué)習(xí)率搜索范圍是到
,采用均勻搜索將會(huì)吧算力90%浪費(fèi)在
-
,而實(shí)際上很少用這么大的學(xué)習(xí)率。
所以可以采用指數(shù)分布,具體做法如下
這樣到
的取值便占據(jù)了
,合理了許多。
顯然,在遇到到
的參數(shù)空間情況,在
均勻取值作為冪就可以。那么對(duì)于
取值為
,則可以將其變?yōu)榭紤]
,區(qū)間變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=%5B10%5E%7B-3%7D%2C10%5E%7B-1%7D%5D" alt="[10^{-3},10^{-1}]" mathimg="1">,然后進(jìn)行類似于上面的均勻采樣就行。
注意:
- 這里取指數(shù)平均的具體原因是這些參數(shù)接近1的時(shí)候,會(huì)變得敏感,如Bias Correction時(shí)
會(huì)在
接近
時(shí)變得特別陡峭。如果
取值在
可以直接采用平均分布采樣。而
取值在
時(shí),則需要指數(shù)平均以增大
在接近
時(shí)取值的概率。
- 如果采樣點(diǎn)足夠多,直接均勻分布采樣也是可以的,何況精細(xì)搜索最終還是會(huì)讓你聚焦于有效區(qū)域。