評價神經(jīng)網(wǎng)絡(luò):
現(xiàn)有問題:學(xué)得慢、學(xué)得不是真正規(guī)律(有干擾)
訓(xùn)練數(shù)據(jù)70%;測試數(shù)據(jù)30%
誤差曲線,(分類)精確度曲線+(回歸問題)R2分?jǐn)?shù)+f1分熟(不均衡數(shù)據(jù))等
過擬合-->L1、L2的正規(guī)化;dropout
確定訓(xùn)練參數(shù)是更有效的:通過交叉驗證,可用于nn,ml,橫軸是要測試的參數(shù)(例如網(wǎng)絡(luò)層數(shù)),縱軸是誤差\精確度---》可找到合適的層數(shù)
為啥要把特征數(shù)據(jù)來歸一化\標(biāo)準(zhǔn)化?這樣不同緯度對應(yīng)的參數(shù)不會差得那么大,能加快學(xué)習(xí)速度,學(xué)得不扭曲: minimax normalization(按比例縮到0_1或-1_1) ? ? ? ? ?std normalization(均值0, 方差std為1)
什么叫好特征?以分類器為例;選特征要選:不重復(fù)的、表征簡單直接的、有意義的
為啥要激勵函數(shù)Active Function?解決不能線性方程解決的問題,relu、sigmoid、tanh;都必須可微,因為要BP;當(dāng)層數(shù)很多時,選擇涉及梯度爆炸與梯度消失;CNN relu、RNN tanh、relu
解決過擬合overfitting:增加訓(xùn)練數(shù)據(jù)、L1、L2正則化:過擬合表現(xiàn)為W變化大,正則化可以控制。 ? ? ? ? ? ?原來cost = (Wx - realY)^2;L1正則化變成cost = (Wx - realY)^2 + abs(W);這樣如果W變化大,cost也會變化大,通過加入絕對值,加入了懲罰值;L2正則化+ W^2;--》讓學(xué)到的曲線不那么扭曲 ? ? ? ? ? ? ? ? ? ? dropout,隨機忽略掉一些神經(jīng)元和其連接,這樣其實在訓(xùn)練不同的子圖,從而從根本上不會每次一定依賴于特定的神經(jīng)元,L1、L2只是加入
設(shè)計一個專門學(xué)會調(diào)參的網(wǎng)絡(luò)??