- 任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必須有一個(gè)歸納偏好(bias),否則無(wú)法產(chǎn)生確定的學(xué)習(xí)結(jié)果 bias的大小決定學(xué)習(xí)算法盡可能特殊或盡可能一般 可用“奧卡姆剃刀”原則來(lái)選擇bias
- “奧卡姆剃刀”原則:如無(wú)必要,勿增實(shí)體 Entities should not be multiplied unnecessarily
- NFL(No Free Lunch)原理:在某些問題上算法A比B好,必定存在某些問題,B比A好 所有評(píng)價(jià)學(xué)習(xí)算法好壞要針對(duì)具體問題
- 分類的目標(biāo)是讓泛化誤差最小,但是只能從經(jīng)驗(yàn)誤差入手(因?yàn)椴恢佬聵颖臼鞘裁矗┮虼瞬荒茏尳?jīng)驗(yàn)誤差太小(太專注特殊,沒有一般性),否則經(jīng)常過擬合,泛化性能很差
- 過擬合無(wú)法完全避免,只能緩解 通過使用測(cè)試集來(lái)測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力 以測(cè)試集上的測(cè)試誤差(testing error)作為泛化誤差的近似
- 測(cè)試集盡量不出現(xiàn)在訓(xùn)練集中
- 評(píng)估方法(留出法、交叉驗(yàn)證法、留一法、自助法)一般用留出法(訓(xùn)練集、測(cè)試集、驗(yàn)證集按比例分 8:1:1)
- 調(diào)參工作量很大(實(shí)數(shù)范圍的,不可能窮舉)
- 兩類參數(shù):模型的參數(shù)(可以很多,深度神經(jīng)網(wǎng)絡(luò)百億個(gè))、算法自身的參數(shù)(較少,一般10以內(nèi))
- SVM
1.SVM由Vapnik提出,具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)理論基礎(chǔ)
2.主要是用于二分類的,多分類要 專門推廣,不是很方便
3.可以很好用于高維分類,避免維數(shù)災(zāi)
4.基于判別式分類,使用最大間隔原理(Max Margin)
5.使不等式成立的點(diǎn)為支持向量 最大間隔為 2/||W|| 因?yàn)楸愫灋?+1 -1
6.SVM基本型如下:
7.SVM基本型是一個(gè)凸優(yōu)化問題,更具體說(shuō)是一個(gè)二次規(guī)劃問題(目標(biāo)函數(shù)是二次的,約束條件是線性的)
8.通過拉格朗日對(duì)偶(Lagrange Duality) 變換到對(duì)偶變量(dual veriable)的優(yōu)化問題進(jìn)行求解
9.可以引入核函數(shù),推廣到非線性分類問題
10.對(duì)于非線性可分問題,可以映射到高維空間,使樣本在新的特征空間變成線性可分(如果原始空間是有限維,一定存在一個(gè)高維特征空間使樣本線性可分)引入核函數(shù)避開高維障礙
11.高維空間中兩個(gè)向量的內(nèi)積等于它們?cè)谠伎臻g中對(duì)應(yīng)的向量通過核函數(shù)運(yùn)算的結(jié)果
12.核函數(shù)隱式地定義了特征空間,所有核函數(shù)如果選擇不當(dāng),意味著將原始空間映射到了一個(gè)不合適的特征空間,導(dǎo)致性能不佳
13.目前還沒有什么方法來(lái)確定核函數(shù)(研究點(diǎn))
14.SVM的興起曾把神經(jīng)網(wǎng)絡(luò)再次打入低谷
- 神經(jīng)網(wǎng)絡(luò)
1. 每個(gè)神經(jīng)元都是一個(gè)感知機(jī)
2. 若每個(gè)激活函數(shù)都是線性函數(shù),最終只得到線性變換(線性函數(shù)的組合還是線性函數(shù))
3. 一般都用非線性激活函數(shù) (對(duì)數(shù)、雙曲正切、階躍、修正線性)
4. BP算法基于梯度下降策略,以誤差函數(shù)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整(權(quán)重和閾值)
5. 梯度下降法:一種常用的一階優(yōu)化方法(只使用目標(biāo)函數(shù)的一階導(dǎo)數(shù)),求解無(wú)約束優(yōu)化問題最經(jīng)典的方法之一
6. 學(xué)習(xí)率控制每一步更新的步長(zhǎng),太大容易震蕩,太小收斂慢
7. 神經(jīng)網(wǎng)絡(luò)只需輸入樣本和學(xué)習(xí)率 連接權(quán)重和閾值在(0,1)隨機(jī)初始化
8. 深度學(xué)習(xí)中更常用的做法是將softmax作為最后一層的激活函數(shù),此時(shí)用的代價(jià)函數(shù)是log-likelihood(對(duì)數(shù)自然)
9. 標(biāo)準(zhǔn)BP(每次用一個(gè)樣本來(lái)更新)和累積BP(先讀取一遍訓(xùn)練集)算法的區(qū)別,類似于隨機(jī)梯度下降和(最快)梯度下降的區(qū)別
10. 神經(jīng)網(wǎng)絡(luò)模型越復(fù)雜則1.參數(shù)越多,訓(xùn)練效率低(慢)2.容易過擬合 解決辦法1.云計(jì)算(計(jì)算能力強(qiáng))2.大數(shù)據(jù)(樣本多)
11. 改進(jìn):1.用交叉熵代價(jià)函數(shù)代替方差代價(jià)函數(shù) 2.用分段線性函數(shù)(修正線性函數(shù))代替sigmoid函數(shù)作隱含層激活函數(shù)
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。