Inductive Bias:在機(jī)器學(xué)習(xí)中,很多學(xué)習(xí)算法經(jīng)常會(huì)對(duì)學(xué)習(xí)的問(wèn)題做一些關(guān)于目標(biāo)函數(shù)的必要假設(shè),稱(chēng)為 歸納偏置 (Inductive Bias)。自然科學(xué)中常用的兩大方法:歸納(Induction)與演繹Deduction),?歸納:從一些例子中尋找共性、泛化,形成一個(gè)較通用的規(guī)則的過(guò)程。偏置 (Bias) 則是指對(duì)模型的偏好。
歸納偏置可以理解為,從現(xiàn)實(shí)生活中觀察到的現(xiàn)象中歸納出一定的規(guī)則 (heuristics),然后對(duì)模型做一定的約束,從而可以起到 “模型選擇” 的作用,類(lèi)似貝葉斯學(xué)習(xí)中的 “先驗(yàn)”。
例如,深度神經(jīng)網(wǎng)絡(luò) 就偏好性地認(rèn)為,層次化處理信息有更好效果;卷積神經(jīng)網(wǎng)絡(luò) 認(rèn)為信息具有空間局部性 (Locality),可用滑動(dòng)卷積共享權(quán)重的方式降低參數(shù)空間;循環(huán)神經(jīng)網(wǎng)絡(luò) 則將時(shí)序信息考慮進(jìn)來(lái),強(qiáng)調(diào)順序重要性;圖網(wǎng)絡(luò) 則認(rèn)為中心節(jié)點(diǎn)與鄰居節(jié)點(diǎn)的相似性會(huì)更好引導(dǎo)信息流動(dòng)。
例子:
奧卡姆剃刀原理:希望相同性能下,學(xué)習(xí)到的模型復(fù)雜度更低
KNN:中假設(shè)特征空間中相鄰的樣本傾向于屬于同一類(lèi)
SVM:中假設(shè)好的分類(lèi)器應(yīng)該最大化類(lèi)別邊界距離

CNN 的 Inductive Bias 是 局部性 (Locality) 和 空間不變性 (Spatial Invariance) / 平移等效性 (Translation Equivariance),即空間位置上的元素 (Grid Elements) 的聯(lián)系/相關(guān)性近大遠(yuǎn)小,以及空間 平移的不變性 (Kernel 權(quán)重共享)。
RNN 的 Inductive Bias 是 序列性 (Sequentiality) 和 時(shí)間不變性 (Time Invariance),即序列順序上的時(shí)間步 (Timesteps) 有聯(lián)系,以及時(shí)間變換的不變性 (RNN 權(quán)重共享)。
注意力機(jī)制,也是基于從人的直覺(jué)、生活經(jīng)驗(yàn)歸納得到的規(guī)則。
意義:
歸納偏置的意義或作用是使得學(xué)習(xí)器具有了泛化的能力。

對(duì)于上圖中的 6 個(gè)離散實(shí)心點(diǎn),可由很多不同的曲線擬合之。但訓(xùn)練的模型必然存在一定的 “偏好” 或者說(shuō) “傾向”,才能學(xué)習(xí)出模型自己認(rèn)為正確的擬合規(guī)則。顯然,加了一定正則的偏置的實(shí)線 A 比虛線 B 更為簡(jiǎn)單而通用 (模型復(fù)雜度受到懲罰而更低,恰當(dāng)擬合數(shù)據(jù)點(diǎn),泛化性能更好)。