1、在自然界數(shù)據(jù)的分布通常是正態(tài)分布(如年齡、身高、體重等),所以當我們對數(shù)據(jù)潛在分布模式不清楚時,這是最好的近似。
2、在ML/AI中,目標通常是使得數(shù)據(jù)線性可分,甚至意味著將數(shù)據(jù)投影到更高維空間,找到一個可擬合的超平面(如SVM核,神經(jīng)網(wǎng)絡(luò)層,softmax等)。原因是“線性分界通常有助于減少方差variance而且是最簡單,自然和可理解的”,同時減少數(shù)學(xué)/計算的復(fù)雜性。同時,當我們聚焦線性可分時,通??梢院芎脺p少異常點、影響點和杠桿點的作用。為啥?因為超平面是對影響點和杠點(異常點)非常敏感。舉個例子,在二維空間中,我們有一個預(yù)測器predictor(X),和目標值(y),假設(shè)X和y是很好的正相關(guān)。在這個情形下,假設(shè)X是正態(tài)分布,y也是正態(tài)分布,那么你可以擬合到一條很直的線,相比邊界點(異常點,杠桿點),很多點都集中在線的中間,所以這個預(yù)測回歸線在預(yù)測未知數(shù)據(jù)時,降低方差variance的影響。
用上面例子,理解在n維空間,擬合一個超平面,讓數(shù)據(jù)線性可分,就理解正態(tài)分布可以降低方差variance的影響