在機器學(xué)習中高斯分布的意義

1、在自然界數(shù)據(jù)的分布通常是正態(tài)分布(如年齡、身高、體重等),所以當我們對數(shù)據(jù)潛在分布模式不清楚時,這是最好的近似。

2、在ML/AI中,目標通常是使得數(shù)據(jù)線性可分,甚至意味著將數(shù)據(jù)投影到更高維空間,找到一個可擬合的超平面(如SVM核,神經(jīng)網(wǎng)絡(luò)層,softmax等)。原因是“線性分界通常有助于減少方差variance而且是最簡單,自然和可理解的”,同時減少數(shù)學(xué)/計算的復(fù)雜性。同時,當我們聚焦線性可分時,通??梢院芎脺p少異常點、影響點和杠桿點的作用。為啥?因為超平面是對影響點和杠點(異常點)非常敏感。舉個例子,在二維空間中,我們有一個預(yù)測器predictor(X),和目標值(y),假設(shè)X和y是很好的正相關(guān)。在這個情形下,假設(shè)X是正態(tài)分布,y也是正態(tài)分布,那么你可以擬合到一條很直的線,相比邊界點(異常點,杠桿點),很多點都集中在線的中間,所以這個預(yù)測回歸線在預(yù)測未知數(shù)據(jù)時,降低方差variance的影響。

用上面例子,理解在n維空間,擬合一個超平面,讓數(shù)據(jù)線性可分,就理解正態(tài)分布可以降低方差variance的影響

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容