2.3.7 學?t分布

先丟個鏈接:https://www.matongxue.com/madocs/580/

鏈接中的學生t分布公式:
f(t) =\frac{\Gamma(\frac{v+1}{2})}{\Gamma(\frac{v}{2})} (\frac{1}{\sqrt{v\pi}})^2[1+\frac{t^2}{v}]^{-\frac{(v+1)}{2}}\\

書中的t分布
St(x|\mu, \lambda, v) = \frac{\Gamma(\frac{v}{2}+\frac{1}{2})}{\Gamma(\frac{v}{2})}(\frac{\lambda}{\pi v})^{\frac{1}{2}}[1+\frac{\lambda(x-\mu)^2}{v}]^{-\frac{v+1}{2}}

以下要從高斯分布推導出學生t分布


已知高斯分布的精度的共軛分布是Gamma分布。假設我們有一個一元高斯分布N(x|\mu,\tau^{-1})和一個Gamma分布Gam(\tau|a,b),我們把精度積分出來,可以得到x的邊緣分布
p(x|\mu,a,b)=\int^\infty_0N(x|\mu,\tau^{-1})Gam(\tau|a,b)d\tau\\ =\int^\infty_0\frac{b^ae^{(-b\tau)}\tau^{a-1}}{\Gamma(a)}(\frac{\tau}{2\pi})^{\frac{1}{2}}\exp\{-\frac{\tau}{2}(x-\mu)\}d\tau\\=\frac{b^a}{\Gamma(a)}(\frac{1}{2\pi})^\frac{1}{2}[b+\frac{(x-\mu)^2}{2}]^{-a-\frac{1}{2}}\Gamma(a+\frac{1}{2})
然后令v=2a,\lambda=\frac{a},新參數(shù)下分布p(x|\mu,a,b)
St(x|\mu, \lambda, v) = \frac{\Gamma(\frac{v}{2}+\frac{1}{2})}{\Gamma(\frac{v}{2})}(\frac{\lambda}{\pi v})^{\frac{1}{2}}[1+\frac{\lambda(x-\mu)^2}{v}]^{-\frac{v+1}{2}}
參數(shù)\lambda為t分布的精度(通常不等于方差的倒數(shù)),參數(shù)v為自由度,作用如下圖所示,對于v= 1的情況,t 分布變?yōu)榱丝挛鞣植? Cauchy distribution ),而在極限 v\rightarrow\infty的情況下,t 分布St(x|\mu,\lambda,v)變成了高斯分布 N(x|\mu,\lambda-1),均值為 \mu,精度為\lambda 。

可以看出t分布比高斯分布有更長的尾巴,也就是兩邊延伸得更開,這給出了t分布的一個重要性質(zhì)——魯棒性,更長的尾巴意味著對于離群點能有更好的忍耐度,不會像高斯分布那樣敏感。

在實際應用中,離群點可能產(chǎn)生于生成數(shù)據(jù)的過程,這個過程對應于一個有著長尾的概率分布,也可能產(chǎn)生于
誤標記的數(shù)據(jù)。魯棒性也是回歸問題的一個重要性質(zhì)。毫不驚訝地說,回歸的最小平方的方法并不具有魯棒性,因為它對應于(條件)高斯分布下的最大似然解。通過讓回歸模型基于一個長尾的概率分布(例如 t 分布),我們可以得到一個更加魯棒的模型。


?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容