Variance in GLM with penalty

理解

estimator param的variance到底意味著什么,我們?yōu)槭裁葱枰芯克慨?dāng)代工業(yè)界復(fù)雜模型(namely DNN)的variance如何,為何需要Shrinkage,bias&variance與模型復(fù)雜度,樣本包含信息量的關(guān)系?

  • 1、多次采樣,估計(jì)值的離散程度。Sampling variability
    其實(shí)\hat \beta的Variance很好理解,就是如果我們從相同總體中,多次抽樣(不同樣本),然后做相同的估計(jì)流程,最后得到的參數(shù)\hat \beta_1,\hat \beta_2,\hat \beta_3...\hat \beta_n的離散程度。如果這個(gè)離散程度越小,那么我們的估計(jì)越“穩(wěn)定”,同時(shí)可以推導(dǎo)出相同輸入時(shí),outcome的估計(jì)\hat Y也越“穩(wěn)定”。
    因此,我們可以用這個(gè)離散程度,來(lái)進(jìn)行區(qū)間估計(jì),獲得\hat Y的confidence Interval。

  • 2、現(xiàn)代的大規(guī)模深度學(xué)習(xí),往往有非常小的bias,但是有很大的variance。
    Deep learning is an applied statistics with less emphasis on confidence intervals。
    對(duì)于現(xiàn)代DNN,我們更注重于模型的擬合,表達(dá)能力。而選擇性忽略了其在區(qū)間估計(jì)上的不足。
    對(duì)于DNN來(lái)說(shuō),我們的目標(biāo)往往是優(yōu)化泛化誤差:generalization\ error = bias + variance + irreducible\ error,即優(yōu)化bias and variance simultaneously。
    往往我們DNN超參的選擇上,會(huì)選擇使模型獲得最小化泛化誤差的參數(shù)。
    手段:
    a、改變模型復(fù)雜度。模型越復(fù)雜(即越flexible),越能獲得更小的bias,同時(shí)variance可能會(huì)更大。(對(duì)于特別復(fù)雜,包含信息量很高的數(shù)據(jù),我們往往需要很復(fù)雜的模型以獲得更小的bias。)
    b、調(diào)整Shrinkage Factor。shrinkage縮小了樣本采樣帶來(lái)的變化(reduction in the effects of sampling variation),即降低了variance。常見(jiàn)的Lasso,Ridge,都是犧牲一定的bias,以達(dá)到更小的variance。我們的L1,L2penalties 都是種隱式的Shrinkage。
    c、收集更多數(shù)據(jù)。更多的數(shù)據(jù),能降低variance[3]。一般來(lái)說(shuō),只有我們的泛化誤差largely be defined by variance的情況下,收集更多數(shù)據(jù)才有用。對(duì)于high bias model或者數(shù)據(jù)本身包含的信息量就很少的狀況來(lái)說(shuō),提升數(shù)據(jù)也沒(méi)有啥用。
    評(píng)估與觀測(cè)方法:
    一般我們用learning curve來(lái)確定數(shù)據(jù)量,用cross validation來(lái)確定模型的超參。所以一般用cv error,train error一起做learning curve
    縱坐標(biāo)一般都是error(test error,train error,cv error)。橫坐標(biāo)epoch輪數(shù)/batch輪數(shù) ,用于設(shè)定學(xué)習(xí)率,訓(xùn)練輪數(shù)。橫坐標(biāo)dataset size[],用于決定數(shù)據(jù)量。橫坐標(biāo)shrinkage factor/model size,能得到與dataset size相似的圖像,權(quán)衡bias&variance。
    注意:由于我們sampling variability的存在,我們總是需要CV來(lái)驗(yàn)證。即使我們數(shù)據(jù)量非常大,嚴(yán)謹(jǐn)來(lái)講通常也需要用CV,因?yàn)閷?duì)于大量的數(shù)據(jù),我們模型往往也很大,所以其flexibility 也很高,潛在的variance也是巨大的。

  • 3、思考:
    由于工業(yè)界數(shù)據(jù)的復(fù)雜性,真實(shí)因素的多樣性,以及數(shù)據(jù)信息量的巨大性。因此復(fù)雜的模型才會(huì)大行其道。
    在追求泛化誤差最小為目標(biāo)的情況下,我們只關(guān)心最終的泛化誤差,而不會(huì)精準(zhǔn)拆解出其中的bias或者varianc。但是當(dāng)有偏Bias,或者Variance成為問(wèn)題時(shí),我們會(huì)進(jìn)行優(yōu)化,譬如如下場(chǎng)景:
    a、在我們常見(jiàn)的EE問(wèn)題中,大部分情況下,其中核心要解決的也是sampling variability,即降低variance
    b、而我們需要去偏的場(chǎng)景,往往也是因?yàn)槠┤纭疤卣魅笔А?,以及某些特定條件導(dǎo)致的樣本本身有偏。可能導(dǎo)致的系統(tǒng)性問(wèn)題。具體可見(jiàn):http://www.itdecent.cn/p/7daf4789c24c【這里最后的討論也可見(jiàn),在prediction與inference任務(wù)中,對(duì)bias與variance有明顯的偏好】

Ridge Regression[1][2]

  • 1、有偏
    \mathbb E(\hat \beta) \neq \beta
  • 2、Bias隨著\lambda的增大而增大
    \mathbb E(\hat \beta) = \beta - \lambda (X^TX + \lambda I)^{-1} \beta
  • 3、方差小于OLS
    Var(\hat \beta_{OLS}) \geq Var(\hat \beta_{Ridge})
  • 4、方差隨著\lambda的增大而減小
    TODO

Logistics Regression with l2 penalty

由于Fisher Information是對(duì)于無(wú)偏估計(jì)量,可以用\mathbb I^{-1}來(lái)計(jì)算variance的下界(可見(jiàn):http://www.itdecent.cn/p/1dbd868e541a)。所以對(duì)于有偏估計(jì)來(lái)說(shuō),嚴(yán)格意義上來(lái)講我們不能此來(lái)做variance的估計(jì)。
TODO
PS:由于上述的penalty都和\beta大小有關(guān),所以是量綱敏感的,因此我們對(duì)于這種模型通常都要做歸一化

Refer
[1],ridge regression中相關(guān)推導(dǎo)
Lecture notes on ridge regression

[2]
shrinkage 方向:
PCA與樣本協(xié)方差:
https://zhuanlan.zhihu.com/p/132275334

[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估計(jì)量:選擇除數(shù)以達(dá)到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容