理解
estimator param的variance到底意味著什么,我們?yōu)槭裁葱枰芯克慨?dāng)代工業(yè)界復(fù)雜模型(namely DNN)的variance如何,為何需要Shrinkage,bias&variance與模型復(fù)雜度,樣本包含信息量的關(guān)系?
1、多次采樣,估計(jì)值的離散程度。Sampling variability
其實(shí)的Variance很好理解,就是如果我們從相同總體中,多次抽樣(不同樣本),然后做相同的估計(jì)流程,最后得到的參數(shù)
的離散程度。如果這個(gè)離散程度越小,那么我們的估計(jì)越“穩(wěn)定”,同時(shí)可以推導(dǎo)出相同輸入時(shí),outcome的估計(jì)
也越“穩(wěn)定”。
因此,我們可以用這個(gè)離散程度,來(lái)進(jìn)行區(qū)間估計(jì),獲得的confidence Interval。
2、現(xiàn)代的大規(guī)模深度學(xué)習(xí),往往有非常小的bias,但是有很大的variance。
Deep learning is an applied statistics with less emphasis on confidence intervals。
對(duì)于現(xiàn)代DNN,我們更注重于模型的擬合,表達(dá)能力。而選擇性忽略了其在區(qū)間估計(jì)上的不足。
對(duì)于DNN來(lái)說(shuō),我們的目標(biāo)往往是優(yōu)化泛化誤差:,即優(yōu)化bias and variance simultaneously。
往往我們DNN超參的選擇上,會(huì)選擇使模型獲得最小化泛化誤差的參數(shù)。
手段:
a、改變模型復(fù)雜度。模型越復(fù)雜(即越flexible),越能獲得更小的bias,同時(shí)variance可能會(huì)更大。(對(duì)于特別復(fù)雜,包含信息量很高的數(shù)據(jù),我們往往需要很復(fù)雜的模型以獲得更小的bias。)
b、調(diào)整Shrinkage Factor。shrinkage縮小了樣本采樣帶來(lái)的變化(reduction in the effects of sampling variation),即降低了variance。常見(jiàn)的Lasso,Ridge,都是犧牲一定的bias,以達(dá)到更小的variance。我們的L1,L2penalties 都是種隱式的Shrinkage。
c、收集更多數(shù)據(jù)。更多的數(shù)據(jù),能降低variance[3]。一般來(lái)說(shuō),只有我們的泛化誤差largely be defined by variance的情況下,收集更多數(shù)據(jù)才有用。對(duì)于high bias model或者數(shù)據(jù)本身包含的信息量就很少的狀況來(lái)說(shuō),提升數(shù)據(jù)也沒(méi)有啥用。
評(píng)估與觀測(cè)方法:
一般我們用learning curve來(lái)確定數(shù)據(jù)量,用cross validation來(lái)確定模型的超參。所以一般用cv error,train error一起做learning curve
縱坐標(biāo)一般都是error(test error,train error,cv error)。橫坐標(biāo)epoch輪數(shù)/batch輪數(shù) ,用于設(shè)定學(xué)習(xí)率,訓(xùn)練輪數(shù)。橫坐標(biāo)dataset size[],用于決定數(shù)據(jù)量。橫坐標(biāo)shrinkage factor/model size,能得到與dataset size相似的圖像,權(quán)衡bias&variance。
注意:由于我們sampling variability的存在,我們總是需要CV來(lái)驗(yàn)證。即使我們數(shù)據(jù)量非常大,嚴(yán)謹(jǐn)來(lái)講通常也需要用CV,因?yàn)閷?duì)于大量的數(shù)據(jù),我們模型往往也很大,所以其flexibility 也很高,潛在的variance也是巨大的。3、思考:
由于工業(yè)界數(shù)據(jù)的復(fù)雜性,真實(shí)因素的多樣性,以及數(shù)據(jù)信息量的巨大性。因此復(fù)雜的模型才會(huì)大行其道。
在追求泛化誤差最小為目標(biāo)的情況下,我們只關(guān)心最終的泛化誤差,而不會(huì)精準(zhǔn)拆解出其中的bias或者varianc。但是當(dāng)有偏Bias,或者Variance成為問(wèn)題時(shí),我們會(huì)進(jìn)行優(yōu)化,譬如如下場(chǎng)景:
a、在我們常見(jiàn)的EE問(wèn)題中,大部分情況下,其中核心要解決的也是sampling variability,即降低variance
b、而我們需要去偏的場(chǎng)景,往往也是因?yàn)槠┤纭疤卣魅笔А?,以及某些特定條件導(dǎo)致的樣本本身有偏。可能導(dǎo)致的系統(tǒng)性問(wèn)題。具體可見(jiàn):http://www.itdecent.cn/p/7daf4789c24c【這里最后的討論也可見(jiàn),在prediction與inference任務(wù)中,對(duì)bias與variance有明顯的偏好】
Ridge Regression[1][2]
- 1、有偏
- 2、Bias隨著
的增大而增大
- 3、方差小于OLS
- 4、方差隨著
的增大而減小
TODO
Logistics Regression with l2 penalty
由于Fisher Information是對(duì)于無(wú)偏估計(jì)量,可以用來(lái)計(jì)算variance的下界(可見(jiàn):http://www.itdecent.cn/p/1dbd868e541a)。所以對(duì)于有偏估計(jì)來(lái)說(shuō),嚴(yán)格意義上來(lái)講我們不能此來(lái)做variance的估計(jì)。
TODO
PS:由于上述的penalty都和大小有關(guān),所以是量綱敏感的,因此我們對(duì)于這種模型通常都要做歸一化
Refer
[1],ridge regression中相關(guān)推導(dǎo)
Lecture notes on ridge regression
[2]
shrinkage 方向:
PCA與樣本協(xié)方差:
https://zhuanlan.zhihu.com/p/132275334
[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估計(jì)量:選擇除數(shù)以達(dá)到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance