成人区人妻精品一,av可乐操人妻免费

理解

estimator param的variance到底意味著什么，我們?yōu)槭裁葱枰芯克慨?dāng)代工業(yè)界復(fù)雜模型（namely DNN）的variance如何，為何需要Shrinkage，bias&variance與模型復(fù)雜度，樣本包含信息量的關(guān)系？

1、多次采樣，估計(jì)值的離散程度。Sampling variability
其實(shí) $\hat \beta$ 的Variance很好理解，就是如果我們從相同總體中，多次抽樣（不同樣本），然后做相同的估計(jì)流程，最后得到的參數(shù) $\hat \beta_1,\hat \beta_2,\hat \beta_3...\hat \beta_n$ 的離散程度。如果這個(gè)離散程度越小，那么我們的估計(jì)越“穩(wěn)定”，同時(shí)可以推導(dǎo)出相同輸入時(shí)，outcome的估計(jì) $\hat Y$ 也越“穩(wěn)定”。
因此，我們可以用這個(gè)離散程度，來(lái)進(jìn)行區(qū)間估計(jì)，獲得 $\hat Y$ 的confidence Interval。
2、現(xiàn)代的大規(guī)模深度學(xué)習(xí)，往往有非常小的bias，但是有很大的variance。
Deep learning is an applied statistics with less emphasis on confidence intervals。
對(duì)于現(xiàn)代DNN，我們更注重于模型的擬合，表達(dá)能力。而選擇性忽略了其在區(qū)間估計(jì)上的不足。
對(duì)于DNN來(lái)說(shuō)，我們的目標(biāo)往往是優(yōu)化泛化誤差： $generalization\ error = bias + variance + irreducible\ error$ ，即優(yōu)化bias and variance simultaneously。
往往我們DNN超參的選擇上，會(huì)選擇使模型獲得最小化泛化誤差的參數(shù)。
手段：
a、改變模型復(fù)雜度。模型越復(fù)雜（即越flexible），越能獲得更小的bias，同時(shí)variance可能會(huì)更大。（對(duì)于特別復(fù)雜，包含信息量很高的數(shù)據(jù)，我們往往需要很復(fù)雜的模型以獲得更小的bias。）
b、調(diào)整Shrinkage Factor。shrinkage縮小了樣本采樣帶來(lái)的變化（reduction in the effects of sampling variation），即降低了variance。常見(jiàn)的Lasso，Ridge，都是犧牲一定的bias，以達(dá)到更小的variance。我們的L1，L2penalties 都是種隱式的Shrinkage。
c、收集更多數(shù)據(jù)。更多的數(shù)據(jù)，能降低variance[3]。一般來(lái)說(shuō)，只有我們的泛化誤差largely be defined by variance的情況下，收集更多數(shù)據(jù)才有用。對(duì)于high bias model或者數(shù)據(jù)本身包含的信息量就很少的狀況來(lái)說(shuō)，提升數(shù)據(jù)也沒(méi)有啥用。
評(píng)估與觀測(cè)方法：
一般我們用learning curve來(lái)確定數(shù)據(jù)量，用cross validation來(lái)確定模型的超參。所以一般用cv error，train error一起做learning curve
縱坐標(biāo)一般都是error（test error，train error，cv error）。橫坐標(biāo)epoch輪數(shù)/batch輪數(shù) ，用于設(shè)定學(xué)習(xí)率，訓(xùn)練輪數(shù)。橫坐標(biāo)dataset size[]，用于決定數(shù)據(jù)量。橫坐標(biāo)shrinkage factor/model size，能得到與dataset size相似的圖像，權(quán)衡bias&variance。
注意：由于我們sampling variability的存在，我們總是需要CV來(lái)驗(yàn)證。即使我們數(shù)據(jù)量非常大，嚴(yán)謹(jǐn)來(lái)講通常也需要用CV，因?yàn)閷?duì)于大量的數(shù)據(jù)，我們模型往往也很大，所以其flexibility 也很高，潛在的variance也是巨大的。
3、思考：
由于工業(yè)界數(shù)據(jù)的復(fù)雜性，真實(shí)因素的多樣性，以及數(shù)據(jù)信息量的巨大性。因此復(fù)雜的模型才會(huì)大行其道。
在追求泛化誤差最小為目標(biāo)的情況下，我們只關(guān)心最終的泛化誤差，而不會(huì)精準(zhǔn)拆解出其中的bias或者varianc。但是當(dāng)有偏Bias，或者Variance成為問(wèn)題時(shí)，我們會(huì)進(jìn)行優(yōu)化，譬如如下場(chǎng)景：
a、在我們常見(jiàn)的EE問(wèn)題中，大部分情況下，其中核心要解決的也是sampling variability，即降低variance
b、而我們需要去偏的場(chǎng)景，往往也是因?yàn)槠┤纭疤卣魅笔А?，以及某些特定條件導(dǎo)致的樣本本身有偏。可能導(dǎo)致的系統(tǒng)性問(wèn)題。具體可見(jiàn)：http://www.itdecent.cn/p/7daf4789c24c【這里最后的討論也可見(jiàn)，在prediction與inference任務(wù)中，對(duì)bias與variance有明顯的偏好】

Ridge Regression[1][2]

1、有偏
$\mathbb E(\hat \beta) \neq \beta$
2、Bias隨著 $\lambda$ 的增大而增大
$\mathbb E(\hat \beta) = \beta - \lambda (X^TX + \lambda I)^{-1} \beta$
3、方差小于OLS
$Var(\hat \beta_{OLS}) \geq Var(\hat \beta_{Ridge})$
4、方差隨著 $\lambda$ 的增大而減小
TODO

Logistics Regression with l2 penalty

由于Fisher Information是對(duì)于無(wú)偏估計(jì)量，可以用 $\mathbb I^{-1}$ 來(lái)計(jì)算variance的下界（可見(jiàn)：http://www.itdecent.cn/p/1dbd868e541a）。所以對(duì)于有偏估計(jì)來(lái)說(shuō)，嚴(yán)格意義上來(lái)講我們不能此來(lái)做variance的估計(jì)。
TODO
PS：由于上述的penalty都和 $\beta$ 大小有關(guān)，所以是量綱敏感的，因此我們對(duì)于這種模型通常都要做歸一化

Refer
[1]，ridge regression中相關(guān)推導(dǎo)
Lecture notes on ridge regression

[2]
shrinkage 方向：
PCA與樣本協(xié)方差：
https://zhuanlan.zhihu.com/p/132275334

[3]
Shrinkage estimator:
https://en.wikipedia.org/wiki/Shrinkage_(statistics)
sample variance 的估計(jì)量：選擇除數(shù)以達(dá)到更小的variance
https://en.wikipedia.org/wiki/Mean_squared_error#Variance

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Variance in GLM with penalty

Variance in GLM with penalty

理解

Ridge Regression[1][2]

Logistics Regression with l2 penalty

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Variance in GLM with penalty

理解

Ridge Regression[1][2]

Logistics Regression with l2 penalty

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av