Variance in OLS/GLM

對于GLM來說,如何估計其prediction \hat y的Confidence Interval?以及如何估計其Coefficients \hat \beta的Variance?【這個常常在線性模型用以評估其變量的Causal Inference時需要用】都是非常重要的問題。
由于GLM的支持的分布,可以是real continuous number,以及integer(包含binary number)等等,所以對它們Variance的估計就有不同的計算方法。

1、Linear model(OLS)中的variance估計[Homoscedasticity時]

詳細(xì)可見Variance in Linear Model

  • 理解ols estimator[0]

    • a、The MSE of a point estimator is its variance (V) plus the square of its bias.
      優(yōu)化MSE即是同時優(yōu)化Variance與Bias。MSE=Var + Bias^2

    • b、OLS的假設(shè):\epsilon_i \sim N(0,\sigma(\epsilon)^2)\vec x無關(guān),且無自相關(guān)性。

    • c、設(shè)定:
      \vec y \in R^{n \times 1},\vec e \in R^{n \times 1}\vec {\hat \beta} \in R^{ m \times 1}\mathbf {X} \in R^{n \times m},\vec {x_i} \in R^{m \times 1}
      得到:\hat y_i = \vec x_i^T \hat \beta + \epsilon_i,或矩陣表達(dá):\vec {\hat y} = \mathbf X \hat \beta + \vec \epsilon

    • d、形式化推導(dǎo):
      \min_{\beta} \sum_i^n (y_i - \vec {x_i}^T\beta)^2

      • 1、用矩陣表示residual:
        \vec e \in R^{1 \times n}\vec e = \vec y - \mathbf {X}\beta

      • 2、用矩陣形式表達(dá)loss。
        帶入\hat y得到(注意結(jié)果為一個標(biāo)量,與\vec e \vec e^T \in R^{n \times n}不同):
        \vec e^T \vec e= (\vec y - \mathbf {X} \hat \beta)^T (\vec y - \mathbf {X} \hat \beta)
        =\vec y ^T \vec y - \hat \beta^T\mathbf{X}^T\vec y - \vec y\mathbf{X} \hat \beta + \hat \beta^T\mathbf{X}^T \mathbf {X} \hat \beta
        由于\hat \beta^T\mathbf{X}^T\vec y = ( \vec y\mathbf{X} \hat \beta )^T,因為其結(jié)果為scalar,scalar的轉(zhuǎn)置仍然是其本身。
        所以最終要minimize的loss function用矩陣表達(dá)如下:
        \vec e^T \vec {e} = \vec y ^T \vec {y} - 2\times \hat \beta^T\mathbf{X}^T\vec y + \hat \beta^T\mathbf{X}^T \mathbf {X} \hat \beta

      • 3、要minimize上述表達(dá)式,我們需要計算對\hat \beta的偏導(dǎo)。(Matrix Derivatives[13])
        Jacobian: \frac {\partial \vec {e}^T \vec {e}}{\partial \hat \beta } = -2 \mathbf{X}^T \vec {y} + 2 \mathbf{X}^T\mathbf{X} \hat \beta
        Hessian: \frac {\partial^2 \vec {e}^T \vec {e}}{\partial^2 \hat {\beta}} = 2\mathbf{X}^T \mathbf{X}
        由于對\hat \beta的二階偏導(dǎo)數(shù)矩陣(Hessian Matrix)半正定,所以該函數(shù)為凸函數(shù)(證明見[12])。因此對凸函數(shù)求minimize \hat \beta,只需要求解一階導(dǎo)數(shù)Jacobian=0即可

      • 4、使Jacobian:\frac {\partial \vec {e}^T \vec {e}}{\partial \hat \beta }=0,我們得到normal equation:
        \mathbf {X}^T \mathbf{X} \hat \beta = \mathbf {X}^ T \vec {y}

      • 5、由此得到close form solution:
        \hat {\beta} =( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec {y}

      • 6、我們可以通過解析解,推導(dǎo)出\hat \beta的期望:
        假設(shè)真實(shí)參數(shù)為\beta,所以:\vec y = \mathbf X \beta + \vec \epsilon
        則:\hat \beta =( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T (\mathbf {X} \beta + \vec {\epsilon})【帶入\vec y
        = \beta + ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon
        因此:\mathbb {E}(\hat \beta) = \beta + ( \mathbf{X}^T \mathbf{X} )^{-1} \mathbf{X}^T \mathbb {E} (\vec \epsilon)
        由于\mathbb E(\epsilon) = 0
        所以\mathbb E(\hat \beta) = \beta,即OLS為無偏估計量

      • 7、同時,我們也可以推導(dǎo)出其方差:
        Var(\hat \beta) = \mathbb E[(\hat \beta - \mathbb E(\hat \beta) )^2]
        用矩陣表達(dá)為:
        = \mathbb E[(\hat \beta - \beta )^T(\hat \beta - \beta)]【帶入\mathbb E(\hat \beta) = \beta
        = \mathbb E[ ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon(( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon)^T]【帶入上述計算\mathbb E(\hat \beta)時,\hat \beta的表達(dá)式】
        =\mathbb E[ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon \vec \epsilon^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}]【由于(X^TX)^{-1}為對稱矩陣,所以其轉(zhuǎn)置等于其自身】
        =\mathbb E[ \vec \epsilon \vec \epsilon^T] (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}
        =\mathbb E[ \vec \epsilon \vec \epsilon^T] (\mathbf{X}^T \mathbf{X})^{-1}【其中(\mathbf{X}^T \mathbf{X} ) ^{-1} \mathbf{X}^T \mathbf{X} = \mathbf I
        由于\mathbb E[ \vec \epsilon \vec \epsilon^T] \in R^{n \times n}在矩陣視角下為對角矩陣(非對角元素為0),對角線上,矩陣的X_{ii} = \mathbb E(\epsilon_i^2)),由于Var(x)=\mathbb E(x^2) - \mathbb E(x)^2,而\mathbb E(\epsilon) = 0,且有同方差性。所以\mathbb {E}[ \vec \epsilon \vec \epsilon^T] =Var(\epsilon) \mathbf {I}= \sigma^2 \mathbf I
        因此化簡得到:
        Var(\hat \beta) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1}
        由于\sigma^2未知,我們通常用樣本方差代替\hat \sigma^2=\frac {\vec \epsilon^T \vec \epsilon}{n - k},其中k為參數(shù)數(shù)量.

  • 關(guān)于缺失變量可能帶來的\hat \beta偏差:Omitted Variable Bias[14]
    這里與Confounding Bias比較類似(但不完全一致,這里似乎缺失了mediator也會造成bias?)。當(dāng)我們?nèi)笔У淖兞繚M足X_{omitted} \perp Y或者X_{omitted} \perp X時,OLS estimator能保持無偏。
    這點(diǎn)非常好理解,假設(shè)z= x + \epsilon,y = z + x,true model中\beta_1=\beta_2 = 1「這里假設(shè)的形式更像是mediator」,當(dāng)我們omit掉z,對y = \hat \beta x進(jìn)行OLS估計時,天然就會計算出\hat \beta = 2 \neq \beta,直覺上也好理解,\hat \beta是有偏的。
    當(dāng)然,原問題中,\hat \beta是無偏的,則\hat y是無偏的。而當(dāng)我們在omitted Variable的情況下做回歸,\hat y是否有偏,還需要證明:\mathbb E(\hat y) \neq \mathbb E(y)

  • 關(guān)于缺失變量對\hat y是否也帶來偏差:
    X_2為omitted variable
    \vec y = X_1\beta_1 + X_2\beta_2 + \vec \epsilon
    所以\hat y = X_1 \hat \beta_1 = X_1((X_1^TX_1)^{-1}X_1^T\vec y )
    =X_1((X_1^TX_1)^{-1}X_1^T (X_1\beta_1 + X_2\beta_2 + \vec \epsilon) )
    =X_1\beta_1 + X_1(X_1^TX_1)^{-1}X_1^T * (X_2\beta_2+ \epsilon)【前一項結(jié)合律】
    =X_1\beta_1 + X_1(X_1^TX_1)^{-1}X_1^TX_2\beta_2+ X_1(X_1^TX_1)^{-1}X_1^T\epsilon
    \neq X_1\beta_1 + X_2\beta_2 + \epsilon
    只有在X_1(X_1^TX_1)^{-1}X_1^T = I_n時,才滿足無偏,所以\mathbb E(\hat y) \neq \mathbb E(y),所以\hat y仍然是有偏的。因此,如果我們有omitted variable,則我們\hat \beta是有偏的,所以不能用做causal inference,\hat y也是有偏的,所以也不能用于prediction

  • 從另一個角度理解,為何omitted variable產(chǎn)生時 prediction也會有偏?
    因為omitted variable可能會導(dǎo)致非同方差性[15]。
    其實(shí),我們進(jìn)行OLS估計時,得到的解\hat \beta的形式并不需要保證同方差性。但是在非同方差性的狀態(tài)下,我們不滿足Gauss Markov Assumptions,所以我們的\hat \beta_{OLS}不是無偏估計[16]。此時我們也可以使用OLS做估計(我們的求解過程并不需要Gauss-Markov假設(shè)來化簡),但是只有在滿足Gauss Markov Assumptions的時候,我們的OLS estimator才是BLUE的?!綛est Linear Unbiased Estimator】Best此處指其Variance是最小的。

  • 關(guān)于omitted variable情況下,bias的方向問題。positive bias or negative bias,可以見Omitted Variable Bias: The Simple Case

  • Variance 計算

    • a、誤差項:
      \epsilon \sim N(0,\sigma^2(\epsilon))
      Var(\hat \epsilon) = \frac 1 {n-1} \sum_i^n (y_i - \hat y_i) ^ 2
      通常被記為\sigma.
      由于同方差性,所以,每一個點(diǎn)估計,其誤差的方差都是Var(\hat \epsilon),通常真實(shí)的variance:Var(\epsilon)難以計算,所以用其估計值:Var(\hat \epsilon)代替,以下Var(\beta)的計算公式中用到的也是。

    • b、參數(shù)項:
      \hat \beta|X \sim N(\beta,\sigma^2(\beta))
      Var(\hat \beta) = \frac {Var(\epsilon)}{X^TX}
      =\sigma^2(X^TX)^{-1}
      注意,Xn \times m的矩陣\sigma^2為標(biāo)量,所以這里得到的是m \times m的矩陣,即m維系數(shù)的協(xié)方差矩陣,對角線上第i行的元素即為\beta_i的方差。

    • c、estimate項:
      Var(\hat Y) = Var(\vec x_0^T\hat \beta)
      = \vec x_0^TVar(\hat \beta)\vec x_0【方差性質(zhì)】
      =\sigma^2 \vec x_0^T(X^TX)^{-1}\vec x_0【帶入Var(\hat \beta)
      注意,\vec x_0 \in R^{m \times 1}為某一個樣本的取值。

    • d、Prediction Interval:[6]
      TODO

2、OLS:Heteroscedasticity時的variance估計

  • 與Homoscedasticity的差異:
    非同方差性。
    由于我們假設(shè)\epsilon \not\perp x。這里是與OLS假設(shè)不同的。
  • 常用建模方式:[10]
    lNormal , Exponential, Inverse Gaussian

  • Estimator

    • a、Weighted Least Square,要求我們對\epsilon_i有個比較明確的建模,(然后輸入模型,表示為weight)。通常需要我們找到一個正比于variance的變量。當(dāng)且僅當(dāng)這個變量能比較正確地建模方差variance,才能夠解決方差不同性的問題。[16]

    • b、White Estimator
      將這個問題視為nuisance,通過修正其估計量的方差來解決,而非建模這個方差。[16]
      見Heteroscedasticity-consistent standard errors[17]
      在非同方差的狀態(tài)下,\hat \beta_{OLS}仍然為unbiased estimator,但是并不滿足BLUE,即此時的variance并不是最小的。并且,由于\mathbb E(\vec \epsilon \vec \epsilon^T) = Var(\epsilon) \neq \sigma^2 I_n【第一個等號在\mathbb E(\epsilon)=0的情況下成立,而第二個等號僅在同方差時成立】,所以上述的Variance估計是不成立的。
      此處,我們假設(shè)\epsilon_i來源于不同分布,但其之間互相獨(dú)立,即沒有auto-correlation,所以定義:
      \Sigma := \mathbb E(\vec \epsilon \vec \epsilon^T) = diag(\sigma_1^2,\sigma_2^2...\sigma_n^2)
      因而:
      Var(\hat \beta_{OLS}) = \mathbb E((\hat \beta - \beta)(\hat \beta - \beta)^{-1})
      = \mathbb E((X^TX)^{-1}X^T\epsilon \epsilon X(X^TX)^{-1})
      =(X^TX)^{-1}X^T\Sigma X(X^TX)^{-1}【這一步與之前的推導(dǎo)一致】
      然而,通常如果我們無法準(zhǔn)確地獲得\sigma_i^2,所以我們用purely empirical 的方式來估計:即\sigma_i^2= \epsilon_i^2,【\epsilon_i即為真實(shí)OLS估計后的residual】
      因此:
      \hat \Sigma = diag(\epsilon_1^2,\epsilon_2^2...\epsilon_n^2)
      帶入即可獲得其Variance:
      Var(\hat \beta_{OLS}) = (X^TX)^{-1}X^T\hat \Sigma X(X^TX)^{-1}

    • c、當(dāng)然,相較于上述純empirical的估計方法,也可以加入一些假設(shè),譬如某一部分observations有相同的variance。即group cluster variance。

  • Variance 計算:
    推導(dǎo)見上
    Var(\hat \epsilon) = \hat \Sigma = diag(\epsilon_1^2,\epsilon_2^2...\epsilon_n^2)
    Var(\hat \beta) = (X^TX)^{-1}X^T\hat \Sigma X(X^TX)^{-1}
    Var(\hat y) = \vec x_0^TVar(\hat \beta)\vec x_0

3、LR(GLM)中的variance估計[1]

  • Deviance概念:
    當(dāng)我們擬合GLM模型的時候,不使用MSE,而是使用Deviance?[3]
    Deviance是GLM中對RSS(residual sum of squares)在OLS中的一種泛化。
    Deviance滿足:
    D(y,y)=0,D(y,u) > 0,when[y \neq u]
    通過likelihood 來構(gòu)建Deviance:
    D(y, \hat u) = 2(log(p(y| \theta_s)) - log(p(y|\hat \theta)))
    \theta_s 為saturated model(即每個參數(shù)表示一個樣本)的參數(shù),\hat \theta為模型估計的參數(shù)。

    • a、對于normal distribution來說,常用
      d(y,u)=\frac {(y-u)^2}{\sigma ^2},其實(shí)就是MSE
    • b、對于Bernoulli distribution來說常用
      d(y,u) = log(p(y|y))-log(|u-y|)
      = - ylog(u) - (1-y) log(1-u)
      其中【p(y|y) =1,log(1) = 0
  • 與OLS差異性來源:
    假設(shè)不同:g(y)=\mathbf {X} \beta,其中g(x)為link function。[1]
    1、非同方差性:
    比如:Logistics model屬于GLM,由于y \propto Bernoulli,所以它天然地構(gòu)建了Variance與Mean的關(guān)系,即:Var(y) = E(y) (1 - E(y)),這個關(guān)系在OLS中是不存在的,這里天然造成了Heteroscedasticity。
    2、同時,由于link function的存在,通常GLM沒有Analytical Solution[11]
    3、同時,也是由于沒有Analytical Solution,所以Variance的推導(dǎo)也比較tricky

  • 常用概率建模方式:[10]
    Logit,Porbit,cloglog,Possion[1]

  • Variance 計算:

    • a、參數(shù)\hat \beta的方差:[18]
      假設(shè)數(shù)據(jù)x_i 服從概率分布f_{\beta}(x)f為其概率密度函數(shù)PDF。
      X為iid采樣獲得的樣本,其似然函數(shù)Likelihood function如下:L(X;\beta)= \prod_i f_{\beta}(x_i)

      • aa、Score Function:log likelihood的一階導(dǎo)數(shù)
        S(X;\beta) = \sum_i \frac {\partial log(f_{\beta}(x_i))}{\partial \beta}
        = \sum_i \frac {1}{f_{\beta}(x_i)} \frac {\partial f_{\beta}(x_i)}{\partial \beta}
        性質(zhì)其期望為0,\mathbb E(S(X;\beta))=0
        \mathbb E(S(X;\beta)) = \int S(x;\beta) f_{\beta}(x) dx【期望,概率積分】
        =\int \frac {\partial f_{\beta}(x_i)}{\partial \beta} dx【假設(shè)Sample size=1,帶入上述表達(dá)式】
        =\frac {\partial \int f_{\beta}(x_i) dx}{\partial \beta}【與\beta無關(guān),交換順序,Leibniz integral rule】
        =\frac {\partial 1}{\partial \beta} = 0【pdf積分為常數(shù)1】

      • ab、Fisher Information Matrix:
        I(\beta)=Var(E(S(X;\beta)^2)
        =\mathbb E(S(X;\beta)^2)【期望為0,則其二階矩等于方差】
        =\int (\frac {\partial log(f(x))}{\partial \beta})^2 f(x) dx 【假設(shè)sample size=1,帶入】
        =\int (\frac {\partial log(f(x))}{\partial \beta})^2 f(x) dx
        TODO:
        很容易證明對于對數(shù)似然損失,F(xiàn)isher Information 與Hessian相同[20]:
        Expected Fisher Information:
        \mathbb I(\beta)= - \mathbb E(\frac {\partial^2 log(f_{\beta}(X))}{\partial^2 \beta})
        Observerd Fisher Information:(Empirical Fisher Information)
        \mathbb I(\beta) = - \frac {\partial^2 log(f_{\beta}(X))}{\partial^2 \beta}
        在Matrix Form中,可以通過對數(shù)似然loss的Hessian推導(dǎo)而來。[20]
        即:I(\beta) = \mathbb H
        【注,由于我們一般都是優(yōu)化負(fù)對數(shù)似然,所以負(fù)號已經(jīng)包含在Hessian中了】

      • ab2、Hessian in LR:
        TODO,矩陣推導(dǎo)得到:
        \mathbb H(\hat \beta) = X^T \hat \Sigma X
        其中\hat \Sigma = diag(\hat y_1(1- \hat y_1), \hat y_2(1- \hat y_2)...\hat y_n(1- \hat y_n))為帶入\hat \beta后得到的對角矩陣。

      • ac、Cramer-Rao bound:[19]
        根據(jù)Cramér–Rao bound給出的lower bound of estimator:
        *注:這里是lower bound,所以An unbiased estimator which achieves this lower bound is said to be (fully) efficient
        即:Var(\beta) \geq \mathbb I(\beta)^{-1} = \mathbb H(\beta)^{-1}
        注:相同地,在OLS中,其參數(shù)的Variance也能用相同的方法推導(dǎo)出來,也是\mathbb H(\beta)^{-1}

      • ad、最終Variance的形式:[21]
        因此,對Logistic Regression:
        Var(\hat \beta) = (X^T \hat \Sigma X)^{-1}
        其中\hat \Sigma = diag(\hat y_1(1- \hat y_1), \hat y_2(1- \hat y_2)...\hat y_n(1- \hat y_n))
        由于Var(\hat \beta)的表達(dá)式中有取逆操作,所以一般也沒有analytical form,都是通過numerical的方法來解得。

    • b、預(yù)估值\hat y的方差:
      對于Categorical Dependent Variable(outcome Y是一個類別變量)的情況下,有四種辦法可以計算其置信區(qū)間。

      • ba、前言:Maximum Likelihood(在Probability估計中不可用)[5]
        Linear Model中可用:
        Var(\vec x_0^T \hat \beta)=\vec x_0^T Var(\hat \beta) \vec x_0
        其中\vec x_0 \in R^{m \times 1}為樣本點(diǎn),Var(\hat \beta) \in R^{m \times m}是covariance matrix of regression coefficients:即Var(\hat \beta) = (X^T \Sigma X)^{-1},其中X \in R^{n \times m}為樣本,\Sigma \in R^{n \times n}是預(yù)估值的covariance矩陣,實(shí)際計算可見[4]

      • bb、Endpoint Transformation [8]
        根據(jù)Maximum Likelihood估計其中線性項的Variance:Var(X_0 \beta),然后獲得其線性項的Confidence Interval:y_{LB} \leq y \leq y_{UB},再將其轉(zhuǎn)換到概率維度的空間中[4],只要轉(zhuǎn)換函數(shù)為單調(diào)的即可,得到:F(y_{LB}) \leq F(y) \leq F(y_{UB}),例如logistic function:F(y)=\frac {e^y}{1+e^y} = \frac {1}{1 + e^{-y}}
        注意:這種方式計算出來不會越界,但是需要 outcome of interest is monotonic of the linear combination

      • bc、Delta method
        TODO。

      • bd、Bootstrap method
        從sample中多次采樣樣本,多次擬合模型,并且多次估計樣本,然后通過樣本的多次估計,來模擬從population中采樣造成的variability。缺點(diǎn)就是非常耗時。

運(yùn)用

1、計算propensity score的時候,如何評估我們模型variance帶來的影響?
要求無偏嗎?
為什么要用semi-parametric的方法?

2、模型計算

Refer

[0]MSE
https://study.com/academy/lesson/properties-of-point-estimators.html

[1]GLM
引子,https://stats.stackexchange.com/questions/402584/why-does-logistic-regression-not-have-variance-but-have-deviance

GLM差異性來源,Modeling probabilities:https://web.stanford.edu/class/stats191/notebooks/Logistic.html
常用建模方式:見最后,Logit,Porbit,cloglog

常用link function:
https://en.wikipedia.org/wiki/Generalized_linear_model#Link_function

[2]Confidence Interval of Coefficient
其實(shí)參數(shù)的CI很重要,譬如我們在進(jìn)行Causal Effect的估計時,我們用來導(dǎo)出結(jié)論的是Treatment變量的系數(shù),那么知道這個系數(shù)的CI便很重要。
https://stats.stackexchange.com/questions/354098/calculating-confidence-intervals-for-a-logistic-regression

[3]Deviance:
https://en.wikipedia.org/wiki/Deviance_(statistics)

[4]Confidence Interval for Binary Classifier(such as Logistic Regression),in Practice
Endpoint Transformation & Delta Method:
https://stats.stackexchange.com/questions/163824/different-ways-to-produce-a-confidence-interval-for-odds-ratio-from-logistic-reg
以及:
Confidence intervals for predicted outcomes in regression models for categorical outcomes
以及:
Confidence Intervals for the Odds Ratio in Logistic Regression with One Binary X

[5]
線性模型的一些假設(shè),變量命名,以及推導(dǎo)見:Applied Linear Models

[6]Prediction Interval
http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_Book/3-7-UnivarPredict.html

[7]Confidence Interval
http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_Book/3-5-UnivarConfInt.html

[8]
7.1章:Endpoint Transformation
Confidence intervals for predicted outcomes in regression models for categorical outcomes

[10]
GLM,Link Function
https://en.wikipedia.org/wiki/Generalized_linear_model

[11]LR has no Analytical(close form) Solution
https://stats.stackexchange.com/questions/455698/why-does-logistic-regressions-likelihood-function-have-no-closed-form

[12]證明
Hessian matrix 半正定

[13] Matrix Derivative
OLS in Matrix Form:page2 bottom

[14]
OLS in Matrix Form:Omitted Variable Bi

[15]
Omitted Variable bias:
https://statisticsbyjim.com/regression/confounding-variables-bias/#:~:text=Omitted%20variable%20bias%20occurs%20when,which%20biases%20the%20coefficient%20estimates.

[16]
在OLS in Matrix Form
Gauss-Markov 假設(shè)見 如下章節(jié):
4、The Gauss-Markov Assumptions
5、The Gauss-Markov Theorem
檢驗同方差性(不同方差狀態(tài)下的解決辦法),見如下章節(jié):
6、Robust (Huber of White) Standard Errors

[17]
Weight Estimator:
https://en.wikipedia.org/wiki/Heteroscedasticity-consistent_standard_errors

[18]
LR中參數(shù)\beta的 covariance matrix:
David W. Hosmer Applied Logistic Regression
P35

[19]
Fisher Information的意義
https://www.zhihu.com/question/26561604

[20]
Fisher Information
score function and I() proof:
https://en.wikipedia.org/wiki/Fisher_information

[21]
此時Variance就是Hessian Matrix求逆。
Lecture 26 — Logistic regression

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容