国产美女在线免费,欧美国产一区二区不卡,日韩久久日

對于GLM來說，如何估計其prediction $\hat y$ 的Confidence Interval？以及如何估計其Coefficients $\hat \beta$ 的Variance？【這個常常在線性模型用以評估其變量的Causal Inference時需要用】都是非常重要的問題。
由于GLM的支持的分布，可以是real continuous number，以及integer（包含binary number）等等，所以對它們Variance的估計就有不同的計算方法。

1、Linear model(OLS)中的variance估計[Homoscedasticity時]

詳細(xì)可見Variance in Linear Model

理解ols estimator[0]
- a、The MSE of a point estimator is its variance (V) plus the square of its bias.
  優(yōu)化MSE即是同時優(yōu)化Variance與Bias。 $MSE=Var + Bias^2$ 。
- b、OLS的假設(shè)： $\epsilon_i \sim N(0,\sigma(\epsilon)^2)$ 與 $\vec x$ 無關(guān)，且無自相關(guān)性。
- c、設(shè)定：
  $\vec y \in R^{n \times 1}$ ， $\vec e \in R^{n \times 1}$ ， $\vec {\hat \beta} \in R^{ m \times 1}$ ， $\mathbf {X} \in R^{n \times m}$ ， $\vec {x_i} \in R^{m \times 1}$
  得到： $\hat y_i = \vec x_i^T \hat \beta + \epsilon_i$ ，或矩陣表達(dá)： $\vec {\hat y} = \mathbf X \hat \beta + \vec \epsilon$
- d、形式化推導(dǎo)：
  $\min_{\beta} \sum_i^n (y_i - \vec {x_i}^T\beta)^2$
  - 1、用矩陣表示residual：
    $\vec e \in R^{1 \times n}$ ： $\vec e = \vec y - \mathbf {X}\beta$
  - 2、用矩陣形式表達(dá)loss。
    帶入 $\hat y$ 得到（注意結(jié)果為一個標(biāo)量，與 $\vec e \vec e^T \in R^{n \times n}$ 不同）：
    $\vec e^T \vec e= (\vec y - \mathbf {X} \hat \beta)^T (\vec y - \mathbf {X} \hat \beta)$
    $=\vec y ^T \vec y - \hat \beta^T\mathbf{X}^T\vec y - \vec y\mathbf{X} \hat \beta + \hat \beta^T\mathbf{X}^T \mathbf {X} \hat \beta$
    由于 $\hat \beta^T\mathbf{X}^T\vec y = ( \vec y\mathbf{X} \hat \beta )^T$ ，因為其結(jié)果為scalar，scalar的轉(zhuǎn)置仍然是其本身。
    所以最終要minimize的loss function用矩陣表達(dá)如下：
    $\vec e^T \vec {e} = \vec y ^T \vec {y} - 2\times \hat \beta^T\mathbf{X}^T\vec y + \hat \beta^T\mathbf{X}^T \mathbf {X} \hat \beta$
  - 3、要minimize上述表達(dá)式，我們需要計算對 $\hat \beta$ 的偏導(dǎo)。(Matrix Derivatives[13])
    Jacobian: $\frac {\partial \vec {e}^T \vec {e}}{\partial \hat \beta } = -2 \mathbf{X}^T \vec {y} + 2 \mathbf{X}^T\mathbf{X} \hat \beta$
    Hessian: $\frac {\partial^2 \vec {e}^T \vec {e}}{\partial^2 \hat {\beta}} = 2\mathbf{X}^T \mathbf{X}$
    由于對 $\hat \beta$ 的二階偏導(dǎo)數(shù)矩陣（Hessian Matrix）半正定，所以該函數(shù)為凸函數(shù)（證明見[12]）。因此對凸函數(shù)求minimize $\hat \beta$ ，只需要求解一階導(dǎo)數(shù)Jacobian=0即可
  - 4、使 $Jacobian：\frac {\partial \vec {e}^T \vec {e}}{\partial \hat \beta }=0$ ，我們得到normal equation：
    $\mathbf {X}^T \mathbf{X} \hat \beta = \mathbf {X}^ T \vec {y}$
  - 5、由此得到close form solution：
    $\hat {\beta} =( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec {y}$
  - 6、我們可以通過解析解，推導(dǎo)出 $\hat \beta$ 的期望：
    假設(shè)真實(shí)參數(shù)為 $\beta$ ，所以： $\vec y = \mathbf X \beta + \vec \epsilon$
    則： $\hat \beta =( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T (\mathbf {X} \beta + \vec {\epsilon})$ 【帶入 $\vec y$ 】
    $= \beta + ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon$
    因此： $\mathbb {E}(\hat \beta) = \beta + ( \mathbf{X}^T \mathbf{X} )^{-1} \mathbf{X}^T \mathbb {E} (\vec \epsilon)$
    由于 $\mathbb E(\epsilon) = 0$
    所以 $\mathbb E(\hat \beta) = \beta$ ，即OLS為無偏估計量
  - 7、同時，我們也可以推導(dǎo)出其方差：
    $Var(\hat \beta) = \mathbb E[(\hat \beta - \mathbb E(\hat \beta) )^2]$
    用矩陣表達(dá)為：
    $= \mathbb E[(\hat \beta - \beta )^T(\hat \beta - \beta)]$ 【帶入 $\mathbb E(\hat \beta) = \beta$ 】
    $= \mathbb E[ ( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon(( \mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon)^T]$ 【帶入上述計算 $\mathbb E(\hat \beta)$ 時， $\hat \beta$ 的表達(dá)式】
    $=\mathbb E[ (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \vec \epsilon \vec \epsilon^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}]$ 【由于 $(X^TX)^{-1}$ 為對稱矩陣，所以其轉(zhuǎn)置等于其自身】
    $=\mathbb E[ \vec \epsilon \vec \epsilon^T] (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1}$
    $=\mathbb E[ \vec \epsilon \vec \epsilon^T] (\mathbf{X}^T \mathbf{X})^{-1}$ 【其中 $(\mathbf{X}^T \mathbf{X} ) ^{-1} \mathbf{X}^T \mathbf{X} = \mathbf I$ 】
    由于 $\mathbb E[ \vec \epsilon \vec \epsilon^T] \in R^{n \times n}$ 在矩陣視角下為對角矩陣（非對角元素為0），對角線上，矩陣的 $X_{ii} = \mathbb E(\epsilon_i^2)$ ），由于 $Var(x)=\mathbb E(x^2) - \mathbb E(x)^2$ ，而 $\mathbb E(\epsilon) = 0$ ，且有同方差性。所以 $\mathbb {E}[ \vec \epsilon \vec \epsilon^T] =Var(\epsilon) \mathbf {I}= \sigma^2 \mathbf I$
    因此化簡得到：
    $Var(\hat \beta) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1}$
    由于 $\sigma^2$ 未知，我們通常用樣本方差代替 $\hat \sigma^2=\frac {\vec \epsilon^T \vec \epsilon}{n - k}$ ，其中 $k$ 為參數(shù)數(shù)量.
關(guān)于缺失變量可能帶來的 $\hat \beta$ 偏差：Omitted Variable Bias[14]
這里與Confounding Bias比較類似（但不完全一致，這里似乎缺失了mediator也會造成bias？）。當(dāng)我們?nèi)笔У淖兞繚M足 $X_{omitted} \perp Y$ 或者 $X_{omitted} \perp X$ 時，OLS estimator能保持無偏。
這點(diǎn)非常好理解，假設(shè) $z= x + \epsilon$ , $y = z + x$ ，true model中 $\beta_1=\beta_2 = 1$ 「這里假設(shè)的形式更像是mediator」，當(dāng)我們omit掉 $z$ ，對 $y = \hat \beta x$ 進(jìn)行OLS估計時，天然就會計算出 $\hat \beta = 2 \neq \beta$ ，直覺上也好理解， $\hat \beta$ 是有偏的。
當(dāng)然，原問題中， $\hat \beta$ 是無偏的，則 $\hat y$ 是無偏的。而當(dāng)我們在omitted Variable的情況下做回歸， $\hat y$ 是否有偏，還需要證明： $\mathbb E(\hat y) \neq \mathbb E(y)$
關(guān)于缺失變量對 $\hat y$ 是否也帶來偏差：
$X_2$ 為omitted variable
由 $\vec y = X_1\beta_1 + X_2\beta_2 + \vec \epsilon$
所以 $\hat y = X_1 \hat \beta_1 = X_1((X_1^TX_1)^{-1}X_1^T\vec y )$
$=X_1((X_1^TX_1)^{-1}X_1^T (X_1\beta_1 + X_2\beta_2 + \vec \epsilon) )$
$=X_1\beta_1 + X_1(X_1^TX_1)^{-1}X_1^T * (X_2\beta_2+ \epsilon)$ 【前一項結(jié)合律】
$=X_1\beta_1 + X_1(X_1^TX_1)^{-1}X_1^TX_2\beta_2+ X_1(X_1^TX_1)^{-1}X_1^T\epsilon$
$\neq X_1\beta_1 + X_2\beta_2 + \epsilon$
只有在 $X_1(X_1^TX_1)^{-1}X_1^T = I_n$ 時，才滿足無偏，所以： $\mathbb E(\hat y) \neq \mathbb E(y)$ ，所以 $\hat y$ 仍然是有偏的。因此，如果我們有omitted variable，則我們 $\hat \beta$ 是有偏的，所以不能用做causal inference， $\hat y$ 也是有偏的，所以也不能用于prediction
從另一個角度理解，為何omitted variable產(chǎn)生時 prediction也會有偏？
因為omitted variable可能會導(dǎo)致非同方差性[15]。
其實(shí)，我們進(jìn)行OLS估計時，得到的解 $\hat \beta$ 的形式并不需要保證同方差性。但是在非同方差性的狀態(tài)下，我們不滿足Gauss Markov Assumptions，所以我們的 $\hat \beta_{OLS}$ 不是無偏估計[16]。此時我們也可以使用OLS做估計（我們的求解過程并不需要Gauss-Markov假設(shè)來化簡），但是只有在滿足Gauss Markov Assumptions的時候，我們的OLS estimator才是BLUE的?！綛est Linear Unbiased Estimator】Best此處指其Variance是最小的。
關(guān)于omitted variable情況下，bias的方向問題。positive bias or negative bias，可以見Omitted Variable Bias: The Simple Case
Variance 計算
- a、誤差項：
  $\epsilon \sim N(0,\sigma^2(\epsilon))$
  $Var(\hat \epsilon) = \frac 1 {n-1} \sum_i^n (y_i - \hat y_i) ^ 2$
  通常被記為 $\sigma$ .
  由于同方差性，所以，每一個點(diǎn)估計，其誤差的方差都是 $Var(\hat \epsilon)$ ，通常真實(shí)的variance： $Var(\epsilon)$ 難以計算，所以用其估計值： $Var(\hat \epsilon)$ 代替，以下 $Var(\beta)$ 的計算公式中用到的也是。
- b、參數(shù)項：
  $\hat \beta|X \sim N(\beta,\sigma^2(\beta))$
  $Var(\hat \beta) = \frac {Var(\epsilon)}{X^TX}$
  $=\sigma^2(X^TX)^{-1}$
  注意， $X$ 為 $n \times m$ 的矩陣 $\sigma^2$ 為標(biāo)量，所以這里得到的是 $m \times m$ 的矩陣，即 $m$ 維系數(shù)的協(xié)方差矩陣，對角線上第 $i$ 行的元素即為 $\beta_i$ 的方差。
- c、estimate項：
  $Var(\hat Y) = Var(\vec x_0^T\hat \beta)$
  $= \vec x_0^TVar(\hat \beta)\vec x_0$ 【方差性質(zhì)】
  $=\sigma^2 \vec x_0^T(X^TX)^{-1}\vec x_0$ 【帶入 $Var(\hat \beta)$ 】
  注意， $\vec x_0 \in R^{m \times 1}$ 為某一個樣本的取值。
- d、Prediction Interval：[6]
  TODO

2、OLS：Heteroscedasticity時的variance估計

與Homoscedasticity的差異：
非同方差性。
由于我們假設(shè) $\epsilon \not\perp x$ 。這里是與OLS假設(shè)不同的。

常用建模方式：[10]
lNormal , Exponential, Inverse Gaussian
Estimator
- a、Weighted Least Square，要求我們對 $\epsilon_i$ 有個比較明確的建模，（然后輸入模型，表示為weight）。通常需要我們找到一個正比于variance的變量。當(dāng)且僅當(dāng)這個變量能比較正確地建模方差variance，才能夠解決方差不同性的問題。[16]
- b、White Estimator
  將這個問題視為nuisance，通過修正其估計量的方差來解決，而非建模這個方差。[16]
  見Heteroscedasticity-consistent standard errors[17]
  在非同方差的狀態(tài)下， $\hat \beta_{OLS}$ 仍然為unbiased estimator，但是并不滿足BLUE，即此時的variance并不是最小的。并且，由于 $\mathbb E(\vec \epsilon \vec \epsilon^T) = Var(\epsilon) \neq \sigma^2 I_n$ 【第一個等號在 $\mathbb E(\epsilon)$ =0的情況下成立，而第二個等號僅在同方差時成立】，所以上述的Variance估計是不成立的。
  此處，我們假設(shè) $\epsilon_i$ 來源于不同分布，但其之間互相獨(dú)立，即沒有auto-correlation，所以定義：
  $\Sigma := \mathbb E(\vec \epsilon \vec \epsilon^T) = diag(\sigma_1^2,\sigma_2^2...\sigma_n^2)$
  因而：
  $Var(\hat \beta_{OLS}) = \mathbb E((\hat \beta - \beta)(\hat \beta - \beta)^{-1})$
  $= \mathbb E((X^TX)^{-1}X^T\epsilon \epsilon X(X^TX)^{-1})$
  $=(X^TX)^{-1}X^T\Sigma X(X^TX)^{-1}$ 【這一步與之前的推導(dǎo)一致】
  然而，通常如果我們無法準(zhǔn)確地獲得 $\sigma_i^2$ ，所以我們用purely empirical 的方式來估計：即 $\sigma_i^2= \epsilon_i^2$ ，【 $\epsilon_i$ 即為真實(shí)OLS估計后的residual】
  因此：
  $\hat \Sigma = diag(\epsilon_1^2,\epsilon_2^2...\epsilon_n^2)$
  帶入即可獲得其Variance：
  $Var(\hat \beta_{OLS}) = (X^TX)^{-1}X^T\hat \Sigma X(X^TX)^{-1}$
- c、當(dāng)然，相較于上述純empirical的估計方法，也可以加入一些假設(shè)，譬如某一部分observations有相同的variance。即group cluster variance。
Variance 計算：
推導(dǎo)見上
$Var(\hat \epsilon) = \hat \Sigma = diag(\epsilon_1^2,\epsilon_2^2...\epsilon_n^2)$
$Var(\hat \beta) = (X^TX)^{-1}X^T\hat \Sigma X(X^TX)^{-1}$
$Var(\hat y) = \vec x_0^TVar(\hat \beta)\vec x_0$

3、LR（GLM）中的variance估計[1]

Deviance概念：
當(dāng)我們擬合GLM模型的時候，不使用MSE，而是使用Deviance?[3]
Deviance是GLM中對RSS（residual sum of squares）在OLS中的一種泛化。
Deviance滿足：
$D(y,y)=0,D(y,u) > 0,when[y \neq u]$
通過likelihood 來構(gòu)建Deviance：
$D(y, \hat u) = 2(log(p(y| \theta_s)) - log(p(y|\hat \theta)))$
$\theta_s$ 為saturated model（即每個參數(shù)表示一個樣本）的參數(shù)， $\hat \theta$ 為模型估計的參數(shù)。
- a、對于normal distribution來說，常用
  $d(y,u)=\frac {(y-u)^2}{\sigma ^2}$ ，其實(shí)就是MSE
- b、對于Bernoulli distribution來說常用
  $d(y,u) = log(p(y|y))-log(|u-y|)$
  $= - ylog(u) - (1-y) log(1-u)$
  其中【 $p(y|y) =1，log(1) = 0$ 】
與OLS差異性來源：
假設(shè)不同： $g(y)=\mathbf {X} \beta$ ,其中 $g(x)$ 為link function。[1]
1、非同方差性：
比如：Logistics model屬于GLM，由于 $y \propto Bernoulli$ ，所以它天然地構(gòu)建了Variance與Mean的關(guān)系，即： $Var(y) = E(y) (1 - E(y))$ ，這個關(guān)系在OLS中是不存在的，這里天然造成了Heteroscedasticity。
2、同時，由于link function的存在，通常GLM沒有Analytical Solution[11]
3、同時，也是由于沒有Analytical Solution，所以Variance的推導(dǎo)也比較tricky

常用概率建模方式：[10]
Logit，Porbit，cloglog，Possion[1]
Variance 計算：
- a、參數(shù) $\hat \beta$ 的方差：[18]
  假設(shè)數(shù)據(jù) $x_i$ 服從概率分布 $f_{\beta}(x)$ ， $f$ 為其概率密度函數(shù)PDF。
  $X$ 為iid采樣獲得的樣本，其似然函數(shù)Likelihood function如下: $L(X;\beta)= \prod_i f_{\beta}(x_i)$
  - aa、Score Function：log likelihood的一階導(dǎo)數(shù)
    $S(X;\beta) = \sum_i \frac {\partial log(f_{\beta}(x_i))}{\partial \beta}$
    $= \sum_i \frac {1}{f_{\beta}(x_i)} \frac {\partial f_{\beta}(x_i)}{\partial \beta}$
    性質(zhì)其期望為0， $\mathbb E(S(X;\beta))=0$ ：
    $\mathbb E(S(X;\beta)) = \int S(x;\beta) f_{\beta}(x) dx$ 【期望，概率積分】
    $=\int \frac {\partial f_{\beta}(x_i)}{\partial \beta} dx$ 【假設(shè)Sample size=1，帶入上述表達(dá)式】
    $=\frac {\partial \int f_{\beta}(x_i) dx}{\partial \beta}$ 【與 $\beta$ 無關(guān)，交換順序,Leibniz integral rule】
    $=\frac {\partial 1}{\partial \beta} = 0$ 【pdf積分為常數(shù)1】
  - ab、Fisher Information Matrix：
    $I(\beta)=Var(E(S(X;\beta)^2)$
    $=\mathbb E(S(X;\beta)^2)$ 【期望為0，則其二階矩等于方差】
    $=\int (\frac {\partial log(f(x))}{\partial \beta})^2 f(x) dx$ 【假設(shè)sample size=1，帶入】
    $=\int (\frac {\partial log(f(x))}{\partial \beta})^2 f(x) dx$
    TODO:
    很容易證明對于對數(shù)似然損失，F(xiàn)isher Information 與Hessian相同[20]：
    Expected Fisher Information:
    $\mathbb I(\beta)= - \mathbb E(\frac {\partial^2 log(f_{\beta}(X))}{\partial^2 \beta})$
    Observerd Fisher Information:（Empirical Fisher Information）
    $\mathbb I(\beta) = - \frac {\partial^2 log(f_{\beta}(X))}{\partial^2 \beta}$
    在Matrix Form中，可以通過對數(shù)似然loss的Hessian推導(dǎo)而來。[20]
    即： $I(\beta) = \mathbb H$
    【注，由于我們一般都是優(yōu)化負(fù)對數(shù)似然，所以負(fù)號已經(jīng)包含在Hessian中了】
  - ab2、Hessian in LR:
    TODO，矩陣推導(dǎo)得到：
    $\mathbb H(\hat \beta) = X^T \hat \Sigma X$
    其中 $\hat \Sigma = diag(\hat y_1(1- \hat y_1), \hat y_2(1- \hat y_2)...\hat y_n(1- \hat y_n))$ 為帶入 $\hat \beta$ 后得到的對角矩陣。
  - ac、Cramer-Rao bound：[19]
    根據(jù)Cramér–Rao bound給出的lower bound of estimator：
    *注：這里是lower bound，所以An unbiased estimator which achieves this lower bound is said to be (fully) efficient
    即： $Var(\beta) \geq \mathbb I(\beta)^{-1} = \mathbb H(\beta)^{-1}$
    注：相同地，在OLS中，其參數(shù)的Variance也能用相同的方法推導(dǎo)出來，也是 $\mathbb H(\beta)^{-1}$
  - ad、最終Variance的形式：[21]
    因此，對Logistic Regression：
    $Var(\hat \beta) = (X^T \hat \Sigma X)^{-1}$
    其中 $\hat \Sigma = diag(\hat y_1(1- \hat y_1), \hat y_2(1- \hat y_2)...\hat y_n(1- \hat y_n))$
    由于 $Var(\hat \beta)$ 的表達(dá)式中有取逆操作，所以一般也沒有analytical form，都是通過numerical的方法來解得。
- b、預(yù)估值 $\hat y$ 的方差：
  對于Categorical Dependent Variable（outcome Y是一個類別變量）的情況下，有四種辦法可以計算其置信區(qū)間。
  - ba、前言：Maximum Likelihood（在Probability估計中不可用）[5]
    Linear Model中可用：
    $Var(\vec x_0^T \hat \beta)=\vec x_0^T Var(\hat \beta) \vec x_0$
    其中 $\vec x_0 \in R^{m \times 1}$ 為樣本點(diǎn)， $Var(\hat \beta) \in R^{m \times m}$ 是covariance matrix of regression coefficients：即 $Var(\hat \beta) = (X^T \Sigma X)^{-1}$ ，其中 $X \in R^{n \times m}$ 為樣本， $\Sigma \in R^{n \times n}$ 是預(yù)估值的covariance矩陣，實(shí)際計算可見[4]
  - bb、Endpoint Transformation [8]
    根據(jù)Maximum Likelihood估計其中線性項的Variance： $Var(X_0 \beta)$ ，然后獲得其線性項的Confidence Interval： $y_{LB} \leq y \leq y_{UB}$ ，再將其轉(zhuǎn)換到概率維度的空間中[4]，只要轉(zhuǎn)換函數(shù)為單調(diào)的即可，得到： $F(y_{LB}) \leq F(y) \leq F(y_{UB})$ ，例如logistic function： $F(y)=\frac {e^y}{1+e^y} = \frac {1}{1 + e^{-y}}$
    注意：這種方式計算出來不會越界，但是需要 outcome of interest is monotonic of the linear combination
  - bc、Delta method
    TODO。
  - bd、Bootstrap method
    從sample中多次采樣樣本，多次擬合模型，并且多次估計樣本，然后通過樣本的多次估計，來模擬從population中采樣造成的variability。缺點(diǎn)就是非常耗時。

運(yùn)用

1、計算propensity score的時候，如何評估我們模型variance帶來的影響？
要求無偏嗎？
為什么要用semi-parametric的方法？

2、模型計算

Refer

[0]MSE
https://study.com/academy/lesson/properties-of-point-estimators.html

[1]GLM
引子，https://stats.stackexchange.com/questions/402584/why-does-logistic-regression-not-have-variance-but-have-deviance

GLM差異性來源，Modeling probabilities：https://web.stanford.edu/class/stats191/notebooks/Logistic.html
常用建模方式：見最后，Logit，Porbit，cloglog

常用link function：
https://en.wikipedia.org/wiki/Generalized_linear_model#Link_function

[2]Confidence Interval of Coefficient
其實(shí)參數(shù)的CI很重要，譬如我們在進(jìn)行Causal Effect的估計時，我們用來導(dǎo)出結(jié)論的是Treatment變量的系數(shù)，那么知道這個系數(shù)的CI便很重要。
https://stats.stackexchange.com/questions/354098/calculating-confidence-intervals-for-a-logistic-regression

[3]Deviance:
https://en.wikipedia.org/wiki/Deviance_(statistics)

[4]Confidence Interval for Binary Classifier（such as Logistic Regression），in Practice
Endpoint Transformation & Delta Method：
https://stats.stackexchange.com/questions/163824/different-ways-to-produce-a-confidence-interval-for-odds-ratio-from-logistic-reg
以及：
Confidence intervals for predicted outcomes in regression models for categorical outcomes
以及：
Confidence Intervals for the Odds Ratio in Logistic Regression with One Binary X

[5]
線性模型的一些假設(shè)，變量命名，以及推導(dǎo)見：Applied Linear Models

[6]Prediction Interval
http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_Book/3-7-UnivarPredict.html

[7]Confidence Interval
http://web.vu.lt/mif/a.buteikis/wp-content/uploads/PE_Book/3-5-UnivarConfInt.html

[8]
7.1章：Endpoint Transformation
Confidence intervals for predicted outcomes in regression models for categorical outcomes

[10]
GLM,Link Function
https://en.wikipedia.org/wiki/Generalized_linear_model

[11]LR has no Analytical(close form) Solution
https://stats.stackexchange.com/questions/455698/why-does-logistic-regressions-likelihood-function-have-no-closed-form

[12]證明
Hessian matrix 半正定

1、 $\mathbf {X}$ 為full rank 矩陣。見：https://stats.stackexchange.com/questions/174775/full-rank-assumption-in-the-linear-regression-model-explanation
2、 $\mathbf {X}^T\mathbf {X}$ 為正定矩陣。見：Econometrics (Greene)
Chapter 3 Least square, Page 21

[13] Matrix Derivative
OLS in Matrix Form：page2 bottom

[14]
OLS in Matrix Form：Omitted Variable Bi

[15]
Omitted Variable bias：
https://statisticsbyjim.com/regression/confounding-variables-bias/#:~:text=Omitted%20variable%20bias%20occurs%20when,which%20biases%20the%20coefficient%20estimates.

[16]
在OLS in Matrix Form
Gauss-Markov 假設(shè)見如下章節(jié)：
4、The Gauss-Markov Assumptions
5、The Gauss-Markov Theorem
檢驗同方差性(不同方差狀態(tài)下的解決辦法)，見如下章節(jié)：
6、Robust (Huber of White) Standard Errors

[17]
Weight Estimator：
https://en.wikipedia.org/wiki/Heteroscedasticity-consistent_standard_errors

[18]
LR中參數(shù) $\beta$ 的 covariance matrix：
David W. Hosmer Applied Logistic Regression
P35

[19]
Fisher Information的意義
https://www.zhihu.com/question/26561604

[20]
Fisher Information
score function and I() proof:
https://en.wikipedia.org/wiki/Fisher_information

[21]
此時Variance就是Hessian Matrix求逆。
Lecture 26 — Logistic regression

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Variance in OLS/GLM