高級計量經(jīng)濟學 11:最大似然估計(上)

高級計量經(jīng)濟學 11:最大似然估計(上)

此文內(nèi)容為《高級計量經(jīng)濟學及STATA應(yīng)用》的筆記,陳強老師著,高等教育出版社出版。

我只將個人會用到的知識作了筆記,并對教材較難理解的部分做了進一步闡述。為了更易于理解,我還對教材上的一些部分(包括代碼和正文)做了修改。

僅供學習參考,請勿轉(zhuǎn)載,侵刪!


目錄

  • 6 最大似然估計法
    • 6.5 最大似然法的大樣本性質(zhì)
      • 6.5.1 估計量的一致性
      • 6.5.2 漸近有效和漸近正態(tài)
    • 6.6 最大似然估計量的漸近協(xié)方差矩陣
      • 6.6.1 期望值法

      • 6.6.2 觀測信息矩陣法

      • 6.6.3 梯度向量外積或BHHH法


\S \text{ 第 6 章 } \S

\text{最大似然估計}


6 最大似然估計法

6.1 最大似然估計法的定義

假設(shè)隨機變量 y 的概率密度函數(shù)為 f(y;\pmb \theta) ,其中 \pmb \thetaK 維位置參數(shù)向量,\pmb \theta \in \Theta 表示參數(shù)向量處于參數(shù)空間中,即所有 \pmb \theta 可能取值所構(gòu)成的集合。我們現(xiàn)在通過抽取隨機樣本 \{y_1,y_2, \cdots,y_n \} 來估計 \pmb \theta 。 假設(shè) \{y_1,y_2, \cdots,y_n \}\text{i.i.d.} ,那么樣本數(shù)據(jù)的聯(lián)合密度函數(shù)為:f(y_1;\pmb\theta)\cdot f(y_2;\pmb\theta) \cdots f(y_n;\pmb\theta) 。

注意,使用最大似然法估計,我們相當于就知道了(或者說,假設(shè)了)y 的概率密度函數(shù)。

這通常被稱為“先驗分布”

在抽樣之前,\{y_1,y_2, \cdots,y_n \} 被視為隨機過程;抽樣后,\{y_1,y_2, \cdots,y_n \} 就有了特定的樣本值。因此,可以將樣本的聯(lián)合密度函數(shù)看作在\{y_1,y_2, \cdots,y_n \} 給定下,關(guān)于 \pmb \theta 的函數(shù)。于是我們定義似然函數(shù)(likelihood function)為:
L(\pmb \theta;y_1,\cdots,y_n) = \prod_{i=1}^n f(y_i;\pmb \theta)
由此可見,似然函數(shù)與聯(lián)合密度函數(shù)完全相等,只是把原本是參數(shù)的 \pmb \theta 換成了自變量;把原來是自變量的 \{y_1,y_2, \cdots,y_n \} 換成了參數(shù)。為了運算方便,通常把似然函數(shù)取對數(shù),將乘積轉(zhuǎn)換為求和:
\ln L(\pmb \theta;y_1,\cdots,y_n) = \ln \prod_{i=1}^n f(y_i;\pmb \theta) = \sum_{i=1}^n \ln f(y_i;\pmb \theta)
最大似然估計法(Maximum Likelihood Estimation,MLE or ML)來源于一個簡單而深刻的想法:給定樣本取值后,樣本最有可能來自于參數(shù) \pmb\theta 為何值的總體。換言之,尋找 \hat{\pmb \theta}_{ML} 使得觀察到樣本數(shù)據(jù)的可能性最大,于是我們的目標是最大化對數(shù)似然函數(shù)(Loglikelihood Function,LLF):
\max_{\pmb\theta \in \Theta} \ln L(\pmb \theta;\pmb y)

說人話,也就是MLE是“存在即真理”的方法論。既然我現(xiàn)在觀察到 \{y_1,y_2, \cdots,y_n \} 出現(xiàn)了,所以參數(shù) \pmb \theta 也應(yīng)該盡可能讓 \{y_1,y_2, \cdots,y_n \} 出現(xiàn)的概率最大。

想到學概率論的一個例子:A和B一起射箭,A和B是否射中應(yīng)該服從一個兩點分布,分別設(shè)A和B射中的概率為 p_Ap_B 。現(xiàn)在觀察到A的射箭結(jié)果為(0,0,0,0,0) 而B的為 (1,0,0,0,1) 。于是我們可以從A和B射箭的結(jié)果中反推A和B射中的概率為0和0.2。在這個的例子中:

  • A和B射中的概率就是這個兩點分布的參數(shù) \theta
  • 射箭結(jié)果就是 \{y_1,\cdots,y_n\}

之所以是0和0.2,是因為他們是讓已經(jīng)觀察到的結(jié)果出現(xiàn)的概率最大的參數(shù)。

數(shù)學上,我們通常把最大似然估計量 \hat{\pmb \theta}_{ML} 寫成:
\hat{\pmb \theta}_{ML} \equiv \mathop{\rm argmax}_{\pmb\theta} \ln L(\pmb \theta;\pmb y)
假設(shè)存在唯一內(nèi)點解,那么無約束極值問題的一階條件可以寫成:
s(\pmb \theta;\pmb y) \equiv \frac{\partial \ln L(\pmb \theta; \pmb y)}{\partial \pmb \theta} \equiv \left(\begin{array}{c} \frac{\partial \ln L(\pmb \theta; \pmb y)}{\partial \theta_1} \\ \vdots \\ \frac{\partial \ln L(\pmb \theta; \pmb y)}{\partial \theta_K} \end{array}\right) = \pmb 0

此一階條件要求LLF的梯度向量(gradient) s(\pmb \theta;\pmb y)\pmb 0。這實際上是 K 個位置參數(shù) (\theta_1,\cdots,\theta_K)K 各方程構(gòu)成的方程組。該梯度向量也被稱為得分函數(shù)(score function)或得分向量(score vector)。 s(\pmb \theta;\pmb y) 本身是 \pmb y 的函數(shù),從而也是一個隨機變量。記真實的參數(shù)為 \pmb\theta_0 ,那么我們有:

命題1 得分函數(shù)的期望為 \pmb 0 。如果似然函數(shù)正確(correctly specified),則 {\rm E}[s(\pmb\theta_0;\pmb y)]=\pmb 0

證明1:如果似然函數(shù)正確, {\rm E}[s(\pmb\theta_0;\pmb y)]=\pmb 0

因為似然函數(shù) L(\pmb \theta;\pmb y) 是概率密度函數(shù),所以 -\infty \rightarrow +\infty 的積分為1,即:
\int L(\pmb \theta;\pmb y) {\rm d}\pmb y = 1
為了引入LLF,把上面的積分寫成:
\int \exp[\ln L(\pmb \theta;\pmb y)] {\rm d}\pmb y = 1
兩邊對 \pmb \theta 求導(dǎo),有:
\int \exp[\ln L(\pmb \theta;\pmb y)] \cdot \frac{\partial \ln L(\pmb \theta;\pmb y)}{\partial \pmb \theta} {\rm d}\pmb y = \pmb 0
也就是:
\int L(\pmb \theta;\pmb y) \cdot \frac{\partial \ln L(\pmb \theta;\pmb y)}{\partial \pmb \theta} {\rm d}\pmb y = \pmb 0
由于似然函數(shù)正確,于是在 \pmb \theta = \pmb \theta_0 處,L(\pmb \theta;\pmb y) 就是真實的概率密度函數(shù)。于是令上式 \pmb \theta = \pmb \theta_0 ,就有:
{\rm E}\left[ \frac{\partial \ln L(\pmb \theta;\pmb y)}{\partial \pmb \theta} \right] = \int L(\pmb \theta;\pmb y) \cdot \frac{\partial \ln L(\pmb \theta;\pmb y)}{\partial \pmb \theta} {\rm d}\pmb y = \pmb 0
中間的等號用了期望的定義:{\rm E}[g(x)] = \int g(x)f(x){\rm d}x ,其中 f(x) 為概率密度函數(shù)。

證畢。

進一步,可以把得分函數(shù) s(\pmb \theta;\pmb y) 寫成:
s(\pmb \theta;\pmb y) \equiv \frac{\partial \ln L(\pmb \theta; \pmb y)}{\partial \pmb \theta} = \frac{\partial \sum\limits_{i=1}^n \ln f(y_i;\pmb \theta)}{\partial \pmb\theta} = \sum_{i=1}^n \frac{\partial f(y_i;\pmb \theta)}{\partial \pmb\theta} \equiv \sum_{i=1}^n s_i(\pmb \theta;y_i)

其中,s_i(\pmb \theta;y_i) \equiv \frac{\partial f(y_i;\pmb \theta)}{\partial \pmb\theta} 為第 i 個觀測值對得分函數(shù)的貢獻。


6.2 線性回歸模型的MLE

假設(shè)線性回歸模型為:

\pmb y = {\bf X}\pmb\beta+\pmb\varepsilon

為了使用MLE,首先要對擾動線做一些假設(shè)(球形擾動項):\pmb\varepsilon|{\rm X}\sim N(\pmb 0,\sigma^2 {\bf I}_n) ,于是被解釋變量的條件分布為 \pmb y|{\rm X} \sim N({\bf X}\pmb\beta,\sigma^2 {\bf I}_n) ,于是其條件概率密度函數(shù)為:

f(\boldsymbol{y} | \bf{X})=\left(2 \pi \sigma^{2}\right)^{-n / 2} \exp \left\{-\frac{1}{2 \sigma^{2}}(\boldsymbol{y}-\bf{X} \boldsymbol{\beta})^{\prime}(\boldsymbol{y}-\bf{X} \boldsymbol{\beta})\right\}

\hat{\boldsymbol{\beta}}\hat{\sigma}^2 代入,取對數(shù),于是LLF為:

\ln L(\hat{\boldsymbol{\beta}},\hat{\sigma}^2) = -\frac{n}{2} \ln 2\pi - \frac{n}{2} \ln \hat{\sigma}^2 - \frac{1}{2\hat{\sigma}^2}(\boldsymbol y - {\bf X}\hat{\boldsymbol \beta})^\prime(\boldsymbol y - {\bf X}\hat{\boldsymbol \beta})

極大似然估計就是要求 \hat{\boldsymbol{\beta}}\hat{\sigma}^2 使得 \ln L(\hat{\boldsymbol{\beta}},\hat{\sigma}^2) 最大。由于 \hat{\boldsymbol{\beta}} 只出現(xiàn)在第三項,于是 \hat{\boldsymbol{\beta}} 要使得 (\boldsymbol y - {\bf X}\hat{\boldsymbol \beta})^\prime(\boldsymbol y - {\bf X}\hat{\boldsymbol \beta}) 最小,這正正好是OLS的目標函數(shù) \boldsymbol{e'e} ,于是:
\hat{\boldsymbol{\beta}}_{ML} = \hat{\boldsymbol{\beta}}_{OLS} = ({\bf X'X})^{-1}{\bf X'}\boldsymbol y
下一步就是求解 \hat{\sigma}^2 ,此時LLF變?yōu)?code>集中對數(shù)似然函數(shù)(concentrated log likelihood function):
\ln L(\hat{\boldsymbol{\beta}},\hat{\sigma}^2) = -\frac{n}{2} \ln 2\pi - \frac{n}{2} \ln \hat{\sigma}^2 - \frac{1}{2\hat{\sigma}^2} \boldsymbol{e'e}
\hat{\sigma}^2 求導(dǎo),有:
-\frac{n}{2} \frac{1}{\tilde{\sigma}^{2}}+\frac{1}{2 \tilde{\sigma}^{4}} \boldsymbol{e'e}=0
于是可以求解:
\hat{\sigma}_{ML}^{2}=\frac{\boldsymbol{e^{\prime} e}}{n} \neq \hat{\sigma}_{OLS}^{2}=\frac{\boldsymbol{e^{\prime} e}}{n-K}=s^{2}
于是我們發(fā)現(xiàn),MLE對回歸系數(shù) \boldsymbol \beta 的估計與OLS是一致的,不過對擾動項方差 \sigma^2 的估計則不同(受制于自由度的問題),不過
這個問題在大樣本下消失
。另外,由于我們知道 s^2\sigma^2 的無偏估計,從而 \hat{\sigma}^2_{ML}\sigma^2 是有偏估計。


6.3 MLE的數(shù)值解

如果模型存在非線性,MLE通常沒有解析解,只能尋找數(shù)值解(numerical solution),不過這部分不是我們的重點,可以自己翻看教材。

實際上Matlab、Python、R之類的都提供了非線性求解器,所以這不需要我們操心


6.4 信息矩陣與無偏估計的最小方差

為了研究MLE的大樣本性質(zhì),定義信息矩陣(information matrix)為對數(shù)似然函數(shù)的黑塞矩陣之期望值的負數(shù),即:

在一維情形下,? 就是LLF的二階導(dǎo)數(shù)的負數(shù)。由于LLF為凹函數(shù),所以其二階導(dǎo)數(shù)為負數(shù),于是一維情形下的信息“矩陣”為正。更一般地, ? 就是LLF在 ? 空間的高維曲率(curvature),取期望以后的 ? 其實就是表示平均曲率(對 ? 平均)。

在求解 ? 時,如果LLF曲率大、很陡峭,就比較容易分辨 ? 的位置;如果LLF曲率小、很平坦,就很難分辨 ? 的位置,如圖6.3。更極端地,如果LLF是完全平坦的,那么MLE沒有唯一解。

image

信息矩陣涉及二階偏導(dǎo)數(shù),不易計算,所以通常把它表達為一階偏導(dǎo)數(shù)的乘積的形式:

命題2\boldsymbol \theta = \boldsymbol \theta_0 ,信息矩陣等式(information matrix equality)成立:
\boldsymbol{I}\left(\boldsymbol{\theta}_{0}\right)=-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right]=\mathrm{E}\left[\frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) }{\partial \boldsymbol{\theta}} \cdot \frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta}^\prime}\right]=\mathrm{E}\left[\boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right) \boldsymbol{s}\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)^{\prime}\right]

證明2:信息矩陣等式

從證明1我們已經(jīng)知道:
\int \exp[\ln L(\pmb \theta;\pmb y)] \cdot \frac{\partial \ln L(\pmb \theta;\pmb y)}{\partial \pmb \theta} {\rm d}\pmb y = \pmb 0
該方程兩邊繼續(xù)對 \boldsymbol \theta^\prime 求導(dǎo),有:
\int\left\{\frac{\partial^{2} \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}} \exp [\ln L(\boldsymbol{\theta} ; \boldsymbol{y})]+\frac{\partial \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta}} \exp [\ln L(\boldsymbol{\theta} ; \boldsymbol{y})] \frac{\partial \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta}^{\prime}}\right\} \mathrmu0z1t8os \boldsymbol{y}=\mathbf{0}
移項,然后令 L(\boldsymbol{\theta} ; \boldsymbol{y}) := \exp [\ln L(\boldsymbol{\theta} ; \boldsymbol{y})] ,那么就有:
-\int\left\{\frac{\partial^{2} \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}} L(\boldsymbol{\theta} ; \boldsymbol{y})\right\} \mathrmu0z1t8os \boldsymbol{y}=\int\left\{\frac{\partial \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \ln L(\boldsymbol{\theta} ; \boldsymbol{y})}{\partial \boldsymbol{\theta}^{\prime}} L(\boldsymbol{\theta} ; \boldsymbol{y})\right\} \mathrmu0z1t8os \boldsymbol{y}
于是,根據(jù)期望的定義,就有:
-\mathrm{E}\left[\frac{\partial^{2} \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta} \partial \boldsymbol{\theta}^{\prime}}\right]=\mathrm{E}\left[\frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta}} \cdot \frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta}^{\prime}}\right]
證畢。

其實證明1證明2的思路都挺簡單的,最關(guān)鍵的技巧是從LF寫成 \exp(\ln(\cdot)) 的形式以湊出LLF。然后都是求導(dǎo)(或者二階導(dǎo)),交換積分號和求導(dǎo)符號,移項,把LLF重新寫成LF的形式,用期望的定義,即可證出來。

命題3** 在 \boldsymbol \theta = \boldsymbol \theta_0 ,信息矩陣 \boldsymbol I(\boldsymbol\theta_0) 就是得分函數(shù)的協(xié)方差矩陣 {\rm Var}[s(\boldsymbol\theta_0;\boldsymbol y)] 。

證明3: 得分函數(shù)的方差為信息矩陣
\begin{split} {\rm Var}[s(\boldsymbol\theta_0;\boldsymbol y)] &= {\rm E}\left[s(\boldsymbol\theta_0;\boldsymbol y)s(\boldsymbol\theta_0;\boldsymbol y)^\prime\right] - {\rm E}[s(\boldsymbol\theta_0;\boldsymbol y)] \cdot {\rm E}[s(\boldsymbol\theta_0;\boldsymbol y)]^\prime\\ &= {\rm E}\left[s(\boldsymbol\theta_0;\boldsymbol y)s(\boldsymbol\theta_0;\boldsymbol y)^\prime\right] -0\cdot0\\ &=\boldsymbol I(\boldsymbol\theta_0) \end{split}
證畢

在統(tǒng)計學中有一個著名的結(jié)論:假設(shè) \hat{\boldsymbol\theta} 是對真實參數(shù) \boldsymbol\theta_0 的任意無偏估計,那么在一定的正則條件(regularity conditions)下, \hat{ \boldsymbol \theta} 的方差不會小于 [\boldsymbol I(\boldsymbol \theta_0)]^{-1} ,即 {\rm Var}\left(\hat{\boldsymbol \theta}\right) \geqslant [\mathrm I(\boldsymbol \theta_0)]^{-1} 。其中 [\boldsymbol I(\boldsymbol \theta_0)]^{-1} 被稱為克萊默-勞下限(Cramer-Rao Lower Bound)。因此,無偏估計所能達到的最小方差與信息矩陣(即LLF的平均曲率)有關(guān)——曲率 \boldsymbol I(\boldsymbol \theta_0) 越大,則 [\boldsymbol I(\boldsymbol \theta_0)]^{-1} 越小,那么無偏估計可能達到的方差就越小。

證明*:Cramer-Rao Lower Bound

為簡單期間,只證明一維情形。由于 \hat{\boldsymbol \theta} 是對真實參數(shù) \boldsymbol \theta_0 的任意無偏估計,于是:
\boldsymbol \theta_0 = {\rm E}\left[ \hat{\boldsymbol \theta}(\boldsymbol y) \right] = \int \hat{\boldsymbol \theta}(\boldsymbol y) L(\boldsymbol \theta_0;\boldsymbol y) \mathrm d \boldsymbol y
將上式兩邊同時對 \boldsymbol \theta_0 求導(dǎo)可得:
\begin{split} 1 = \int \hat{\boldsymbol \theta}(\boldsymbol y) \frac{\partial L(\boldsymbol \theta_0;\boldsymbol y) }{\partial \boldsymbol\theta}\mathrm d \boldsymbol y &= \int \hat{\boldsymbol \theta}(\boldsymbol y) \frac{\partial \ln L(\boldsymbol \theta_0;\boldsymbol y) }{\partial \boldsymbol\theta} \cdot L(\boldsymbol \theta_0;\boldsymbol y) \mathrm d \boldsymbol y \\ (期望的定義)& = \mathrm{E}\left[\boldsymbol{\hat{\theta}}(\boldsymbol{y}) \frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol{\theta}}\right]\\ ({\rm E}(AB)的計算+命題1)&= \operatorname{Cov}\left[\boldsymbol{\hat{\theta}}(\boldsymbol{y}) , \frac{\partial \operatorname{ln} L\left(\boldsymbol\theta_{0} ;\boldsymbol y\right)}{\partial\boldsymbol \theta}\right]\\ (相關(guān)系數(shù)\leqslant1)&\leqslant \operatorname{Var}\left[\boldsymbol{\hat{\theta}}(\boldsymbol{y}) \right] \cdot \operatorname{Var}\left[\frac{\partial\operatorname{ln} L\left(\boldsymbol\theta_{0} ; \boldsymbol{y}\right)}{\partial \boldsymbol\theta}\right]\\ (信息矩陣等式)&=\operatorname{Var}\left[\boldsymbol{\hat{\theta}}(\boldsymbol{y}) \right] \cdot \mathbf{E}\left[\frac{\partial \ln L\left(\boldsymbol{\theta}_{0} ; \boldsymbol{y}\right)}{\partial\boldsymbol \theta}\right]^{2} \end{split}
于是:
\operatorname{Var}\left[\boldsymbol{\hat{\theta}}(\boldsymbol{y}) \right] \geqslant\left[E\left(\frac{\partial \ln L\left(\boldsymbol\theta_{0} ;\boldsymbol y\right)}{\partial \boldsymbol\theta}\right)^{2}\right]^{-1}=[\boldsymbol I\left(\boldsymbol\theta_{0}\right)]^{-1}
證畢

可以證明,在古典線性回歸模型中,根據(jù)信息矩陣的定義:
[\boldsymbol I\left(\boldsymbol\theta_{0}\right)]^{-1} = \left(\begin{array}{c} \sigma^2({\bf X'X})^{-1} & \boldsymbol 0\\ \boldsymbol 0 & \frac{2\sigma^4}{n} \end{array}\right)

其中,\boldsymbol\theta_0 = \left(\boldsymbol\beta \sigma^2\right)^\prime 。由于 {\rm Var}(\hat{\boldsymbol\beta}_{OLS}) = \sigma^2 ({\bf X'X})^{-1} ,于是 \hat{\boldsymbol\beta}_{ML} = \hat{\boldsymbol\beta}_{OLS} 均達到了無偏估計的最小方差。

命題4 在高斯-馬爾可夫定理中,如果加上擾動項為正態(tài)分布的假定,那么OLS是達到了最佳無偏估計而非僅僅最佳線性無偏估計

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容