高級計量經(jīng)濟學 11:最大似然估計(上)
此文內(nèi)容為《高級計量經(jīng)濟學及STATA應(yīng)用》的筆記,陳強老師著,高等教育出版社出版。
我只將個人會用到的知識作了筆記,并對教材較難理解的部分做了進一步闡述。為了更易于理解,我還對教材上的一些部分(包括代碼和正文)做了修改。
僅供學習參考,請勿轉(zhuǎn)載,侵刪!
目錄
-
6 最大似然估計法
-
6.5 最大似然法的大樣本性質(zhì)
- 6.5.1 估計量的一致性
- 6.5.2 漸近有效和漸近正態(tài)
-
6.6 最大似然估計量的漸近協(xié)方差矩陣
6.6.1 期望值法
6.6.2 觀測信息矩陣法
-
6.6.3 梯度向量外積或BHHH法
-
6.5 最大似然法的大樣本性質(zhì)
6 最大似然估計法
6.1 最大似然估計法的定義
假設(shè)隨機變量 的概率密度函數(shù)為
,其中
為
維位置參數(shù)向量,
表示參數(shù)向量處于參數(shù)空間中,即所有
可能取值所構(gòu)成的集合。我們現(xiàn)在通過抽取隨機樣本
來估計
。 假設(shè)
為
,那么樣本數(shù)據(jù)的聯(lián)合密度函數(shù)為:
。
注意,使用最大似然法估計,我們相當于就知道了(或者說,假設(shè)了)
的概率密度函數(shù)。
這通常被稱為“先驗分布”
在抽樣之前, 被視為隨機過程;抽樣后,
就有了特定的樣本值。因此,可以將樣本的聯(lián)合密度函數(shù)看作在
給定下,關(guān)于
的函數(shù)。于是我們定義
似然函數(shù)(likelihood function)為:
由此可見,似然函數(shù)與聯(lián)合密度函數(shù)完全相等,只是把原本是參數(shù)的 換成了自變量;把原來是自變量的
換成了參數(shù)。為了運算方便,通常把似然函數(shù)取對數(shù),將乘積轉(zhuǎn)換為求和:
最大似然估計法(Maximum Likelihood Estimation,MLE or ML)來源于一個簡單而深刻的想法:給定樣本取值后,樣本最有可能來自于參數(shù) 為何值的總體。換言之,尋找
使得觀察到樣本數(shù)據(jù)的可能性最大,于是我們的目標是最大化
對數(shù)似然函數(shù)(Loglikelihood Function,LLF):
說人話,也就是MLE是“存在即真理”的方法論。既然我現(xiàn)在觀察到
出現(xiàn)了,所以參數(shù)
也應(yīng)該盡可能讓
出現(xiàn)的概率最大。
想到學概率論的一個例子:A和B一起射箭,A和B是否射中應(yīng)該服從一個兩點分布,分別設(shè)A和B射中的概率為
和
。現(xiàn)在觀察到A的射箭結(jié)果為
而B的為
。于是我們可以從A和B射箭的結(jié)果中反推A和B射中的概率為0和0.2。在這個的例子中:
- A和B射中的概率就是這個兩點分布的參數(shù)
![]()
- 射箭結(jié)果就是
![]()
之所以是0和0.2,是因為他們是讓已經(jīng)觀察到的結(jié)果出現(xiàn)的概率最大的參數(shù)。
數(shù)學上,我們通常把最大似然估計量 寫成:
假設(shè)存在唯一內(nèi)點解,那么無約束極值問題的一階條件可以寫成:
此一階條件要求LLF的梯度向量(gradient) 為
。這實際上是
個位置參數(shù)
和
各方程構(gòu)成的方程組。該梯度向量也被稱為
得分函數(shù)(score function)或得分向量(score vector)。 本身是
的函數(shù),從而也是一個隨機變量。記真實的參數(shù)為
,那么我們有:
命題1 得分函數(shù)的期望為 。如果似然函數(shù)正確(correctly specified),則
證明1:如果似然函數(shù)正確,
因為似然函數(shù)
是概率密度函數(shù),所以
的積分為1,即:
為了引入LLF,把上面的積分寫成:
兩邊對求導(dǎo),有:
也就是:
由于似然函數(shù)正確,于是在處,
就是真實的概率密度函數(shù)。于是令上式
,就有:
中間的等號用了期望的定義:,其中
為概率密度函數(shù)。
證畢。
進一步,可以把得分函數(shù) 寫成:
其中, 為第
個觀測值對得分函數(shù)的貢獻。
6.2 線性回歸模型的MLE
假設(shè)線性回歸模型為:
為了使用MLE,首先要對擾動線做一些假設(shè)(球形擾動項): ,于是被解釋變量的條件分布為
,于是其條件概率密度函數(shù)為:
用 和
代入,取對數(shù),于是LLF為:
極大似然估計就是要求 和
使得
最大。由于
只出現(xiàn)在第三項,于是
要使得
最小,這正正好是OLS的目標函數(shù)
,于是:
下一步就是求解 ,此時LLF變?yōu)?code>集中對數(shù)似然函數(shù)(concentrated log likelihood function):
對 求導(dǎo),有:
于是可以求解:
于是我們發(fā)現(xiàn),MLE對回歸系數(shù) 的估計與OLS是一致的,不過對擾動項方差
的估計則不同(受制于自由度的問題),不過這個問題在大樣本下消失。另外,由于我們知道
是
的無偏估計,從而
對
是有偏估計。
6.3 MLE的數(shù)值解
如果模型存在非線性,MLE通常沒有解析解,只能尋找數(shù)值解(numerical solution),不過這部分不是我們的重點,可以自己翻看教材。
實際上Matlab、Python、R之類的都提供了非線性求解器,所以這不需要我們操心
6.4 信息矩陣與無偏估計的最小方差
為了研究MLE的大樣本性質(zhì),定義信息矩陣(information matrix)為對數(shù)似然函數(shù)的黑塞矩陣之期望值的負數(shù),即:
在一維情形下,? 就是LLF的二階導(dǎo)數(shù)的負數(shù)。由于LLF為凹函數(shù),所以其二階導(dǎo)數(shù)為負數(shù),于是一維情形下的信息“矩陣”為正。更一般地, ? 就是LLF在 ? 空間的高維曲率(curvature),取期望以后的 ? 其實就是表示平均曲率(對 ? 平均)。
在求解 ? 時,如果LLF曲率大、很陡峭,就比較容易分辨 ? 的位置;如果LLF曲率小、很平坦,就很難分辨 ? 的位置,如圖6.3。更極端地,如果LLF是完全平坦的,那么MLE沒有唯一解。

信息矩陣涉及二階偏導(dǎo)數(shù),不易計算,所以通常把它表達為一階偏導(dǎo)數(shù)的乘積的形式:
命題2 在 ,信息矩陣等式(information matrix equality)成立:
證明2:信息矩陣等式
從證明1我們已經(jīng)知道:
該方程兩邊繼續(xù)對求導(dǎo),有:
移項,然后令,那么就有:
于是,根據(jù)期望的定義,就有:
證畢。
其實證明1和證明2的思路都挺簡單的,最關(guān)鍵的技巧是從LF寫成
的形式以湊出LLF。然后都是求導(dǎo)(或者二階導(dǎo)),交換積分號和求導(dǎo)符號,移項,把LLF重新寫成LF的形式,用期望的定義,即可證出來。
命題3** 在 ,信息矩陣
就是得分函數(shù)的協(xié)方差矩陣
。
證明3: 得分函數(shù)的方差為信息矩陣
證畢。
在統(tǒng)計學中有一個著名的結(jié)論:假設(shè) 是對真實參數(shù)
的任意無偏估計,那么在一定的正則條件(regularity conditions)下,
的方差不會小于
,即
。其中
被稱為
克萊默-勞下限(Cramer-Rao Lower Bound)。因此,無偏估計所能達到的最小方差與信息矩陣(即LLF的平均曲率)有關(guān)——曲率 越大,則
越小,那么無偏估計可能達到的方差就越小。
證明*:Cramer-Rao Lower Bound
為簡單期間,只證明一維情形。由于
是對真實參數(shù)
的任意無偏估計,于是:
將上式兩邊同時對求導(dǎo)可得:
于是:
證畢。
可以證明,在古典線性回歸模型中,根據(jù)信息矩陣的定義:
其中, 。由于
,于是
均達到了無偏估計的最小方差。
命題4 在高斯-馬爾可夫定理中,如果加上擾動項為正態(tài)分布的假定,那么OLS是達到了最佳無偏估計而非僅僅最佳線性無偏估計