Day4 第一章 統(tǒng)計(jì)學(xué)習(xí)及監(jiān)督學(xué)習(xí)概論(習(xí)題與總結(jié))

1?幾點(diǎn)收獲與思考

  • 在監(jiān)督學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率密度分布 P(X,Y) 獨(dú)立同分布產(chǎn)生的。
  • 監(jiān)督學(xué)習(xí)中,概率模型是生成模型,非概率模型是判別模型。而條件概率分布和與函數(shù)可以相互轉(zhuǎn)化。所以,概率模型和非概率模型的區(qū)別在于模型的內(nèi)在結(jié)構(gòu)。這里 “模型的內(nèi)在結(jié)構(gòu)” 應(yīng)該指的是能否還原出聯(lián)合概率分布。
  • 核方法是用通過(guò)定義核函數(shù)直接計(jì)算映射之后再特征空間的內(nèi)積。
  • 極大似然估計(jì)等價(jià)于當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略。貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)是當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略。
  • 結(jié)構(gòu)風(fēng)險(xiǎn)最小化是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的基礎(chǔ)上增加表示模型復(fù)雜度的正則化項(xiàng)以防止過(guò)擬合。
  • 學(xué)習(xí)方法的泛化能力分析是通過(guò)理論研究泛化誤差的概率上界進(jìn)行的,往往比較復(fù)雜。在現(xiàn)實(shí)中一般使用測(cè)試誤差來(lái)評(píng)價(jià),但是結(jié)果有可能不可靠。
  • 生成方法的學(xué)習(xí)收斂速度更快,而判別方法的學(xué)習(xí)準(zhǔn)確率更高。
    (why?希望能在后續(xù)的學(xué)習(xí)中逐漸理解)

2?習(xí)題

習(xí)題1.1?說(shuō)明伯努利模型的極大似然估計(jì)以及貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素。伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。假設(shè)觀測(cè)到伯努利模型 n 次獨(dú)立的數(shù)據(jù)生成結(jié)果,其中 k 次的結(jié)果為 1,這時(shí)可以使用極大似然估計(jì)或貝葉斯估計(jì)來(lái)估計(jì)結(jié)果為 1 的概率。

解:
(1)伯努利模型
??伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。對(duì)于隨機(jī)變量 X 有,參數(shù)為 p(0<p<1),它分別以概率 p1-p 取 1 和 0 為值。隨機(jī)變量 X 的概率分布函數(shù)即模型可以寫為P(X=x|p)=\left\{\begin{align} & p^x(1-p)^{1-x},\ x=0,1;\\ & 0 \qquad\qquad\quad,\ \text{else}. \\ \end{align} \right.??伯努利模型的假設(shè)空間為\mathcal{F}=\{P|P(X=x|p), p\in [0,1]\}(2)伯努利模型的極大似然估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型:伯努利模型
??策略:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)。
??算法:極大似然估計(jì):\hat{p}=\arg\max\limits_p L(p|X)??其中 L(p|X) 為樣本的似然函數(shù)。
(3)伯努利模型的貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型:伯努利模型
??策略:結(jié)構(gòu)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)。
??算法:最大后驗(yàn)概率估計(jì):\hat{p}=\arg\max\limits_p \hat P(p|X)??其中 \hat P(p|X)后驗(yàn)概率分布

習(xí)題1.2?通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化推導(dǎo)極大似然估計(jì)。證明模型是條件概率分布,當(dāng)損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。

(參考了給出的解答思路)

解答思路

  • 根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化定義,寫出目標(biāo)函數(shù);
  • 根據(jù)對(duì)數(shù)損失函數(shù),對(duì)目標(biāo)函數(shù)進(jìn)行整理;
  • 根據(jù)似然函數(shù)定義和極大似然估計(jì)的一般步驟,得到結(jié)論。

解:
??已知模型是條件概率分布,損失函數(shù)為對(duì)數(shù)損失函數(shù)。設(shè)條件概率分布為 P_\theta(Y|X)(離散為概率分布列 p(x;\theta),連續(xù)為概率密度函數(shù)f(x;\theta)),樣本集 D=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\},N 為樣本數(shù),對(duì)數(shù)損失函數(shù)為:L(Y,P(Y|X))=-\log P(Y|X)??經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求解最優(yōu)模型就是求解最優(yōu)化問(wèn)題:\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i))其中,\mathcal{F} 是假設(shè)空間。
??結(jié)合上述兩個(gè)式子,可以得到\begin{align} \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = & \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} \big(-\log P(y_i|x_i)\big) \\ = & \ \frac{1}{N} \max_\limits{f\in\mathcal{F}} \big(\log \prod\limits_{i=1}^{N} P(y_i|x_i)\big)\\ \end{align}??根據(jù)似然函數(shù)的定義有 L(\theta)=L(x_1,x_2,\dots ,x_N;\theta)=\prod\limits_{i=1}^{N} P_{\theta} (y_i|x_i),再結(jié)合最大似然估計(jì)的一般過(guò)程,不難發(fā)現(xiàn)\arg\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = \frac{1}{N} \arg \max_\limits{f\in\mathcal{F}} \big(\log L(\theta)\big)即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì),Q.E.D

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容