經(jīng)驗(yàn)風(fēng)險(xiǎn)、期望風(fēng)險(xiǎn)、結(jié)構(gòu)風(fēng)險(xiǎn)

本次記錄內(nèi)容包括機(jī)器學(xué)習(xí)中的三種類型的風(fēng)險(xiǎn)函數(shù)

風(fēng)險(xiǎn)函數(shù)與損失函數(shù)的關(guān)系

統(tǒng)計(jì)學(xué)習(xí)模型旨在假設(shè)空間中尋找最佳的模型,那么需要指定一個(gè)準(zhǔn)則來作為模型選取的評(píng)判標(biāo)準(zhǔn)。
因此引入了損失函數(shù)和風(fēng)險(xiǎn)函數(shù)。

損失函數(shù):度量模型一次預(yù)測(cè)的好壞
風(fēng)險(xiǎn)函數(shù):度量平均意義下的模型預(yù)測(cè)好壞

由損失函數(shù)推向風(fēng)險(xiǎn)函數(shù)

常見的損失函數(shù):


確定了損失函數(shù)后,那么自然地?fù)p失函數(shù)越小越好,由于模型的輸入X,輸出Y 是隨機(jī)變量,遵循聯(lián)合分布P(X, Y),所以損失函數(shù)的期望為:

(連續(xù)變量求積分,離散變量求和)

為什么要引入損失函數(shù)的期望呢?
原因是:人們希望模型能夠刻畫在全體樣本上的預(yù)測(cè)能力!

解釋:就目前為止,我們手頭上的數(shù)據(jù)僅僅是訓(xùn)練集,想要刻畫模型對(duì)訓(xùn)練集擬合的好壞,直接將單點(diǎn)誤差損失相加求均值即可,但是我們的模型再怎樣對(duì)訓(xùn)練集擬合的好,都無濟(jì)于事,因?yàn)槲覀兏嗫紤]的是模型對(duì)未知數(shù)據(jù)的擬合能力。那么如何衡量模型在全體數(shù)據(jù)集上的性能呢?自然而然,引入概率論中兩隨機(jī)變量的期望。

區(qū)別一下期望和均值:

如果我們能進(jìn)行無窮次隨機(jī)實(shí)驗(yàn)并計(jì)算出其樣本的平均數(shù)的話,那么這個(gè)平均數(shù)其實(shí)就是期望。當(dāng)然實(shí)際上根本不可能進(jìn)行無窮次實(shí)驗(yàn),但是實(shí)驗(yàn)樣本的平均數(shù)會(huì)隨著實(shí)驗(yàn)樣本的增多越來越接近期望,就像頻率隨著實(shí)驗(yàn)樣本的增多會(huì)越來越接近概率一樣
如果說概率是頻率隨樣本趨于無窮的極限
那么期望就是平均數(shù)隨樣本趨于無窮的極限

經(jīng)驗(yàn)風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)

我們將上面提到的訓(xùn)練集的總損失定義為經(jīng)驗(yàn)風(fēng)險(xiǎn),如下所示:



將損失的期望稱為期望風(fēng)險(xiǎn),如下所示:


怎樣求風(fēng)險(xiǎn)?

機(jī)器學(xué)習(xí)問題求的是條件概率,那么有人就說了,既然上面提到了兩隨機(jī)變量的聯(lián)合分布,那么我們根據(jù)條件概率-聯(lián)合概率-邊緣概率的關(guān)系豈不是可以直接求解?

其實(shí),我們手頭無法得到全體樣本,因此,聯(lián)合概率 P(X, Y) 是無法得到的,但是根據(jù)弱大數(shù)定律,當(dāng)樣本N無限大時(shí),可用經(jīng)驗(yàn)風(fēng)險(xiǎn)作為期望風(fēng)險(xiǎn)的估計(jì),也就是局部估計(jì)整體。
那么我們常說的風(fēng)險(xiǎn)最小化其實(shí)就指的是經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化!

為何引入結(jié)構(gòu)化風(fēng)險(xiǎn)?

雖然可以使用經(jīng)驗(yàn)損失近似估計(jì)期望風(fēng)險(xiǎn),但是大數(shù)定理的前提是N無窮大,實(shí)際上,我們的訓(xùn)練集一般不會(huì)特別大,此時(shí)就需要對(duì)經(jīng)驗(yàn)風(fēng)險(xiǎn)做出適當(dāng)調(diào)整才能近似估計(jì)。因此引入結(jié)構(gòu)風(fēng)險(xiǎn)。

結(jié)構(gòu)化風(fēng)險(xiǎn)是為了緩解數(shù)據(jù)集過小而導(dǎo)致的過擬合現(xiàn)象,其等價(jià)于正則化,本質(zhì)上反應(yīng)的是模型的復(fù)雜度。認(rèn)為經(jīng)驗(yàn)風(fēng)險(xiǎn)越小,參數(shù)越多,模型越復(fù)雜,因此引入對(duì)模型復(fù)雜度的懲罰機(jī)制。定義如下:

正則化被定義為模型復(fù)雜度的單調(diào)函數(shù),λ用于權(quán)衡經(jīng)驗(yàn)風(fēng)險(xiǎn)與模型復(fù)雜度。
至此,我們認(rèn)為結(jié)構(gòu)風(fēng)險(xiǎn)最小化的模型是最優(yōu)模型,因此,我們的優(yōu)化問題變?yōu)椋?/p>

結(jié)構(gòu)化風(fēng)險(xiǎn)本質(zhì)

結(jié)構(gòu)化風(fēng)險(xiǎn)(正則項(xiàng))其實(shí)是加入了模型參數(shù)分布的先驗(yàn)知識(shí),也就是貝葉斯學(xué)派為了將模型往人們期望的地方去發(fā)展,繼而加入了先驗(yàn)分布,由于是人為的先驗(yàn),因此也就是一個(gè)規(guī)則項(xiàng)(這也就是正則項(xiàng)名稱的由來)。這樣一來,風(fēng)險(xiǎn)函數(shù)將進(jìn)一步考慮了被估計(jì)量的先驗(yàn)概率分布。

李航老師書中的兩個(gè)疑惑

  1. “當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí),結(jié)構(gòu)風(fēng)險(xiǎn)最小化就等價(jià)于最大后驗(yàn)概率估計(jì)?!?/strong>
    證明:

  1. "當(dāng)模型是條件概率分布,損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí),經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)"
    證明:
    極大似然需滿足樣本抽樣為獨(dú)立同分布,且模型已知,對(duì)模型參數(shù)進(jìn)行估計(jì)。
    極大似然定義如下:

轉(zhuǎn)載注明:http://www.itdecent.cn/p/903e35e1c95a

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容