文章原創(chuàng),最近更新:2018-06-20
1.模型
2.策略
3.算法
參考鏈接:
1、 《深度學(xué)習(xí)入門六》損失函數(shù)減肥用,神經(jīng)網(wǎng)絡(luò)調(diào)權(quán)重
前言:通過網(wǎng)上找的文章,通過歸納總結(jié)具體如下:
統(tǒng)計學(xué)習(xí)方法都是由模型、策略和算法構(gòu)成的,即統(tǒng)計學(xué)習(xí)方法由三要素構(gòu)成,可以簡單地表示為:
方法=模型+策略+算法
下面論述監(jiān)督學(xué)習(xí)中的統(tǒng)計學(xué)習(xí)三要素。非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)也同樣擁有這三要素??梢哉f構(gòu)建一種統(tǒng)計學(xué)習(xí)方法就是確定具體的統(tǒng)計學(xué)習(xí)三要素。
1.模型
統(tǒng)計學(xué)習(xí)首要考慮的問題是學(xué)習(xí)什么樣的模型。在監(jiān)督學(xué)習(xí)過程中,模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)。模型的假設(shè)空間(hypothesis space)包含所有可能的條件概率分布或決策函數(shù)。例如,假設(shè)決策函數(shù)是輸入變量的線性函數(shù),那么模型的假設(shè)空間就是所有這些線性函數(shù)構(gòu)成的函數(shù)集合。假設(shè)空間中的模型一般有無窮多個.
假設(shè)空間用F表示,假設(shè)空間可以定義為決策函數(shù)的集合

其中,X和Y是定義在輸入空間x和輸出空間y上的變量。這時F通常是由一個參數(shù)向量決定的函數(shù)族:

2.策略
2.1損失函數(shù)
有了模型的假設(shè)空間,統(tǒng)計學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。統(tǒng)計學(xué)習(xí)的目標(biāo)在于從假設(shè)空間中選取最優(yōu)模型首先引入損失函數(shù)與風(fēng)險函數(shù)的概念。損失函數(shù)度量模型一次預(yù)測的好壞,風(fēng)險函數(shù)度量平均意義下模型預(yù)測的好壞.
我們知道,在機(jī)器學(xué)習(xí)中的“有監(jiān)督學(xué)習(xí)”算法里,在假設(shè)空間中,構(gòu)造一個決策函數(shù)f,對于給定的輸入X,由f(X)給出相應(yīng)的輸出Y,這個實際輸出值Y和原先預(yù)期值Y’可能不一致。于是,我們需要定義一個損失函數(shù)(loss function),也有人稱之為代價函數(shù)(cost function)來度量這二者之間的“落差”程度。這個損失函數(shù)通常記作L(Y,Y)= L(Y, f(X)),為了方便起見,這個函數(shù)的值為非負(fù)數(shù)。
常見的損失函數(shù)有如下3類:
(1)0-1損失函數(shù)(0-1 loss function):
(2)絕對損失函數(shù)(absolute loss function)
(3)平方損失函數(shù)(quadratic loss function)
損失函數(shù)值越小,說明實際輸出和預(yù)期輸出的差值就越小,也就說明我們構(gòu)建的模型越好。
對于第一類損失函數(shù),用我自身減肥的例子很容易解釋。就是減肥目標(biāo)達(dá)到?jīng)]?達(dá)到了,輸出為0(沒有落差嘛),沒有達(dá)到輸出1(減肥尚未成功,胖紙還需努力?。?/p>
對于第二類損失函數(shù)就更具體了。當(dāng)前體重秤上讀數(shù)和減肥目標(biāo)的差值,這個差值有可能為正,但還有可能為負(fù)值,比如說,減肥目標(biāo)為150磅,但一不小心減肥過猛,減到140磅,這是值就是“-10”磅,為了避免這樣的正負(fù)值干擾,干脆就取一個絕對值好了。
對于第三類損失函數(shù),類似于第二類。同樣達(dá)到了避免正負(fù)值干擾,但是為了計算方便(主要是為了求導(dǎo)),通常還會在前面加一個“1/2”,這樣一求導(dǎo),指數(shù)上的“2”和“1/2”就可以相乘為“1”了:
當(dāng)然,為了計算方面,還可以用對數(shù)損失函數(shù)(logarithmic loss function)。這樣做的目的,主要是便于使用最大似然估計的方法來求極值。一句話,咋樣方便咋樣來!
或許你會問,有了這些損失函數(shù)?有啥子用呢?當(dāng)然有用了!因為可以用它反向配置網(wǎng)絡(luò)中的權(quán)值(weight),讓損失(loss)最小啊。
我們都知道,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的本質(zhì),其實就是利用“損失函數(shù)(loss function)”,來調(diào)節(jié)網(wǎng)絡(luò)中的權(quán)重(weight)。
2.2風(fēng)險函數(shù)
損失函數(shù)值越小,模型就越好。由于模型的輸入、輸出(X,Y)是隨機(jī)變量,遵循聯(lián)合分布P(X,Y),所以損失函數(shù)的期望是

這是理論上模型f(X)關(guān)于聯(lián)合分布P(X,Y)的平均意義下的損失,稱為風(fēng)險函數(shù)(risk function)或期望損失(expected loss)
學(xué)習(xí)的目標(biāo)就是選擇期望風(fēng)險最小的模型。由于聯(lián)合分布P(X,Y)是未知的,Rexp(f)不能直接計算。實際上,如果知道聯(lián)合分布P(X,Y),可以從聯(lián)合分布直接求出條件概率分布P(Y|X),也就不需要學(xué)習(xí)了。正因為不知道聯(lián)合概率分布,所以才需要進(jìn)行學(xué)習(xí)。這樣一來,一方面根據(jù)期望風(fēng)險最小學(xué)習(xí)模型要用到聯(lián)合分布,另一方面聯(lián)合分布又是未知的,所以監(jiān)督學(xué)習(xí)就成為一個病態(tài)問題(ill-formed problem)
給定一個訓(xùn)練數(shù)據(jù)集

模型f(X)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失稱為經(jīng)驗風(fēng)險(empirical risk)或經(jīng)驗損失(empirical loss),記作Remp:

期望風(fēng)險Rexp(f)是模型關(guān)于聯(lián)合分布的期望損失,經(jīng)驗風(fēng)險Remp(f)是模型關(guān)于訓(xùn)練樣本集的平均損失。根據(jù)大數(shù)定律,當(dāng)樣本容量N趨于無窮時,經(jīng)驗風(fēng)險Remp(f)趨于期望風(fēng)險Rexp(f)·所以一個很自然的想法是用經(jīng)驗風(fēng)險估計期望風(fēng)險。但是,由于現(xiàn)實中訓(xùn)練樣本數(shù)目有限,甚至很小,所以用經(jīng)驗風(fēng)險估計期望風(fēng)險常常并不理想,要對經(jīng)驗風(fēng)險進(jìn)行一定的矯正。這就關(guān)系到監(jiān)督學(xué)習(xí)的兩個基本策略:經(jīng)驗風(fēng)險最小化和結(jié)構(gòu)風(fēng)險最小化。
3.算法
算法是指學(xué)習(xí)模型的具體計算方法。統(tǒng)計學(xué)習(xí)基于訓(xùn)練數(shù)據(jù)集,根據(jù)學(xué)習(xí)策略,從假設(shè)空間中選擇最優(yōu)模型,最后需要考慮用什么樣的計算方法求解最優(yōu)模型.