統(tǒng)計(jì)學(xué)習(xí)方法筆記(第二章個(gè)人筆記)
標(biāo)簽: 機(jī)器學(xué)習(xí)深度學(xué)習(xí)
感知機(jī)(P25)
感知機(jī)是神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)的基礎(chǔ)
要點(diǎn):損失函數(shù),利用梯度下降法對(duì)損失函數(shù)進(jìn)行極小化。
1. 由輸入空間到輸出空間的函數(shù):
$$f(x)=sigm(w*x+b)$$
其中$w∈R^n$,叫權(quán)值或權(quán)值向量,$b∈R$,叫做偏置,sign是符號(hào)函數(shù)
$$sign(x)=1(X>=0)或者-1(x<0)$$
2. 感知機(jī)是一種線性分類模型,屬于判別模型
3. 由各個(gè)誤分類點(diǎn)(集合M)到超平面的距離,推出損失函數(shù)(也就是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)):
$$L(w,b)=-\sum_{x_i∈M}y_i(w*x_i+b)$$
顯然,損失函數(shù)$L(w,b)$是非負(fù)的,沒(méi)有誤分類點(diǎn),損失函數(shù)為0
4. 感知機(jī)學(xué)習(xí)算法是誤分類驅(qū)動(dòng)的,具體采用隨機(jī)梯度下降法
$$\min_{w,b}L(w,b)=-\sum_{x_i∈M}y_i(w*x_i+b)$$
5. 算法的收斂性:
對(duì)于線性可分的數(shù)據(jù)集感知機(jī)學(xué)習(xí)算法原始形式收斂,即經(jīng)過(guò)有限次的得帶可以得到一個(gè)將訓(xùn)練數(shù)據(jù)集完全正確劃分的分類超平面及感知機(jī)模型
定理2.1(P31),第二條需要注意,對(duì)于一組訓(xùn)練集$x_i為R^n$,則感知機(jī)用該數(shù)據(jù)在算法運(yùn)行中,誤分類次數(shù)K滿足:
$$k≤(\frac{R}{})^2$$
所以,定理表明,誤分類的次數(shù)k是由上界的,但例題2.1說(shuō)明,感知機(jī)的學(xué)習(xí)算法存在許多解,這些解依賴于初值的選擇和迭代過(guò)程中誤分類點(diǎn)順序的選擇。
6. 感知機(jī)學(xué)習(xí)算法的對(duì)偶形式(也是機(jī)器學(xué)習(xí)里一般用到的形式)
可以發(fā)現(xiàn),w和b的更新是一個(gè)累加的過(guò)程,如果我們假設(shè)w和b的初始值都為0,并且知道在更新的過(guò)程中,每個(gè)點(diǎn)選擇了多少次,我們就可以直接得到了w和b的最終值。
我們假設(shè)第i個(gè)點(diǎn)更新了$n_i$次,那么w和b的最終值應(yīng)該是
$$w=\sum_{i=1}^Nαiy_ix_i$$
$$b=\sum{i=1}^Nα_iy_i$$
其中,$α_i=n_iη$
這時(shí)候我們成功的把求w和b換成了求α和b。
初始值,b為0,為0向量(因?yàn)檫@時(shí)候每個(gè)點(diǎn)都沒(méi)有被更新),之后每次找到一個(gè)分錯(cuò)類的點(diǎn),更新α和b,直到每個(gè)點(diǎn)都被正確分類。
其中,某個(gè)點(diǎn)(xi,yi)分錯(cuò)類意味著(也就是把w向量替換成alpha向量):
$$u_i(\sum_{j=1}^Nα_jy_jx_j*x_i+b)≤0$$
更新方法為:
$$α_i<——α_i+\eta(即α_i增加了1,這里學(xué)習(xí)率\eta 是1)$$
$$b_i<——b+\eta y_i$$
這時(shí)候可以發(fā)現(xiàn)在訓(xùn)練中,xj與xi的內(nèi)積可以提前預(yù)處理,得到一個(gè)巨大的矩陣,之后在訓(xùn)練的過(guò)程中就可以直接使用。該矩陣稱為Gram矩陣。
即:$G=[x_ix_i]_{NN}$
舉個(gè)例子:
$x_1=(2,3)T,x_2=(4,5)T,x_3=(2,9)^T$
則G=$[x_1,x_2,x_3]^T*[x_1,x_2,x_3]$