99精品在线观看视频,美日韩不卡

本文首發(fā)與我的個(gè)人博客Suixin's Blog

線性分類(lèi)模型主要有四種不同的方法，線性判別函數(shù)、生成式模型、判別式模型以及貝葉斯觀點(diǎn)下的Logistic回歸。我們直接考慮對(duì)原始輸入空間 $\pmb{x}$ 進(jìn)行分類(lèi)，當(dāng)然也適用于對(duì)輸入變量進(jìn)行一個(gè)固定的變換 $\phi(\pmb{x})$ 。
判別函數(shù)是一個(gè)以向量 $\pmb{x}$ 為輸入，把它直接分配到 $K$ 個(gè)類(lèi)別中的某一個(gè)類(lèi)別（ $C_k$ ）的函數(shù)。

二分類(lèi)

線性判別函數(shù)為
$y(\pmb{x})=\pmb{w}^\top\pmb{x}+w_0$
如果 $y(\pmb{x})\geqslant0$ ，則它被分到 $C_1$ 中，否則被分到 $C_2$ 中。

多分類(lèi)

造成困難的方法

‘one-versus-the-rest'方法使用 $K-1$ 個(gè)分類(lèi)器，每個(gè)分類(lèi)器是一個(gè)二分類(lèi)問(wèn)題，分開(kāi)屬于 $C_k$ 和不屬于的部分。但是可能會(huì)產(chǎn)生輸入空間無(wú)法分類(lèi)的區(qū)域，如圖所示。

image

‘one-versus-one'方法使用

\frac{K(K-1)}{2}

個(gè)分類(lèi)器，每個(gè)數(shù)據(jù)點(diǎn)的類(lèi)別根據(jù)這些判別函數(shù)中的大多數(shù)輸出類(lèi)別確定。但是這也可能會(huì)產(chǎn)生輸入空間無(wú)法分類(lèi)的區(qū)域，如圖所示。

image

正確的方法

引入一個(gè) $K$ 類(lèi)判別函數(shù)可以避免上述問(wèn)題。該函數(shù)由 $K$ 個(gè)線性函數(shù)構(gòu)成：
$y_k(\pmb{x})=\pmb{w}_k^\top\pmb{x}+w_{k0}$
對(duì)于一個(gè)數(shù)據(jù)點(diǎn) $\pmb{x}$ ，如果 $y_k(\pmb{x})$ 最大，就把它分到 $C_k$ 中。于是類(lèi)別 $C_k$ 與 $C_j$ 之間的決策面為 $y_k(\pmb{x})=y_j(\pmb{x})$ 。這樣的決策區(qū)域總是單連通的，并且是凸的。
對(duì)于二分類(lèi)問(wèn)題也可以構(gòu)造基于兩個(gè)線性函數(shù) $y_1(\pmb{x})$ 和 $y_2(\pmb{x})$ 的判別函數(shù)，只是前述方法更簡(jiǎn)單且是等價(jià)的。

分類(lèi)的最小平方法（Least Squares）求解參數(shù)矩陣

對(duì)于一個(gè)一般的 $K$ 分類(lèi)問(wèn)題，每個(gè)類(lèi)別 $C_k$ 有一個(gè)線性模型
$y_k(\pmb{x})=\pmb{w}_k^\top\pmb{x}+w_{k0}$
使用矩陣記號(hào)
$\pmb{y}(\pmb{x})=\tilde{W}^\top\tilde{\pmb{x}}$
其中， $W^\top=(\tilde{\pmb{w}}_1,\tilde{\pmb{w}}_2,\cdots,\tilde{\pmb{w}}_K)^\top$ 每行為 $\tilde{\pmb{w}}_k^\top$ ， $\tilde{\pmb{w}}_k=(w_{k0},\pmb{w}_k^\top)^\top$ 為列向量， $\tilde{\pmb{x}}=(1,\pmb{x}^\top)^\top$ 為列向量。
一個(gè)新的輸入 $\pmb{x}$ 將被分到 $y_k(\pmb{x})=\tilde{\pmb{w}}_k^\top\tilde{\pmb{x}}$ 最大的類(lèi)別中。
對(duì)于訓(xùn)練集 $\{\pmb{x}_n,\pmb{t}_n\}$ ，其中 $n=1,2,\cdots,N$ ，平方和誤差函數(shù)為
$E_D(\tilde{W})=\frac{1}{2}Tr\{(\tilde{X}\tilde{W}-T)^\top(\tilde{X}\tilde{W}-T)\}$
其中， $\tilde{X}=(\tilde{\pmb{x}}_1^\top,\tilde{\pmb{x}}_2^\top,\cdots,\tilde{\pmb{x}}_N^\top)^\top$ ， $T=(\tilde{\pmb{t}}_1^\top,\tilde{\pmb{t}}_2^\top,\cdots,\tilde{\pmb{t}}_N^\top)^\top$ 采用‘1-of-K’表示方式。求導(dǎo)可得參數(shù)矩陣最優(yōu)解為
$\tilde{W}=(\tilde{X}^\top\tilde{X})^{-1}\tilde{X}^\top T=\tilde{X}^\dagger T$
即可得判別函數(shù)為
$\pmb{y}(\pmb{x})=\tilde{W}^\top\tilde{\pmb{x}}=T^\top(\tilde{X}^\dagger)^\top\tilde{\pmb{x}}$
然而，最小平方解對(duì)于離群點(diǎn)缺少魯棒性，且通常不會(huì)給出較好的結(jié)果，這與高斯條件分布假設(shè)有關(guān)。

Fisher線性判別函數(shù)

針對(duì)二分類(lèi)問(wèn)題，我們將數(shù)據(jù)投影到一維，通過(guò)調(diào)整權(quán)向量，使類(lèi)別之間分開(kāi)最大。投影式為
$y=\pmb{w}^\top\pmb{x}$
當(dāng)?shù)玫阶罴训耐队爸螅恍柙O(shè)置一個(gè)恰當(dāng)?shù)拈撝导纯蓪颖痉诸?lèi)。
投影之后的類(lèi)別均值差為
$m_2-m_1=\pmb{w}^\top(\pmb{m}_2-\pmb{m}_1)$
其中， $\pmb{m}_1$ 和 $\pmb{m}_2$ 為原始數(shù)據(jù)的類(lèi)別均值向量，此處限制 $\pmb{w}$ 為單位長(zhǎng)度，即 $\sum_iw_i^2=1$ 。
Fisher思想：最大化一個(gè)函數(shù)，使得類(lèi)均值的投影分開(kāi)較大，類(lèi)內(nèi)的方差較小。
Fisher準(zhǔn)則根據(jù)類(lèi)間方差和類(lèi)內(nèi)方差的比值定義：
$J(\pmb{w})=\frac{(m_2-m_1)^2}{s_1^2+s_2^2}$
其中，投影后的一維類(lèi)內(nèi)方差為 $s_k^2=\sum_{n\in C_k}(y_n-m_k)^2$ ， $y_n=\pmb{w}^\top\pmb{x}_n$ 。
化簡(jiǎn)可得
$J(\pmb{w})=\frac{\pmb{w}^\top S_B\pmb{w}}{\pmb{w}^\top S_W\pmb{w}}$
其中， $S_B$ 和 $S_W$ 分別為類(lèi)間協(xié)方差陣和類(lèi)內(nèi)協(xié)方差陣
$S_B=(\pmb{m}_2-\pmb{m}_1)(\pmb{m}_2-\pmb{m}_1)^\top \\ S_W=\sum_{n\in C_1}(\pmb{x}_n-\pmb{m}_1)(\pmb{x}_n-\pmb{m}_1)^\top+\sum_{n\in C_2}(\pmb{x}_n-\pmb{m}_2)(\pmb{x}_n-\pmb{m}_2)^\top$
對(duì) $J(\pmb{w})$ 求導(dǎo)可得
$(\pmb{w}^\top S_B\pmb{w})S_W\pmb{w}=(\pmb{w}^\top S_W\pmb{w})S_B\pmb{w}\\ \pmb{w}\propto S_W^{-1}(\pmb{m}_2-\pmb{m}_1)$
若類(lèi)內(nèi)協(xié)方差陣是各向同性的，則 $S_W$ 正比于單位矩陣， $\pmb{w}$ 正比于原始數(shù)據(jù)的類(lèi)均值差。
對(duì)于多分類(lèi)問(wèn)題，也有對(duì)應(yīng)的Fisher判別函數(shù)。

感知器算法

對(duì)輸入向量先進(jìn)行一個(gè)固定的非線性變換再構(gòu)造一個(gè)線性模型，為
$y(\pmb{x})=f(\pmb{w}^\top\phi(\pmb{x}))$
其中， $f(·)$ 為一個(gè)階梯函數(shù)
$f(a)= \begin{cases} 1, & a\geqslant0 \\ -1, & a<0 \end{cases}$
此處我們使用 $t=+1$ 表示 $C_1$ ， $t=-1$ 表示 $C_2$ 。
我們需要找到合適的權(quán)向量 $\pmb{w}$ 使得對(duì)所有的數(shù)據(jù)點(diǎn)有 $\pmb{w}^\top\phi(\pmb{x}_n)\pmb{t}_n>0$ 。
感知器準(zhǔn)則：對(duì)于誤分類(lèi)的數(shù)據(jù) $\pmb{x}_n$ 賦予誤差，則誤差函數(shù)為
$E_P(\pmb{w})=-\sum_{n\in \mathscr{M}}\pmb{w}^\top\phi_n\pmb{t}_n$
其中， $\mathscr{M}$ 表示所有誤分類(lèi)數(shù)據(jù)的集合。對(duì)該誤差函數(shù)使用隨機(jī)梯度下降（SGD）
$\pmb{w}^{(\tau+1)}=\pmb{w}^{(\tau)}-\eta\nabla E_P(\pmb{w})=\pmb{w}^{(\tau)}+\eta\phi_n\pmb{t}_n$
由于 $f(·)$ 的設(shè)置，不失一般性可設(shè) $\eta=1$ 。則實(shí)際上SGD變?yōu)榱耍喝绻摂?shù)據(jù)點(diǎn)分類(lèi)正確，則權(quán)向量保持不變；如果分類(lèi)錯(cuò)誤，對(duì)于類(lèi)別 $C_1$ ，把向量 $\phi(\pmb{x}_n)$ 加到當(dāng)前的權(quán)向量上得到新的權(quán)向量，對(duì)于類(lèi)別 $C_2$ ，則從當(dāng)前的權(quán)向量中減掉 $\phi(\pmb{x}_n)$ 得到新的權(quán)向量。
注：感知器學(xué)習(xí)規(guī)則并不保證在每個(gè)階段都會(huì)減小整體誤差。但由感知器收斂定理，如果訓(xùn)練數(shù)據(jù)線性可分，那么感知器算法可以保證在有限步驟內(nèi)找到精確解。對(duì)于線性不可分?jǐn)?shù)據(jù)，則永遠(yuǎn)不會(huì)收斂。