Logistics Regression

1 邏輯回歸和線性回歸的比較

先給出結(jié)論的表格

Logistics Regression	Linear Regression
$f_{w,b}(x)=\sigma(\sum\limits_iw_ix_i+b)$	$f_{w,b}(x)=\sum\limits_iw_ix_i+b$
Output: 0~1	Output: 任何值
$L(f)=\sum\limits_nC(f(x^n),y^n)$	$L(f)=\frac{1}{2}\sum\limits_n(f(x^n)-y^n)^2$
$y^n$ ：1 代表Class1，0 代表 Class2	$y^n$ 是真實(shí)的數(shù)值
$w_{i+1}=w_i-\eta\sum\limits_n-(y^n-f_{w,b}(x^n))x_i^n$	同左邊

其中Cross Entropy: $C(f(x^n),y^n)=-[y^n\ln(f(x^n))+(1-y^n)\ln(1-f(x^n))]$
為什么要用Cross Entropy（交叉熵），為什么不直接用線性回歸中的 Square Error？
在邏輯回歸中，如果用Square Error，經(jīng)過(guò)公式推導(dǎo)，若 $y^n=1$ ，則當(dāng) $f(x^n)$ 等于1（close to Class1）或者等于0（far from Class1）時(shí)， $\frac{\partial L}{\partial w_i}$ 都將為0.

Cross Entropy vs Square Error

1.1 LR的損失函數(shù)和梯度下降

1.1.1 Likelihood function

$Likelihood(w,b) = L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...f_{w,b}(x^N)$
求該函數(shù)的最大值，為了方便，轉(zhuǎn)化成下面的函數(shù)，求最小值點(diǎn)
$\begin{align*} -\ln L(w,b) & = \ln f_{w,b}(x^1)+\ln f_{w,b}(x^2)+\ln (1-f_{w,b}(x^3))...\\ & = \sum\limits _n-[y^n \ln f_{w,b}(x^n)+(1-y^n)\ln (1-f_{w,b}(x^n))] \end{align*}$
其中 $y^n$ 為1時(shí)，代表Class1，為0時(shí)，代表Class2

1.1.2 梯度下降過(guò)程

$\frac{\ln L(w,b)}{\partial w_i}=\frac{\partial \ln(1-f_{w,b}(x))}{\partial w_i}=-\frac{1}{1-\sigma(z)}\frac{\partial\sigma(z)}{\partial z}=-\sigma(z)$
這是損失函數(shù)里中括號(hào)里的一項(xiàng)，最終可將損失函數(shù)化簡(jiǎn)得
$\frac{-\ln L(w,b)}{\partial w_i}=\sum\limits _n -(y^n-f_{w,b}(x^n))x^n_i$
$w_{i+1}=w_i-\eta\sum\limits _n -(y^n-f_{w,b}(x^n))x^n_i$

1.2 Discriminative vs Generative

Discriminative 和 Generative 是兩種尋找參數(shù)的方法
前者直接找到 $w$ 和 $b$
后者會(huì)找到 $\mu1,\mu2,\Sigma^{-1}$
兩者最終得到的w和b是不一樣的
從最終的測(cè)試結(jié)果來(lái)說(shuō)，Discriminative 得到的結(jié)果是更好的
但是Generative Model 在一些情況下會(huì)得到更好的結(jié)果，因?yàn)镚enerative Model 會(huì)有“腦補(bǔ)的過(guò)程”
即，在樣本集合中不存在的某個(gè)樣本，也會(huì)被Generative腦補(bǔ)出來(lái)，這樣的樣本在一個(gè)大的樣本集合中可能會(huì)出現(xiàn)。

Generative 判斷兩個(gè)紅球同時(shí)出現(xiàn)的可能性 Class2 更大
Generative 的好處
對(duì)訓(xùn)練集的數(shù)量要求更小
對(duì)訓(xùn)練集的噪音抗干擾能力更強(qiáng)

1.3 Multi-Class Classification

以三個(gè)類(lèi)為例
$C1:w^1,b_1;z_1=w^1·x+b_1$
$C2:w^2,b_2;z_2=w^2·x+b_2$
$C1:w^3,b_3;z_3=w^3·x+b_3$
如下圖所示，三個(gè)類(lèi)經(jīng)過(guò)Softmax函數(shù)之后，最終的值都會(huì)落在0,1之間

大的越大，小的越小

1.3.1 Softmax 原理

假設(shè)有3個(gè)Class，都是高斯分布，共用同一個(gè)協(xié)方差矩陣，這種情況下，做一般推導(dǎo)以后，得到的就是softmax function

1.3.2 Softmax 損失函數(shù)

$L(x_i)=-\sum\limits_{i=1}^3y_i^*\ln y_i$
x屬于 Class1時(shí)
$y^*=\begin{bmatrix} 1\\ 0\\ 0 \end{bmatrix}$
x屬于 Class2時(shí)
$y^*=\begin{bmatrix} 0\\ 1 \\ 0 \end{bmatrix}$
x屬于 Class3時(shí)
$y^*=\begin{bmatrix} 0\\ 0\\ 1 \end{bmatrix}$
用這種方式表示 $y^*$ 的好處是，Class之間不再有某兩者更加近的距離（如2比1離3更近）