李宏毅ML05—Logistics Regression

Logistics Regression

1 邏輯回歸和線性回歸的比較

  • 先給出結(jié)論的表格
Logistics Regression Linear Regression
f_{w,b}(x)=\sigma(\sum\limits_iw_ix_i+b) f_{w,b}(x)=\sum\limits_iw_ix_i+b
Output: 0~1 Output: 任何值
L(f)=\sum\limits_nC(f(x^n),y^n) L(f)=\frac{1}{2}\sum\limits_n(f(x^n)-y^n)^2
y^n:1 代表Class1,0 代表 Class2 y^n 是真實(shí)的數(shù)值
w_{i+1}=w_i-\eta\sum\limits_n-(y^n-f_{w,b}(x^n))x_i^n 同左邊
  • 其中Cross Entropy:C(f(x^n),y^n)=-[y^n\ln(f(x^n))+(1-y^n)\ln(1-f(x^n))]
  • 為什么要用Cross Entropy(交叉熵),為什么不直接用線性回歸中的 Square Error?
    在邏輯回歸中,如果用Square Error,經(jīng)過(guò)公式推導(dǎo),若y^n=1,則當(dāng)f(x^n)等于1(close to Class1)或者等于0(far from Class1)時(shí),\frac{\partial L}{\partial w_i}都將為0.
    Cross Entropy vs Square Error

1.1 LR的損失函數(shù)和梯度下降

1.1.1 Likelihood function

  • Likelihood(w,b) = L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...f_{w,b}(x^N)
    求該函數(shù)的最大值,為了方便,轉(zhuǎn)化成下面的函數(shù),求最小值點(diǎn)
    \begin{align*} -\ln L(w,b) & = \ln f_{w,b}(x^1)+\ln f_{w,b}(x^2)+\ln (1-f_{w,b}(x^3))...\\ & = \sum\limits _n-[y^n \ln f_{w,b}(x^n)+(1-y^n)\ln (1-f_{w,b}(x^n))] \end{align*}
    其中y^n為1時(shí),代表Class1,為0時(shí),代表Class2

1.1.2 梯度下降過(guò)程

  • \frac{\ln L(w,b)}{\partial w_i}=\frac{\partial \ln(1-f_{w,b}(x))}{\partial w_i}=-\frac{1}{1-\sigma(z)}\frac{\partial\sigma(z)}{\partial z}=-\sigma(z)
    這是損失函數(shù)里中括號(hào)里的一項(xiàng),最終可將損失函數(shù)化簡(jiǎn)得
    \frac{-\ln L(w,b)}{\partial w_i}=\sum\limits _n -(y^n-f_{w,b}(x^n))x^n_i
    w_{i+1}=w_i-\eta\sum\limits _n -(y^n-f_{w,b}(x^n))x^n_i

1.2 Discriminative vs Generative

  • Discriminative 和 Generative 是兩種尋找參數(shù)的方法
    前者直接找到wb
    后者會(huì)找到\mu1,\mu2,\Sigma^{-1}
  • 兩者最終得到的w和b是不一樣的
  • 從最終的測(cè)試結(jié)果來(lái)說(shuō),Discriminative 得到的結(jié)果是更好的
    但是Generative Model 在一些情況下會(huì)得到更好的結(jié)果,因?yàn)镚enerative Model 會(huì)有“腦補(bǔ)的過(guò)程”
    即,在樣本集合中不存在的某個(gè)樣本,也會(huì)被Generative腦補(bǔ)出來(lái),這樣的樣本在一個(gè)大的樣本集合中可能會(huì)出現(xiàn)。


    Generative 判斷兩個(gè)紅球同時(shí)出現(xiàn)的可能性 Class2 更大
  • Generative 的好處
    對(duì)訓(xùn)練集的數(shù)量要求更小
    對(duì)訓(xùn)練集的噪音抗干擾能力更強(qiáng)

1.3 Multi-Class Classification

以三個(gè)類(lèi)為例
C1:w^1,b_1;z_1=w^1·x+b_1
C2:w^2,b_2;z_2=w^2·x+b_2
C1:w^3,b_3;z_3=w^3·x+b_3
如下圖所示,三個(gè)類(lèi)經(jīng)過(guò)Softmax函數(shù)之后,最終的值都會(huì)落在0,1之間

大的越大,小的越小

1.3.1 Softmax 原理

  • 假設(shè)有3個(gè)Class,都是高斯分布,共用同一個(gè)協(xié)方差矩陣,這種情況下,做一般推導(dǎo)以后,得到的就是softmax function

1.3.2 Softmax 損失函數(shù)

  • L(x_i)=-\sum\limits_{i=1}^3y_i^*\ln y_i
  • x屬于 Class1時(shí)
    y^*=\begin{bmatrix} 1\\ 0\\ 0 \end{bmatrix}
  • x屬于 Class2時(shí)
    y^*=\begin{bmatrix} 0\\ 1 \\ 0 \end{bmatrix}
  • x屬于 Class3時(shí)
    y^*=\begin{bmatrix} 0\\ 0\\ 1 \end{bmatrix}
    用這種方式表示y^*的好處是,Class之間不再有某兩者更加近的距離(如2比1離3更近)

1.3.3 Softmax 梯度下降

更新中...

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容