色呦国产精品,欧美日韩蜜桃臀九区,亚洲一二三高清区

??線性回歸用于處理因變量是連續(xù)量的預(yù)測(cè)問題，而邏輯回歸是解決二分類的問題（邏輯回歸名字叫“回歸”其實(shí)解決的是分類問題）。邏輯回歸的結(jié)果只有兩種情況（0或1），那么為什么冠以“回歸”的名稱呢？

“邏輯回歸”為什么叫“回歸”？

??假設(shè)有一個(gè)“買車”問題，買車與否與一個(gè)人的收入有關(guān)系，收入多則買車，收入低就不會(huì)買車。假設(shè)一個(gè)人的收入與工齡、每周工作時(shí)間、支出等因素有關(guān)，這樣收入的多少與工齡、工作時(shí)間、支出等可以看做一個(gè)線性回歸問題 $Z=W^{^{T}}X$ 。很顯然是否買車與與工齡、每周工作時(shí)間、支出等因素有關(guān)卻不能用一個(gè)線性的模型去模擬。買車與否在數(shù)學(xué)建模上來(lái)說(shuō)本質(zhì)上是一個(gè)（0， 1）問題。我們希望能有一個(gè)模型能幫我們實(shí)現(xiàn)從 $Z$ 值到0， 1的轉(zhuǎn)換。

圖1、 sigmod函數(shù).png

\phi(x)=\frac{1}{1+e^{x}}

??數(shù)學(xué)家們發(fā)現(xiàn)一個(gè)函數(shù)具有如圖1所示的性質(zhì)。則是sigmod函數(shù)，其能將實(shí)數(shù)轉(zhuǎn)換在[0，-1]范圍內(nèi)。這樣我們便可以將上面線性回歸的結(jié)果

Z

作為sigmod函數(shù)的輸入，sigmod函數(shù)的輸出便是我們要的分類結(jié)果（“1”代表“買車”，“0”代表“不買車”）。便有下面的公式：

\phi(Z)=\frac{1}{1+e^{Z}} =\frac{1}{1+e^{W^{T}X}}

??這樣便能實(shí)現(xiàn)對(duì)一個(gè)二分類問題進(jìn)行建模與預(yù)測(cè)，因?yàn)槠鋝igmod函數(shù)的輸入運(yùn)用的便是之前的線性回歸的東西，所以這里叫“邏輯回歸”。

尋找代價(jià)函數(shù)

為什么不能用誤差函數(shù)作為代價(jià)函數(shù)

??建造邏輯回歸的模型公式后，我們需要找一個(gè)懲罰函數(shù)或者說(shuō)代價(jià)函數(shù)，以便來(lái)訓(xùn)練模型。這個(gè)我們可以試著用以前處理線性回歸一樣方法來(lái)找邏輯回歸的代價(jià)函數(shù)，如下式： $J(w)=\sum_{i}^{m}\frac{1}{2}(\phi (z^{(i)})-y^{i})^{2}$ ??其中， $z^{(i)}=w^{T}x^{i}+b$ ， $i$ 表示第 $i$ 個(gè)樣本點(diǎn)， $y^{i}$ 表示第 $i$ 個(gè)樣本點(diǎn)的真實(shí)值， $\phi (z^{(i)})$ 表示第 $i$ 個(gè)樣本的預(yù)測(cè)值。直接對(duì)上式求導(dǎo)求其最小值，最后會(huì)發(fā)現(xiàn)代價(jià)函數(shù)是一個(gè)關(guān)于 $w$ 的非凸函數(shù)，如圖2。這意味著其會(huì)有很多局部極小值，這不利于求解。

2.jpg

可行的代價(jià)函數(shù)

??換個(gè)思路，前面運(yùn)用sigmod函數(shù)將問題最終轉(zhuǎn)化為一個(gè)（0， 1）問題，其也可以看做是一個(gè)后驗(yàn)概率的估計(jì) $p(y=1|x)$ ，即在 $y=1$ 的情況下， $x$ 的分布。所以就有如下公式： $p(y=1|x;w)=\phi (Z)=\phi (W^{T}X)$
$p(y=0|x;w)=1-\phi (Z)$ ??其中， $p(y=1|x;w)$ 表示具有參數(shù) $w$ 的情況下，在 $x$ 點(diǎn)， $y=1$ 的概率。上面的式子也可以寫作如下的一般形式： $p(y|x;w)=\phi (z)^{y}(1-\phi (z))^{(1-y)}$ ??這個(gè)式子相當(dāng)于是將上面兩個(gè)式子合二為一，當(dāng) $y=1$ 時(shí)， $1-y=0$ 則上式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(y%7Cx%3Bw)%3D%5Cphi%20(Z)" alt="p(y|x;w)=\phi (Z)" mathimg="1">，當(dāng) $y=0$ 時(shí)，上式變?yōu)?img class="math-inline" src="https://math.jianshu.com/math?formula=p(y%3D0%7Cx%3Bw)%3D1-%5Cphi%20(Z)" alt="p(y=0|x;w)=1-\phi (Z)" mathimg="1">。
??對(duì)于上面帶有參數(shù) $w$ 的一般形式可以運(yùn)用極大似然的思想進(jìn)行理解，即：求一個(gè) $W$ 使 $X$ 經(jīng)過上面的運(yùn)算最接近 $y$ 。則上面式可以寫為似然函數(shù)如下式： $L(w)=\prod_{i}^{n}p(y^{i}|x^{i};w)=\prod_{i}^{n}(\phi z^{(i)})^{y^{i}}(1-\phi (z^{i}))^{()1-y^{i})}$ ??為了簡(jiǎn)化可以兩邊取對(duì)數(shù) $l(w)=log(L(w))=\sum_{i}^{m}y^{i}ln(\phi(z^{(i)}))+(1-y^{(i)}log(1-\phi (z^{(i)}))$ ??上式是求 $W$ 使 $\phi (z^{(i)})$ 最接近 $y^{(i)}$ ，將上式取負(fù)（加負(fù)號(hào)）則是求最小值，這便是我們需要的目標(biāo)函數(shù)，如下： $J(w)=-l(w)=-\sum_{i}^{m}y^{i}ln(\phi(z^{(i)}))+(1-y^{(i)}log(1-\phi (z^{(i)}))$ ??為了更好的理解代價(jià)函數(shù)，拿一個(gè)例子（其中的一項(xiàng)）來(lái)看一下： $J(y,\phi (z);w)=\left\{\begin{matrix} -ln(\phi (z)) \qquad if \quad y=1\\ -ln(1-\phi (z)) \quad if \quad y=0 \end{matrix}\right.$

3.jpg_副本.png

??從圖中可以看出若樣本的值是1，估計(jì)值越接近1，付出的代價(jià)越小，反之越大。同理，如果樣本的值是0，估計(jì)值越接近0，付出的代價(jià)越少，反之越大。

利用梯度下降法求解

?? sigmoid函數(shù)有一個(gè)很好的性質(zhì)那就是： $\phi{}' (z)=\phi (z)(1-\phi (z))$
??梯度下降法的使用： $w_{j}:=w_{j}-\alpha\frac{\partial J(w)}{\partial w_{j}}$ ??其中， $w_{j}$ 表示第 $j$ 個(gè)特征的權(quán)重， $\alpha$ 為學(xué)習(xí)率，用來(lái)控制步長(zhǎng)，式中的梯度如下： $\begin{align*} \frac{\partial J(w)}{\partial w_{j}} &=-\frac{\partial }{\partial x}\sum_{i}^{n}[y^{(i)}ln(\phi z^{(i)})+(1-y^{(i)})ln(1-\phi (z^{(i)}))]\\ &=-\sum_{i}^{n}[(y^{(i)}\frac{1}{\phi (z^{(i))}))}-(1-y^{(i)})\frac{1}{1-\phi (z^{(i)})})\phi{}' (z^{(i)})]\\ &=-\sum_{i}^{n}[(y^{(i)}\frac{1}{\phi (z^{(i))}))}-(1-y^{(i)})\frac{1}{1-\phi (z^{(i)})})\phi (z^{(i)})(1-\phi (z^{(i)}))]\\ &=-\sum_{i}^{n}[(y^{(i)}(1-\phi (z^{(i)}))-(1-y^{(i)})\phi (z^{(i)}))x_{j}]\\ &=-\sum_{i}^{n}[(y^{(i)}-\phi (z^{(i)}))x_{j}] \end{align*}$
?? 在使用梯度下降算法更新權(quán)重時(shí)，可進(jìn)行批量更新權(quán)重： $w_{j}:=w_{j}+\alpha \sum_{i}^{n}[(y^{(i)}-\phi (z^{(i)}))x_{j}]$ ??在數(shù)據(jù)樣本較大的時(shí)候每次更新權(quán)重非常的消耗時(shí)間，這時(shí)可以采用隨機(jī)梯度下降和小批量梯度下降法.