經(jīng)典機(jī)器學(xué)習(xí)系列之【線性模型與廣義線性模型】

??這一節(jié)我們介紹線性模型,介紹思路如下:我們先介紹概念,什么叫做線性模型?在了解了基本的線性模型之后,我們將其應(yīng)用于一元線性回歸,之后擴(kuò)展到多元線性回歸。之后我們?cè)賹⑵鋽U(kuò)展到廣義線性模型。最后通過(guò)廣義線性模型遷移到logit回歸(分類(lèi)問(wèn)題)中。

線性模型基本概念

??線性模型(Linear Model)是在假設(shè)特征滿足線性關(guān)系,給定一些數(shù)據(jù),需要用這些數(shù)據(jù)訓(xùn)練一個(gè)模型,并用此模型進(jìn)行預(yù)測(cè)。但這個(gè)模型是屬性的線性組合,其函數(shù)形式為:

f(x) = w_{1}x_{2}+w_{2}x_{2} + \cdots w_{n}x_{n}+b

??用向量表示的話,如下所示:

f(x) = w^{T}x+b

??其中的wb是我們需要學(xué)習(xí)的參數(shù)。一旦wb確定下來(lái),那么這個(gè)模型也就確定下來(lái)了。

一元線性回歸

??假定我們現(xiàn)在手頭上有一些訓(xùn)練樣本(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{m},y_{m})。那么我們?nèi)绾蝸?lái)找到一組參數(shù)wb使得構(gòu)建的線性模型能夠很好地表示這組樣本輸入與輸出之間的關(guān)系呢?

??在開(kāi)始建模之前,我們需要思考一個(gè)問(wèn)題,什么叫做很好地表示?我們需要將這個(gè)好壞量化一下。通常我們以范數(shù)作為量化的標(biāo)準(zhǔn)。在這里表示的就是,對(duì)于真實(shí)的輸入x_{1},我的預(yù)測(cè)輸出y_{pre}與真實(shí)輸出y_{1}之間的誤差。在這里我們以均方差作為度量標(biāo)準(zhǔn)。

??因此這個(gè)問(wèn)題就轉(zhuǎn)變?yōu)榱耍覀冃枰乙唤M參數(shù)wb,能夠使得這些樣本在當(dāng)前模型下的均方誤差最小,用數(shù)學(xué)形式表達(dá)如下所示:

(w^{*},b^{*})=argmin_{w,b} \sum_{i=1}^{m}(y_{i}-wx_{i}-b)

??w^{*},b^{*}表示wb的解。

??基于均方差最小化來(lái)進(jìn)行模型求解的方法稱為最小二乘法(least square method)。在線性回歸問(wèn)題中,最小二乘法試圖尋找到一條直線,使所有樣本到直線的歐式距離之和最小。

??求解wb使E_{(w,b)}=$$\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}最小化的過(guò)程,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”(parameter estimation)。

??由于E_{(w,b)}是關(guān)于wb的凸函數(shù),所以對(duì)其求偏導(dǎo)數(shù),令其偏導(dǎo)數(shù)等于0,所求出來(lái)的解即為最優(yōu)解。其偏導(dǎo)數(shù)求解如下所示:

\frac{\partial E_{(w,b)}}{\partial w} = 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})

\frac{\partial E_{(w,b)}}{\partial b} = 2(mb - \sum_{i=1}^{m}(y_{i}-wx_{i}))

??再令其偏導(dǎo)數(shù)為0,可得到wb最優(yōu)解的閉式(closed-from)解

w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\overline{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}

??其中\overline{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}x的均值。

b = \frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})

??至此,求解完畢。

多元線性回歸

??在一元回歸問(wèn)題中,樣本只有一個(gè)屬性。假設(shè)樣本具有n個(gè)屬性,此時(shí)期望找到一組模型參數(shù)wb,使得f(x_{i})=w^{T}x_{i}+b,使得函數(shù)輸出f(x_{i})與真實(shí)標(biāo)簽y_{i}越接近越好。我們將這類(lèi)問(wèn)題稱為多元線性回歸問(wèn)題(multivariate linear regression),或者叫做多變量線性回歸問(wèn)題。

??為了便于討論,我們把wb組合稱為一個(gè)向量的形式\hat{w}=(w;b)。與之對(duì)應(yīng),樣本集可表示為一個(gè)m \times (d+1)大小的矩陣X。那么每一行都對(duì)應(yīng)一個(gè)樣本。每一行的前d個(gè)元素都表示為當(dāng)前這個(gè)樣本的d個(gè)屬性值。最后這個(gè)元素恒為1,是方便與參數(shù)\hat{w}中的b相乘,形成偏置項(xiàng)。樣本輸入的數(shù)學(xué)表達(dá)形式可表示為如下形式:

X=\left(\begin{array}{cccc} {x_{11}} & {x_{12}} & {\cdots} & {x_{1d}} & {1}\\ {x_{21}} & {x_{22}} & {\cdots} & {x_{2d}} & {1}\\ {\vdots} & {\vdots} & {\ddots} & {\vdots} & {\vdots} \\ {x_{m1}} & {x_{m2}} & {\cdots} & {x_{md}}& {1} \end{array}\right)= \left(\begin{array}{cccc} {x_{1}^{T}} & {1} \\ {x_{2}^{T}} & {1} \\ {\vdots} & {\vdots} \\ {x_{m}^{T}} & {1} \end{array}\right)

??將標(biāo)簽以同樣的方式寫(xiě)成向量的形式有y=(y_{1};y_{2};\cdots;y_{m}),令均方誤差最小化,求其最優(yōu)解:

\hat{w}^{*}=argmin_{\hat{w}}(y-X\hat{w})^{T}(y-X\hat{w})

??令E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w}),對(duì)\hat{w}求偏導(dǎo)得到如下方程:

\frac{\partial E_{\hat{w}}}{\partial \hat{w}}=2X^{T}(X\hat{w}-y)

X^{T}X可逆

??與一元回歸類(lèi)似,令上式等于0即可求解上述方程。通過(guò)觀察不難發(fā)現(xiàn),上式存在矩陣求逆的情況,對(duì)于X^{T}X滿秩矩陣(full-rank matrix)或正定矩陣(positive definite matrix)時(shí),可求出:

\hat{w}^{*}=(X^{T}X)^{-1}X^{T}y

??令\hat{x_{i}}=(x_{i};1),則最終的線性回歸模型可表示為:

f(\hat{x_{i}})=\hat{x}_{i}(X^{T}X)^{-1}X^{T}y

X^{T}X不可逆情況

??如果X^{T}X不可逆,那么此時(shí)可解出多個(gè)\hat{w},他們都能使得均方誤差最小化。選擇哪一個(gè)解作為輸出,將由算法的歸納偏好決定,常見(jiàn)的做法是引入正則化(regularization)項(xiàng)。

廣義線性模型

??通常我們把線性回歸模型簡(jiǎn)寫(xiě)為:

f(x)=w^{T}x+b

??那我們能否將模型預(yù)測(cè)值逼近真實(shí)標(biāo)簽y的衍生物?例如將樣本標(biāo)簽y的對(duì)數(shù)模型作為線性模型逼近的目標(biāo),即:

lny=w^{T}x+b

??這就是對(duì)數(shù)線性回歸(log-linear regression),它實(shí)際上是在試圖讓e^{w^{T}x+b}逼近y。上式形式上是線性回歸,但實(shí)際上已是在求輸入空間到輸出空間的非線性函數(shù)映射。

??更一般的,考慮單調(diào)可微函數(shù)g(·),令:

y=g^{-1}(w^{T}x+b)

??這樣得到的模型稱為廣義線性模型(generalized linear model)。我們把函數(shù)g(·)稱為聯(lián)系函數(shù)。廣義線性模型的參數(shù)估計(jì)通常通過(guò)加權(quán)最小二乘法或極大似然法進(jìn)行。

線性模型之logit回歸

??如何用線性模型做分類(lèi)?其實(shí)我們自需要找一個(gè)單調(diào)可微函數(shù),將分類(lèi)任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)。就可以達(dá)到這一點(diǎn)。你也許會(huì)想到單位階躍函數(shù),將連續(xù)值變換為離散量。但是單位階躍函數(shù)不連續(xù),因此希望找到一個(gè)函數(shù)來(lái)替代它。對(duì)數(shù)幾率函數(shù)(logistic function),是一種Sigmoid函數(shù)能做到這一點(diǎn)。其函數(shù)表達(dá)形式如下所示:

y=\frac{1}{1-e^{-z}}

??對(duì)其兩邊取倒數(shù),再取對(duì)數(shù)化簡(jiǎn),得如下變換形式:

ln\frac{y}{1-y}=w^{T}x+b

??如果將y看作樣本x是正例的可能性,則1-y表示的就是負(fù)例的可能性。兩者的比值表示的就是為正例的相對(duì)可能性,再將其取對(duì)數(shù)得到對(duì)數(shù)幾率(logit)。

??上式用線性回歸模型的預(yù)測(cè)結(jié)果去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率,因此,對(duì)應(yīng)的模型稱為對(duì)數(shù)幾率回歸。但實(shí)際上它是一種分類(lèi)學(xué)習(xí)方法。在其他地方你可能會(huì)聽(tīng)到邏輯回歸,但周志華教授覺(jué)得中文“邏輯”與“l(fā)ogistic”和logit的含義想去甚遠(yuǎn),稱其為“對(duì)數(shù)幾率回歸”簡(jiǎn)稱“對(duì)率回歸”。具有如下優(yōu)點(diǎn):

  1. 無(wú)需像貝葉斯那樣假設(shè)數(shù)據(jù)分布,直接對(duì)分類(lèi)可能性進(jìn)行建模,避免假設(shè)不準(zhǔn)帶來(lái)的偏差。
  2. 得到的是一個(gè)概率,比單純的正例或者反例所含的信息量要大。
  3. 對(duì)率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù),具有很好的性質(zhì),現(xiàn)有的許多數(shù)值優(yōu)化算法都可以直接用于求解。

??利用Logistic 回歸進(jìn)行分類(lèi)的主要思想是:根據(jù)現(xiàn)有數(shù)據(jù)對(duì)分類(lèi)邊界線建立回歸公式,以此進(jìn)行分類(lèi)。這里的 “回歸”一詞源于佳擬合,表示要找到佳擬合參數(shù)集。

極大似然求解logit回歸參數(shù)

??在這一小節(jié),用最大似然法求解logit回歸參數(shù)wb。極大似然法可在公眾號(hào)歷史文章貝葉斯這節(jié)找到。

??將樣本x是正例的可能性y看作類(lèi)后驗(yàn)概率估計(jì)p(y=1|x),則對(duì)數(shù)幾率回歸可表示為:

ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b

??有:

p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}

p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}

??給定數(shù)據(jù)集\{(x_{i},y_{i})\}_{i=1}^{m},對(duì)率回歸模型最大化“對(duì)數(shù)似然”(log-likehood):

L(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)

??令\beta=(w;b),\hat{x}=(x;1),則可得到w^{T}x+b的簡(jiǎn)寫(xiě)\beta^{T}\hat{x}

??令p_{1}(\hat{x};\beta)$$=p(y=1|\hat{x};\beta),p_{0}(\hat{x};\beta)=p(y=0|\hat{x};\beta)則似然項(xiàng)可寫(xiě)為:

p(y_{i}|x_{i};w,b)=y_{i}p_{1}(\hat{x};\beta)+(1-y_{i})p_{0}(\hat{x};\beta)

??最大化L(w,b)等價(jià)于最小化:

L(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x}_{i}+ln(1+e^{\beta^{T} \hat{x}_{i}}))

??上式是關(guān)于\beta的高階可導(dǎo)連續(xù)凸函數(shù),可使用牛頓法(凸優(yōu)化中的內(nèi)容)對(duì)其求解。更加詳細(xì)的推導(dǎo)可參考周志華的西瓜書(shū)對(duì)數(shù)幾率回歸。

我的微信公眾號(hào)名稱:深度學(xué)習(xí)與先進(jìn)智能決策
微信公眾號(hào)ID:MultiAgent1024
公眾號(hào)介紹:主要研究強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相關(guān)內(nèi)容,分享學(xué)習(xí)過(guò)程中的學(xué)習(xí)筆記和心得!期待您的關(guān)注,歡迎一起學(xué)習(xí)交流進(jìn)步!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容