青青草在线观看视频,亚洲精品色婷婷在线,精品视频蜜桃逼

??這一節(jié)我們介紹線性模型，介紹思路如下：我們先介紹概念，什么叫做線性模型？在了解了基本的線性模型之后，我們將其應(yīng)用于一元線性回歸，之后擴(kuò)展到多元線性回歸。之后我們?cè)賹⑵鋽U(kuò)展到廣義線性模型。最后通過(guò)廣義線性模型遷移到logit回歸(分類(lèi)問(wèn)題)中。

線性模型基本概念

??線性模型(Linear Model)是在假設(shè)特征滿足線性關(guān)系，給定一些數(shù)據(jù)，需要用這些數(shù)據(jù)訓(xùn)練一個(gè)模型，并用此模型進(jìn)行預(yù)測(cè)。但這個(gè)模型是屬性的線性組合，其函數(shù)形式為：

$f(x) = w_{1}x_{2}+w_{2}x_{2} + \cdots w_{n}x_{n}+b$

??用向量表示的話，如下所示：

$f(x) = w^{T}x+b$

??其中的 $w$ 和 $b$ 是我們需要學(xué)習(xí)的參數(shù)。一旦 $w$ 和 $b$ 確定下來(lái)，那么這個(gè)模型也就確定下來(lái)了。

一元線性回歸

??假定我們現(xiàn)在手頭上有一些訓(xùn)練樣本 $(x_{1},y_{1})$ ， $(x_{2},y_{2})$ ， $\cdots$ ， $(x_{m},y_{m})$ 。那么我們?nèi)绾蝸?lái)找到一組參數(shù) $w$ 和 $b$ 使得構(gòu)建的線性模型能夠很好地表示這組樣本輸入與輸出之間的關(guān)系呢？

??在開(kāi)始建模之前，我們需要思考一個(gè)問(wèn)題，什么叫做很好地表示？我們需要將這個(gè)好壞量化一下。通常我們以范數(shù)作為量化的標(biāo)準(zhǔn)。在這里表示的就是，對(duì)于真實(shí)的輸入 $x_{1}$ ，我的預(yù)測(cè)輸出 $y_{pre}$ 與真實(shí)輸出 $y_{1}$ 之間的誤差。在這里我們以均方差作為度量標(biāo)準(zhǔn)。

??因此這個(gè)問(wèn)題就轉(zhuǎn)變?yōu)榱耍覀冃枰乙唤M參數(shù) $w$ 和 $b$ ，能夠使得這些樣本在當(dāng)前模型下的均方誤差最小，用數(shù)學(xué)形式表達(dá)如下所示：

$(w^{*},b^{*})=argmin_{w,b} \sum_{i=1}^{m}(y_{i}-wx_{i}-b)$

?? $w^{*},b^{*}$ 表示 $w$ 和 $b$ 的解。

??基于均方差最小化來(lái)進(jìn)行模型求解的方法稱為最小二乘法(least square method)。在線性回歸問(wèn)題中，最小二乘法試圖尋找到一條直線，使所有樣本到直線的歐式距離之和最小。

??求解 $w$ 和 $b$ 使 $E_{(w,b)}=$$\sum_{i=1}^{m}(y_{i}-wx_{i}-b)^{2}$ 最小化的過(guò)程，稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”(parameter estimation)。

??由于 $E_{(w,b)}$ 是關(guān)于 $w$ 和 $b$ 的凸函數(shù)，所以對(duì)其求偏導(dǎo)數(shù)，令其偏導(dǎo)數(shù)等于0，所求出來(lái)的解即為最優(yōu)解。其偏導(dǎo)數(shù)求解如下所示：

$\frac{\partial E_{(w,b)}}{\partial w} = 2(w\sum_{i=1}^{m}x_{i}^{2}-\sum_{i=1}^{m}(y_{i}-b)x_{i})$

$\frac{\partial E_{(w,b)}}{\partial b} = 2(mb - \sum_{i=1}^{m}(y_{i}-wx_{i}))$

??再令其偏導(dǎo)數(shù)為0，可得到 $w$ 和 $b$ 最優(yōu)解的閉式(closed-from)解：

$w=\frac{\sum_{i=1}^{m}y_{i}(x_{i}-\overline{x})}{\sum_{i=1}^{m}x_{i}^{2}-\frac{1}{m}(\sum_{i=1}^{m}x_{i})^{2}}$

??其中 $\overline{x}=\frac{1}{m}\sum_{i=1}^{m}x_{i}$ 為 $x$ 的均值。

$b = \frac{1}{m}\sum_{i=1}^{m}(y_{i}-wx_{i})$

??至此，求解完畢。

多元線性回歸

??在一元回歸問(wèn)題中，樣本只有一個(gè)屬性。假設(shè)樣本具有 $n$ 個(gè)屬性，此時(shí)期望找到一組模型參數(shù) $w$ 和 $b$ ，使得 $f(x_{i})=w^{T}x_{i}+b$ ，使得函數(shù)輸出 $f(x_{i})$ 與真實(shí)標(biāo)簽 $y_{i}$ 越接近越好。我們將這類(lèi)問(wèn)題稱為多元線性回歸問(wèn)題(multivariate linear regression)，或者叫做多變量線性回歸問(wèn)題。

??為了便于討論，我們把 $w$ 和 $b$ 組合稱為一個(gè)向量的形式 $\hat{w}=(w;b)$ 。與之對(duì)應(yīng)，樣本集可表示為一個(gè) $m \times (d+1)$ 大小的矩陣 $X$ 。那么每一行都對(duì)應(yīng)一個(gè)樣本。每一行的前 $d$ 個(gè)元素都表示為當(dāng)前這個(gè)樣本的 $d$ 個(gè)屬性值。最后這個(gè)元素恒為1，是方便與參數(shù) $\hat{w}$ 中的 $b$ 相乘，形成偏置項(xiàng)。樣本輸入的數(shù)學(xué)表達(dá)形式可表示為如下形式：

$X=\left(\begin{array}{cccc} {x_{11}} & {x_{12}} & {\cdots} & {x_{1d}} & {1}\\ {x_{21}} & {x_{22}} & {\cdots} & {x_{2d}} & {1}\\ {\vdots} & {\vdots} & {\ddots} & {\vdots} & {\vdots} \\ {x_{m1}} & {x_{m2}} & {\cdots} & {x_{md}}& {1} \end{array}\right)= \left(\begin{array}{cccc} {x_{1}^{T}} & {1} \\ {x_{2}^{T}} & {1} \\ {\vdots} & {\vdots} \\ {x_{m}^{T}} & {1} \end{array}\right)$

??將標(biāo)簽以同樣的方式寫(xiě)成向量的形式有 $y=(y_{1};y_{2};\cdots;y_{m})$ ，令均方誤差最小化，求其最優(yōu)解：

$\hat{w}^{*}=argmin_{\hat{w}}(y-X\hat{w})^{T}(y-X\hat{w})$

??令 $E_{\hat{w}}=(y-X\hat{w})^{T}(y-X\hat{w})$ ，對(duì) $\hat{w}$ 求偏導(dǎo)得到如下方程：

$\frac{\partial E_{\hat{w}}}{\partial \hat{w}}=2X^{T}(X\hat{w}-y)$

$X^{T}X$ 可逆

??與一元回歸類(lèi)似，令上式等于0即可求解上述方程。通過(guò)觀察不難發(fā)現(xiàn)，上式存在矩陣求逆的情況，對(duì)于 $X^{T}X$ 為滿秩矩陣(full-rank matrix)或正定矩陣(positive definite matrix)時(shí)，可求出：

$\hat{w}^{*}=(X^{T}X)^{-1}X^{T}y$

??令 $\hat{x_{i}}=(x_{i};1)$ ，則最終的線性回歸模型可表示為：

$f(\hat{x_{i}})=\hat{x}_{i}(X^{T}X)^{-1}X^{T}y$

$X^{T}X$ 不可逆情況

??如果 $X^{T}X$ 不可逆，那么此時(shí)可解出多個(gè) $\hat{w}$ ，他們都能使得均方誤差最小化。選擇哪一個(gè)解作為輸出，將由算法的歸納偏好決定，常見(jiàn)的做法是引入正則化(regularization)項(xiàng)。

廣義線性模型

??通常我們把線性回歸模型簡(jiǎn)寫(xiě)為：

$f(x)=w^{T}x+b$

??那我們能否將模型預(yù)測(cè)值逼近真實(shí)標(biāo)簽 $y$ 的衍生物？例如將樣本標(biāo)簽 $y$ 的對(duì)數(shù)模型作為線性模型逼近的目標(biāo)，即：

$lny=w^{T}x+b$

??這就是對(duì)數(shù)線性回歸(log-linear regression)，它實(shí)際上是在試圖讓 $e^{w^{T}x+b}$ 逼近 $y$ 。上式形式上是線性回歸，但實(shí)際上已是在求輸入空間到輸出空間的非線性函數(shù)映射。

??更一般的，考慮單調(diào)可微函數(shù) $g(·)$ ，令：

$y=g^{-1}(w^{T}x+b)$

??這樣得到的模型稱為廣義線性模型(generalized linear model)。我們把函數(shù) $g(·)$ 稱為聯(lián)系函數(shù)。廣義線性模型的參數(shù)估計(jì)通常通過(guò)加權(quán)最小二乘法或極大似然法進(jìn)行。

線性模型之logit回歸

??如何用線性模型做分類(lèi)？其實(shí)我們自需要找一個(gè)單調(diào)可微函數(shù)，將分類(lèi)任務(wù)的真實(shí)標(biāo)記 $y$ 與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)。就可以達(dá)到這一點(diǎn)。你也許會(huì)想到單位階躍函數(shù)，將連續(xù)值變換為離散量。但是單位階躍函數(shù)不連續(xù)，因此希望找到一個(gè)函數(shù)來(lái)替代它。對(duì)數(shù)幾率函數(shù)(logistic function)，是一種Sigmoid函數(shù)能做到這一點(diǎn)。其函數(shù)表達(dá)形式如下所示：

$y=\frac{1}{1-e^{-z}}$

??對(duì)其兩邊取倒數(shù)，再取對(duì)數(shù)化簡(jiǎn)，得如下變換形式：

$ln\frac{y}{1-y}=w^{T}x+b$

??如果將 $y$ 看作樣本 $x$ 是正例的可能性，則 $1-y$ 表示的就是負(fù)例的可能性。兩者的比值表示的就是為正例的相對(duì)可能性，再將其取對(duì)數(shù)得到對(duì)數(shù)幾率(logit)。

??上式用線性回歸模型的預(yù)測(cè)結(jié)果去逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率，因此，對(duì)應(yīng)的模型稱為對(duì)數(shù)幾率回歸。但實(shí)際上它是一種分類(lèi)學(xué)習(xí)方法。在其他地方你可能會(huì)聽(tīng)到邏輯回歸，但周志華教授覺(jué)得中文“邏輯”與“l(fā)ogistic”和logit的含義想去甚遠(yuǎn)，稱其為“對(duì)數(shù)幾率回歸”簡(jiǎn)稱“對(duì)率回歸”。具有如下優(yōu)點(diǎn)：

無(wú)需像貝葉斯那樣假設(shè)數(shù)據(jù)分布，直接對(duì)分類(lèi)可能性進(jìn)行建模，避免假設(shè)不準(zhǔn)帶來(lái)的偏差。
得到的是一個(gè)概率，比單純的正例或者反例所含的信息量要大。
對(duì)率回歸求解的目標(biāo)函數(shù)是任意階可導(dǎo)的凸函數(shù)，具有很好的性質(zhì)，現(xiàn)有的許多數(shù)值優(yōu)化算法都可以直接用于求解。

??利用Logistic 回歸進(jìn)行分類(lèi)的主要思想是：根據(jù)現(xiàn)有數(shù)據(jù)對(duì)分類(lèi)邊界線建立回歸公式，以此進(jìn)行分類(lèi)。這里的 “回歸”一詞源于佳擬合，表示要找到佳擬合參數(shù)集。

極大似然求解logit回歸參數(shù)

??在這一小節(jié)，用最大似然法求解logit回歸參數(shù) $w$ 和 $b$ 。極大似然法可在公眾號(hào)歷史文章貝葉斯這節(jié)找到。

??將樣本 $x$ 是正例的可能性 $y$ 看作類(lèi)后驗(yàn)概率估計(jì) $p(y=1|x)$ ，則對(duì)數(shù)幾率回歸可表示為：

$ln\frac{p(y=1|x)}{p(y=0|x)}=w^{T}x+b$

??有：

$p(y=1|x)=\frac{e^{w^{T}x+b}}{1+e^{w^{T}x+b}}$

$p(y=0|x)=\frac{1}{1+e^{w^{T}x+b}}$

??給定數(shù)據(jù)集 $\{(x_{i},y_{i})\}_{i=1}^{m}$ ，對(duì)率回歸模型最大化“對(duì)數(shù)似然”(log-likehood)：

$L(w,b)=\sum_{i=1}^{m}lnp(y_{i}|x_{i};w,b)$

??令 $\beta=(w;b)$ ， $\hat{x}=(x;1)$ ，則可得到 $w^{T}x+b$ 的簡(jiǎn)寫(xiě) $\beta^{T}\hat{x}$ 。

??令 $p_{1}(\hat{x};\beta)$$=p(y=1|\hat{x};\beta)$ ， $p_{0}(\hat{x};\beta)=p(y=0|\hat{x};\beta)$ 則似然項(xiàng)可寫(xiě)為：

$p(y_{i}|x_{i};w,b)=y_{i}p_{1}(\hat{x};\beta)+(1-y_{i})p_{0}(\hat{x};\beta)$

??最大化 $L(w,b)$ 等價(jià)于最小化：

$L(\beta)=\sum_{i=1}^{m}(-y_{i}\beta^{T}\hat{x}_{i}+ln(1+e^{\beta^{T} \hat{x}_{i}}))$

??上式是關(guān)于 $\beta$ 的高階可導(dǎo)連續(xù)凸函數(shù)，可使用牛頓法(凸優(yōu)化中的內(nèi)容)對(duì)其求解。更加詳細(xì)的推導(dǎo)可參考周志華的西瓜書(shū)對(duì)數(shù)幾率回歸。

我的微信公眾號(hào)名稱：深度學(xué)習(xí)與先進(jìn)智能決策
微信公眾號(hào)ID：MultiAgent1024
公眾號(hào)介紹：主要研究強(qiáng)化學(xué)習(xí)、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等相關(guān)內(nèi)容，分享學(xué)習(xí)過(guò)程中的學(xué)習(xí)筆記和心得！期待您的關(guān)注，歡迎一起學(xué)習(xí)交流進(jìn)步！

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

經(jīng)典機(jī)器學(xué)習(xí)系列之【線性模型與廣義線性模型】

經(jīng)典機(jī)器學(xué)習(xí)系列之【線性模型與廣義線性模型】

線性模型基本概念

一元線性回歸