監(jiān)督學(xué)習(xí)中，如果預(yù)測的變量是離散的，我們稱其為分類（如決策樹，支持向量機等），如果預(yù)測的變量是連續(xù)的，我們稱其為回歸。

回歸分析（regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛，回歸分析按照涉及的變量的多少，分為一元回歸和多元回歸分析；在線性回歸中，按照因變量的多少，可分為簡單回歸分析和多重回歸分析；按照[自變量]和[因變量]之間的關(guān)系類型，可分為[線性回歸]分析和[非線性回歸]分析。如果在回歸分析中，只包括一個[自變量]和一個[因變量]，且二者的關(guān)系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量，且自變量之間存在線性相關(guān)，則稱為[多重線性回歸]分析。

一元線性回歸

回歸分析中，如果只包括一個自變量x和一個因變量y，且二者的關(guān)系可用一條直線近似表示，這種回歸分析稱為一元線性回歸分析。

那么我們需要做的是致力于找出自變量與因變量之間的連續(xù)關(guān)系。

對于一元線性回歸模型, 假設(shè)從總體中獲取了n組觀察值（X1，Y1），（X2，Y2）， …，（Xn，Yn）。將會有無數(shù)條直線來描述數(shù)據(jù)集中的線性關(guān)系，選擇最佳擬合曲線的標(biāo)準(zhǔn)可以確定為：使總的擬合誤差（即總殘差）達到最小。我們使用最小二乘法來確定最優(yōu)的直線。

最小二乘法

最小二乘法（又稱最小平方法）是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù)，并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。

對于觀察數(shù)據(jù)若放在xy直角坐標(biāo)系中，是一個散點圖，假設(shè)有一條直線y=a+bx是無數(shù)條通過數(shù)據(jù)集描述的直線，那么要通過最小二乘法確定最佳擬合的a0和a1，將實測值Yi與利用計算值Yj（Yj=a+bXi）差（Yi-Yj）的平方和∑(Yi-Yj)^2最小為“優(yōu)化判據(jù)”。

求解過程：
令：Di =∑(Yi-Yj)^2
把Yj=a+bXi帶入φ得到
Di =∑(Yi-a-bXi)^2
當(dāng)∑(Yi-Yj)^2最小時可用函數(shù) φ 對a、b求偏導(dǎo)數(shù)，令這兩個偏導(dǎo)數(shù)等于零。

求偏導(dǎo)

整理后對方程組求解

整理后.jpg

最終解得

Paste_Image.png

由上述過程計算得出最佳擬合一元線性公式。

簡例理解最小二乘法

有如下的簡單數(shù)據(jù)集：

Paste_Image.png

通過excel我們可以快速的得出如下的公式：

Paste_Image.png

下圖紅線的距離為Yi-Yj:

Paste_Image.png

確定y=1.9643x+1為最優(yōu)的直線的過程是通過實際的每個點到此條直線上對應(yīng)點的距離（上圖紅色）的平方和最小，即∑(Yi-Yj)^2最小。

多元線性回歸

如果回歸分析中包括兩個或兩個以上的自變量x1,x2...xi，且因變量y和自變量x1,x2...xi之間是線性關(guān)系，則稱為多元線性回歸分析。
多元線性回歸可以寫作如下方式：
Y=b0+b1x1+…+bkxk+e
其中，b0為常數(shù)項，b1,b2…bk為回歸系數(shù)，b1為X1,X2…Xk固定時，x1每增加一個單位對y的效應(yīng)，即x1對y的偏回歸系數(shù)；同理b2為X1,X2…Xk固定時，x2每增加一個單位對y的效應(yīng)，即，x2對y的偏回歸系數(shù)，等。

建立多元線性回歸模型時，為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測效果，應(yīng)首先注意自變量的選擇，其準(zhǔn)則是：
(1)自變量對因變量必須有顯著的影響，并呈密切的線性相關(guān)；
(2)自變量與因變量之間的線性相關(guān)必須是真實的，而不是形式上的；
(3)自變量之間應(yīng)具有一定的互斥性，即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度；
(4)自變量應(yīng)具有完整的統(tǒng)計數(shù)據(jù)，其預(yù)測值容易確定。
多元性回歸模型的參數(shù)估計，同一元線性回歸方程一樣，也是在要求誤差平方和（Σe)為最小的前提下，用最小二乘法求解參數(shù)。以二線性回歸模型為例，求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為

解此方程可求得b0,b1,b2的數(shù)值。亦可用下列矩陣法求得

即

其中第二種的P(Y=1|x)=y。

邏輯回歸

邏輯回歸，又名邏輯斯諦回歸（logistic regression）是經(jīng)典分類方法。是一個非常經(jīng)典的二項分類模型，也可以擴展為多項分類模型。屬于對數(shù)線性模型。

邏輯回歸就是把線性回歸的y 變成了 y的衍生物，是一種 y的廣義理解。

我們將線性回歸的公式的權(quán)值向量（系數(shù)）和輸入向量（自變量）加以擴充，記做w（歐米伽）和x，即w=(w1,w2...wn,b)的向量,x=(x1,x2...xn,1)的向量，即z=wx，這里我們使用z來代替原本的y以便于區(qū)分新的y。那么我們對z做一次衍生，y=f(z)。由此可知z=wx是普通的線性關(guān)系，而z到y(tǒng)是一種代數(shù)關(guān)系。

對預(yù)測值的對數(shù)函數(shù)，需要滿足單調(diào)可微的性質(zhì)，且方便進行二項分類，于是選取了S形曲線Sigmoid函數(shù)： f(s) = 1 / (1 + exp(-s)), s 取值范圍是整個實數(shù)域, f(x) 單調(diào)遞增，0 < f(x) < 1。

Sigmoid 函數(shù)在有個很漂亮的“S”形，如下圖所示（引自維基百科）：

此時將連續(xù)性的z，z的范圍在(-∞, +∞)，變成的連續(xù)性的y，y的范圍在(0, 1)。

第一種正推思想：

通過Sigmoid 函數(shù)衍生出：

y=1/(1+exp(-z))

那么：

exp(-z)=(1/y) - 1

對兩方取ln：

-z=ln((1-y)/y)

于是得出:

z=ln(y/(1-y))

帶入公式z=wx可得：

ln(y/(1-y))=wx

此時，我們找到了x與y之間的關(guān)系。

第二種反證思想：

邏輯斯蒂回歸模型是如下的條件概率分布：

Paste_Image.png

一件事情發(fā)生的幾率為該事件發(fā)生的概率與不發(fā)生的概率的比值，如果發(fā)生的概率為p，那么幾率表示為p/1-p。該事件的對數(shù)幾率為：

Paste_Image.png

綜合上述兩種公式可得：

Paste_Image.png

邏輯回歸的思想應(yīng)用

y的范圍在(0, 1)，我們可以將其想象成一種概率，計算出的y可以想象成是這個分類的概率，通過數(shù)據(jù)集中的x和Y（結(jié)果為0或1），求得w向量，對于預(yù)測值的新的x，根據(jù)已有的w計算y（概率），通過業(yè)務(wù)場景界定y的大小來判斷是否為此分類。

同理，在多類分類問題中，對于多類分類問題，可以將其看做成二類分類問題：保留其中的一類，剩下的作為另一類。對于每一個類 i 訓(xùn)練一個邏輯回歸模型的分類器，并且預(yù)測y = i時的概率；對于一個新的輸入變量x, 分別對每一個類進行預(yù)測，取概率最大的那個類作為分類結(jié)果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

理解回歸分析的世界

理解回歸分析的世界

一元線性回歸

最小二乘法

簡例理解最小二乘法

多元線性回歸

邏輯回歸

第一種正推思想：

第二種反證思想：

邏輯回歸的思想應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

理解回歸分析的世界

一元線性回歸

最小二乘法

簡例理解最小二乘法

多元線性回歸

邏輯回歸

第一種正推思想：

第二種反證思想：

邏輯回歸的思想應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av