監(jiān)督學(xué)習(xí)中,如果預(yù)測的變量是離散的,我們稱其為分類(如決策樹,支持向量機等),如果預(yù)測的變量是連續(xù)的,我們稱其為回歸。
回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;在線性回歸中,按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照[自變量]和[因變量]之間的關(guān)系類型,可分為[線性回歸]分析和[非線性回歸]分析。如果在回歸分析中,只包括一個[自變量]和一個[因變量],且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個或兩個以上的自變量,且自變量之間存在線性相關(guān),則稱為[多重線性回歸]分析。
一元線性回歸
回歸分析中,如果只包括一個自變量x和一個因變量y,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。
那么我們需要做的是致力于找出自變量與因變量之間的連續(xù)關(guān)系。
對于一元線性回歸模型, 假設(shè)從總體中獲取了n組觀察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。將會有無數(shù)條直線來描述數(shù)據(jù)集中的線性關(guān)系,選擇最佳擬合曲線的標(biāo)準(zhǔn)可以確定為:使總的擬合誤差(即總殘差)達到最小。我們使用最小二乘法來確定最優(yōu)的直線。
最小二乘法
最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。
對于觀察數(shù)據(jù)若放在xy直角坐標(biāo)系中,是一個散點圖,假設(shè)有一條直線y=a+bx是無數(shù)條通過數(shù)據(jù)集描述的直線,那么要通過最小二乘法確定最佳擬合的a0和a1,將實測值Yi與利用計算值Yj(Yj=a+bXi)差(Yi-Yj)的平方和∑(Yi-Yj)^2最小為“優(yōu)化判據(jù)”。
求解過程:
令:Di =∑(Yi-Yj)^2
把Yj=a+bXi帶入φ得到
Di =∑(Yi-a-bXi)^2
當(dāng)∑(Yi-Yj)^2最小時可用函數(shù) φ 對a、b求偏導(dǎo)數(shù),令這兩個偏導(dǎo)數(shù)等于零。

整理后對方程組求解

最終解得

由上述過程計算得出最佳擬合一元線性公式。
簡例理解最小二乘法
有如下的簡單數(shù)據(jù)集:

通過excel我們可以快速的得出如下的公式:

下圖紅線的距離為Yi-Yj:

確定y=1.9643x+1為最優(yōu)的直線的過程是通過實際的每個點到此條直線上對應(yīng)點的距離(上圖紅色)的平方和最小,即∑(Yi-Yj)^2最小。
多元線性回歸
如果回歸分析中包括兩個或兩個以上的自變量x1,x2...xi,且因變量y和自變量x1,x2...xi之間是線性關(guān)系,則稱為多元線性回歸分析。
多元線性回歸可以寫作如下方式:
Y=b0+b1x1+…+bkxk+e
其中,b0為常數(shù)項,b1,b2…bk為回歸系數(shù),b1為X1,X2…Xk固定時,x1每增加一個單位對y的效應(yīng),即x1對y的偏回歸系數(shù);同理b2為X1,X2…Xk固定時,x2每增加一個單位對y的效應(yīng),即,x2對y的偏回歸系數(shù),等。
建立多元線性回歸模型時,為了保證回歸模型具有優(yōu)良的解釋能力和預(yù)測效果,應(yīng)首先注意自變量的選擇,其準(zhǔn)則是:
(1)自變量對因變量必須有顯著的影響,并呈密切的線性相關(guān);
(2)自變量與因變量之間的線性相關(guān)必須是真實的,而不是形式上的;
(3)自變量之間應(yīng)具有一定的互斥性,即自變量之間的相關(guān)程度不應(yīng)高于自變量與因變量之因的相關(guān)程度;
(4)自變量應(yīng)具有完整的統(tǒng)計數(shù)據(jù),其預(yù)測值容易確定。
多元性回歸模型的參數(shù)估計,同一元線性回歸方程一樣,也是在要求誤差平方和(Σe)為最小的前提下,用最小二乘法求解參數(shù)。以二線性回歸模型為例,求解回歸參數(shù)的標(biāo)準(zhǔn)方程組為
解此方程可求得b0,b1,b2的數(shù)值。亦可用下列矩陣法求得

即

其中第二種的P(Y=1|x)=y。
邏輯回歸
邏輯回歸,又名邏輯斯諦回歸(logistic regression)是經(jīng)典分類方法。是一個非常經(jīng)典的二項分類模型,也可以擴展為多項分類模型。屬于對數(shù)線性模型。
邏輯回歸就是把 線性回歸的y 變成了 y的衍生物,是一種 y的廣義理解。
我們將線性回歸的公式的權(quán)值向量(系數(shù))和輸入向量(自變量)加以擴充,記做w(歐米伽)和x,即w=(w1,w2...wn,b)的向量,x=(x1,x2...xn,1)的向量,即z=wx,這里我們使用z來代替原本的y以便于區(qū)分新的y。那么我們對z做一次衍生,y=f(z)。由此可知z=wx是普通的線性關(guān)系,而z到y(tǒng)是一種代數(shù)關(guān)系。
對預(yù)測值的對數(shù)函數(shù),需要滿足單調(diào)可微的性質(zhì),且方便進行二項分類,于是選取了S形曲線Sigmoid函數(shù): f(s) = 1 / (1 + exp(-s)), s 取值范圍是整個實數(shù)域, f(x) 單調(diào)遞增,0 < f(x) < 1。
Sigmoid 函數(shù)在有個很漂亮的“S”形,如下圖所示(引自維基百科):
此時將連續(xù)性的z,z的范圍在(-∞, +∞),變成的連續(xù)性的y,y的范圍在(0, 1)。
第一種正推思想:
通過Sigmoid 函數(shù)衍生出:
y=1/(1+exp(-z))
那么:
exp(-z)=(1/y) - 1
對兩方取ln:
-z=ln((1-y)/y)
于是得出:
z=ln(y/(1-y))
帶入公式z=wx可得:
ln(y/(1-y))=wx
此時,我們找到了x與y之間的關(guān)系。
第二種反證思想:
邏輯斯蒂回歸模型是如下的條件概率分布:

一件事情發(fā)生的幾率為該事件發(fā)生的概率與不發(fā)生的概率的比值,如果發(fā)生的概率為p,那么幾率表示為p/1-p。該事件的對數(shù)幾率為:

綜合上述兩種公式可得:

邏輯回歸的思想應(yīng)用
y的范圍在(0, 1),我們可以將其想象成一種概率,計算出的y可以想象成是這個分類的概率,通過數(shù)據(jù)集中的x和Y(結(jié)果為0或1),求得w向量,對于預(yù)測值的新的x,根據(jù)已有的w計算y(概率),通過業(yè)務(wù)場景界定y的大小來判斷是否為此分類。
同理,在多類分類問題中,對于多類分類問題,可以將其看做成二類分類問題:保留其中的一類,剩下的作為另一類。對于每一個類 i 訓(xùn)練一個邏輯回歸模型的分類器,并且預(yù)測y = i時的概率;對于一個新的輸入變量x, 分別對每一個類進行預(yù)測,取概率最大的那個類作為分類結(jié)果。
