淺談最小二乘法

最小二乘法是回歸分析的一種標(biāo)準(zhǔn)方法,它通過最小化每個方程式結(jié)果中的殘差平方和來近似超定系統(tǒng)(方程組多于未知數(shù)的方程組)。

回歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。

最重要的應(yīng)用是數(shù)據(jù)擬合。 最小二乘意義上的最佳擬合將殘差平方的總和最小化(殘差為:觀察值與模型提供的擬合值之間的差)。 當(dāng)問題在自變量(x變量)中具有很大的不確定性時,則簡單回歸和最小二乘法會出現(xiàn)問題。 在這種情況下,可以考慮擬合變量誤差模型所需的方法,而不是最小二乘法。

最小二乘問題分為兩類:線性或普通最小二乘非線性最小二乘,這取決于殘差在所有未知量中是否是線性的。線性最小二乘問題發(fā)生在統(tǒng)計回歸分析中,它有解析解。非線性問題通常是通過迭代優(yōu)化來解決的,每次迭代系統(tǒng)都近似為線性系統(tǒng),因此兩種情況下的計算核心是相似的。

多項式最小二乘法將因變量預(yù)測中的方差描述為自變量函數(shù)與擬合曲線的偏差。

當(dāng)觀測值來自指數(shù)族且滿足溫和條件時,最小二乘估計和最大似然估計是相同的。最小二乘法也可以由矩估計的方法導(dǎo)出。

下面的討論主要是以線性函數(shù)的形式提出的,但是最小二乘法的使用對于更一般的函數(shù)族是有效和實用的。同時,通過迭代地應(yīng)用局部二次逼近似然(通過Fisher 信息),最小二乘法可用于擬合廣義線性模型。

最小二乘法通常歸功于卡爾·弗里德里?!じ咚?/a>(Carl Friedrich Gauss,1795),但它首先由阿德里安·瑪麗·勒讓德(Adrien Marie Legendre,1805)發(fā)表。

問題陳述

目標(biāo)包括調(diào)整模型函數(shù)的參數(shù)以最適合數(shù)據(jù)集。 一個簡單的數(shù)據(jù)集由n個點(數(shù)據(jù)對)(x_i,y_i),i=1,...,n組成,其中x_i是自變量,y_i是由觀測值獲得的因變量。模型函數(shù)具有f(x,\beta),在向量\beta中保持m個可調(diào)參數(shù)。目的是為“最佳”擬合數(shù)據(jù)的模型找到參數(shù)值。 模型對數(shù)據(jù)點的擬合度通過其殘差來度量,殘差定義為因變量的實際值與模型預(yù)測的值之間的差:r_i=y_i-f(x_i,\beta),最小二乘法通過最小化殘差平方和S來尋找最佳參數(shù)值:S=\sum_{i=1}^nr^2_i,二維模型的一個例子是直線模型。y軸的截距表示為\beta_0,斜率為\beta_1,模型函數(shù)由f(x,\beta)=\beta_0+\beta_1x,請參見線性最小二乘法,以獲取該模型的完整示例。

一個數(shù)據(jù)點可以由多個自變量組成。例如,當(dāng)將一個平面擬合到一組高度測量值時,平面是兩個自變量的函數(shù),例如x和z。在最一般的情況下,每個數(shù)據(jù)點可能有一個或多個自變量和一個或多個因變量。

下圖是一個是一個殘差圖,說明了r_i=0的隨機波動,顯示了Y_i=\alpha+\beta x_i+U_i這個線性模型是合適的,U_i是一個隨即獨立的變量。

img

如果殘差點具有某種形狀并且不是隨機波動的,線性模型就不合適。例如,如果殘差圖如右圖所示為拋物線形狀,則為拋物線模型Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i對數(shù)據(jù)更加合適。拋物線模型的殘差可以通過r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i計算。

限制

這種回歸公式只考慮因變量中的觀測誤差(但是可替代的全最小二乘回歸可以解釋這兩個變量中的誤差)。有兩種截然不同的語境,具有不同的含義:

  • 回歸預(yù)測。這里對模型進行了擬合,以提供一個預(yù)測規(guī)則,用于擬合的數(shù)據(jù)所適用的類似情況下的應(yīng)用。在這里,與這種未來應(yīng)用相對應(yīng)的因變量將受到與用于擬合的數(shù)據(jù)中相同類型的觀測誤差的影響。因此,對這些數(shù)據(jù)使用最小二乘預(yù)測規(guī)則在邏輯上是一致的。

  • 回歸擬合“真實關(guān)系”。在用最小二乘法擬合的標(biāo)準(zhǔn)回歸分析中,有一個隱含的假設(shè),即自變量中的誤差為零或嚴格控制,以至于可以忽略不計。當(dāng)自變量中的誤差不可忽略時,可以使用測量誤差模型;這種方法可以導(dǎo)致參數(shù)估計、假設(shè)檢驗置信區(qū)間,這些方法考慮到自變量中存在的觀測誤差。另一種方法是用總最小二乘法擬合模型;這可以被看作是采取了一種務(wù)實的方法來平衡不同誤差源的影響,從而形成一個用于模型擬合的目標(biāo)函數(shù)。

解最小二乘問題

通過設(shè)置梯度為0求得平方和的最小值。因為模型包含m個參數(shù),因此有m個梯度方程:
\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m
r_i=y_i-f(x_i ,\beta),梯度方程可以推導(dǎo)為:
-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m
梯度方程適用于所有最小二乘問題。每一個問題都需要模型及其偏導(dǎo)數(shù)的特殊表達式。

線性最小二乘

當(dāng)模型由參數(shù)的線性組合組成時,回歸模型是線性模型,即:
f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)
式中\phi_j是x的函數(shù)。
X_{ij}=\phi_j(x_i),并將自變量和因變量轉(zhuǎn)換為矩陣X和Y,我們可以按以下方式計算最小二乘,注意D是所有數(shù)據(jù)的集合。
L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta
通過將損失梯度設(shè)置為零并求解\vec{\beta},可以找到最小值。
\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta
最后,將損失的梯度設(shè)置為零,并求解\vec{\beta},我們得到:
-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY

非線性最小二乘

在某些情況下非線性最小二乘問題有一個解析解,但通常情況下是沒有的。在沒有解析解的情況下,用數(shù)值算法求出使目標(biāo)最小化的參數(shù)?的值。大多數(shù)算法都涉及到參數(shù)的初始值的選擇。然后,迭代地對參數(shù)進行細化,即通過逐次逼近得到這些參數(shù):
\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j
式中,上標(biāo)k是迭代數(shù),增量\Delta \beta_j的向量,稱為位移向量。在一些常用算法中,每次迭代該模型都可以通過對\beta^k近似一階泰勒級數(shù)展開來線性化:
\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}
Jacobian矩陣J是常數(shù)、自變量和參數(shù)的函數(shù),因此它在每次迭代時都會改變。殘差由:
r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j
為最小化r_i的平方和,將梯度方程置為0,求解\Delta \beta_j
-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0
經(jīng)過重新排列,形成m個聯(lián)立線性方程組,正規(guī)方程組
\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)
正規(guī)方程用矩陣表示法寫成
(J^TJ)\Delta \beta = J^T \Delta y
這就是高斯牛頓法的定義公式。

線性最小二乘與非線性最小二乘的區(qū)別

  • 模型函數(shù)f在線性最小二乘LLSQ中是參數(shù)的線性組合形式f=X_{i1}\beta_1+X_{i2}\beta_2+...,該模型可以表示直線、拋物線或任何其他函數(shù)的線性組合。在非線性最小二乘NLLSQ中,參數(shù)以函數(shù)的形式表示,如\beta^2,e^{\beta x}等。如果導(dǎo)數(shù)\partial f/ \partial \beta_j既不是常數(shù)也不是只依賴于自變量的值,模型的參數(shù)都是線性的。否則模型是非線性的。
  • 求NLLSQ問題的解需要參數(shù)的初始值;LLSQ不需要。
  • NLLSQ的求解算法通常要求雅可比矩陣的計算類似于LLSQ。偏導(dǎo)數(shù)的解析表達式可能很復(fù)雜。如果無法得到解析表達式,則必須通過數(shù)值近似計算偏導(dǎo)數(shù),或者必須估計雅可比矩陣,通常是通過有限差分。
  • 在NLLSQ中,不收斂(算法無法找到最小值)是一種常見的現(xiàn)象。
  • LLSQ是全局凹的,所以不收斂不是問題。
  • 求解NLLSQ通常是一個迭代過程,當(dāng)滿足收斂準(zhǔn)則時,迭代過程必須終止。LLSQ解可以使用直接方法計算,盡管具有大量參數(shù)的問題通常使用迭代方法來解決,例如Gauss–Seidel方法。
  • 在LLSQ中,解是唯一的,但在NLLSQ中,平方和可能存在多個最小值。
  • 在誤差與預(yù)測變量不相關(guān)的情況下,LLSQ得到了無偏估計,但即使在這種情況下,NLLSQ估計通常是有偏的。

在尋求非線性最小二乘問題的解時,必須考慮這些差異。

統(tǒng)計學(xué)

為了對結(jié)果進行統(tǒng)計檢驗,有必要對實驗誤差的性質(zhì)作出假設(shè)。通常的假設(shè)是誤差屬于正態(tài)分布。中心極限定理支持這樣的觀點:在許多情況下,這是一個很好的近似。

  • 高斯-馬爾可夫定理。在誤差是獨立變量具有期望為零、不相關(guān)且方差相等的線性模型中,觀測值的任何線性組合的最佳線性無偏估計量是其最小二乘估計量?!弊罴选笔侵竻?shù)的最小二乘估計具有最小方差。當(dāng)誤差都屬于同一分布時,等方差假設(shè)是有效的。
  • 在線性模型中,如果誤差屬于正態(tài)分布,則最小二乘估計量也是最大似然估計量。

然而,如果誤差不是正態(tài)分布的,中心極限定理通常意味著只要樣本足夠大,參數(shù)估計就會近似正態(tài)分布。因此,鑒于誤差均值獨立于自變量這一重要性質(zhì),誤差項的分布在回歸分析中不是一個重要問題。具體來說,誤差項是否服從正態(tài)分布并不重要。

在具有單位權(quán)重的最小二乘法計算中,或在線性回歸中,第j個參數(shù)的方差Var(\hat \beta_j),通常估計為:
var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}
其中,真實誤差方差\sigma^2由基于目標(biāo)函數(shù)平方和最小值的估計值代替。分母,n?m,是統(tǒng)計自由度;請參見有效自由度以獲取歸納。
如果參數(shù)的概率分布已知或漸近近似,則可以找到置信限。同樣,如果殘差的概率分布已知或假設(shè),則可以對殘差進行統(tǒng)計檢驗。如果已知或假設(shè)實驗誤差的概率分布,我們就可以導(dǎo)出因變量的任何線性組合的概率分布。當(dāng)假設(shè)誤差服從正態(tài)分布時,推斷很容易,因此意味著參數(shù)估計和殘差也將是正態(tài)分布的,這取決于自變量的值。

加權(quán)最小二乘

當(dāng)Ω(殘差的相關(guān)矩陣)的所有非對角項都為空時,廣義最小二乘法的一個特例稱為加權(quán)最小二乘法;觀測值的方差(沿協(xié)方差矩陣對角線)可能仍然不相等(異方差)。更簡單地說,異方差是當(dāng)Y_i的方差取決于x_i的值,這會導(dǎo)致殘差圖產(chǎn)生“扇出”效應(yīng),使其朝向更大的Y_i值,如下側(cè)殘差圖所示。另一方面,同構(gòu)性假設(shè)Y_i和的U_i方差相等。

img

與主成分之間的關(guān)系

關(guān)于一組點的平均值的第一個主成分可以用最接近數(shù)據(jù)點的那條線來表示(用最接近的距離的平方來測量,即垂直于直線)。相比之下,線性最小二乘法只嘗試最小化y方向上的距離。因此,雖然二者使用相似的誤差度量,但線性最小二乘法是一種優(yōu)先處理一維數(shù)據(jù)的方法,而PCA則同等對待所有維度。

正則化

tikhonov 正則化

在某些情況下,最小二乘解的正則化版本可能更可取。Tikhonov正則化(或嶺回歸)添加了一個約束,即參數(shù)向量的L2范數(shù)\|\beta\|^2,即參數(shù)向量的L2范數(shù),不大于給定值。它可以通過添加\alpha\|\beta\|^2,其中\alpha是一個常數(shù)(這是約束問題的拉格朗日形式)。在貝葉斯背景下,這相當(dāng)于在參數(shù)向量上放置一個零均值正態(tài)分布的先驗。

Lasso method

最小二乘法的另一種正則化版本是Lasso(least absolute shrinkage and selection operator),它使用\|\beta\|,參數(shù)向量的L1范數(shù),不大于給定值。(如上所述,這相當(dāng)于通過添加懲罰項\alpha\|\beta\|對最小二乘法進行無約束最小化)。在貝葉斯背景下,這相當(dāng)于在參數(shù)向量上放置一個零平均拉普拉斯 先驗分布。優(yōu)化問題可以使用二次規(guī)劃或更一般的凸優(yōu)化方法,以及由具體算法如最小角度回歸算法。
Lasso 和嶺回歸的一個主要區(qū)別是,在嶺回歸中,隨著懲罰的增加,所有參數(shù)都會減少但仍然保持非零;而在Lasso中,增加懲罰將導(dǎo)致越來越多的參數(shù)被驅(qū)動到零。這是Lasso相對于嶺回歸的一個優(yōu)勢,因為驅(qū)動參數(shù)為零會從回歸中取消選擇特征。因此,Lasso自動選擇更相關(guān)的特征并丟棄其他特征,而嶺回歸永遠不會完全丟棄任何特征?;贚ASSO開發(fā)了一些特征選擇技術(shù),包括引導(dǎo)樣本的Bolasso方法和分析不同\alpha值對應(yīng)的回歸系數(shù),對所有特征進行評分的FeaLect方法

L1正則化公式在某些情況下是有用的,因為它傾向于選擇更多參數(shù)為零的解,從而給出依賴較少變量的解。因此,Lasso及其變體是壓縮傳感領(lǐng)域的基礎(chǔ)。這種方法的一個擴展是彈性網(wǎng)絡(luò)正則化

From Wikipedia, the free encyclopedia

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容