九九精品一区二区五区,性感美女在线观看

最小二乘法是回歸分析的一種標(biāo)準(zhǔn)方法，它通過最小化每個方程式結(jié)果中的殘差平方和來近似超定系統(tǒng)（方程組多于未知數(shù)的方程組）。

回歸分析（regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。

最重要的應(yīng)用是數(shù)據(jù)擬合。最小二乘意義上的最佳擬合將殘差平方的總和最小化（殘差為：觀察值與模型提供的擬合值之間的差）。當(dāng)問題在自變量（x變量）中具有很大的不確定性時，則簡單回歸和最小二乘法會出現(xiàn)問題。在這種情況下，可以考慮擬合變量誤差模型所需的方法，而不是最小二乘法。

最小二乘問題分為兩類：線性或普通最小二乘和非線性最小二乘，這取決于殘差在所有未知量中是否是線性的。線性最小二乘問題發(fā)生在統(tǒng)計回歸分析中，它有解析解。非線性問題通常是通過迭代優(yōu)化來解決的，每次迭代系統(tǒng)都近似為線性系統(tǒng)，因此兩種情況下的計算核心是相似的。

多項式最小二乘法將因變量預(yù)測中的方差描述為自變量函數(shù)與擬合曲線的偏差。

當(dāng)觀測值來自指數(shù)族且滿足溫和條件時，最小二乘估計和最大似然估計是相同的。最小二乘法也可以由矩估計的方法導(dǎo)出。

下面的討論主要是以線性函數(shù)的形式提出的，但是最小二乘法的使用對于更一般的函數(shù)族是有效和實用的。同時，通過迭代地應(yīng)用局部二次逼近似然（通過Fisher 信息），最小二乘法可用于擬合廣義線性模型。

最小二乘法通常歸功于卡爾·弗里德里?！じ咚?/a>（Carl Friedrich Gauss，1795），但它首先由阿德里安·瑪麗·勒讓德（Adrien Marie Legendre，1805）發(fā)表。

問題陳述

目標(biāo)包括調(diào)整模型函數(shù)的參數(shù)以最適合數(shù)據(jù)集。一個簡單的數(shù)據(jù)集由n個點（數(shù)據(jù)對） $(x_i,y_i),i=1,...,n$ 組成，其中 $x_i$ 是自變量， $y_i$ 是由觀測值獲得的因變量。模型函數(shù)具有 $f(x,\beta)$ ，在向量 $\beta$ 中保持m個可調(diào)參數(shù)。目的是為“最佳”擬合數(shù)據(jù)的模型找到參數(shù)值。模型對數(shù)據(jù)點的擬合度通過其殘差來度量，殘差定義為因變量的實際值與模型預(yù)測的值之間的差： $r_i=y_i-f(x_i,\beta)$ ，最小二乘法通過最小化殘差平方和S來尋找最佳參數(shù)值： $S=\sum_{i=1}^nr^2_i$ ，二維模型的一個例子是直線模型。y軸的截距表示為 $\beta_0$ ，斜率為 $\beta_1$ ，模型函數(shù)由 $f(x,\beta)=\beta_0+\beta_1x$ ，請參見線性最小二乘法，以獲取該模型的完整示例。

一個數(shù)據(jù)點可以由多個自變量組成。例如，當(dāng)將一個平面擬合到一組高度測量值時，平面是兩個自變量的函數(shù)，例如x和z。在最一般的情況下，每個數(shù)據(jù)點可能有一個或多個自變量和一個或多個因變量。

下圖是一個是一個殘差圖，說明了 $r_i=0$ 的隨機波動，顯示了 $Y_i=\alpha+\beta x_i+U_i$ 這個線性模型是合適的， $U_i$ 是一個隨即獨立的變量。

img

如果殘差點具有某種形狀并且不是隨機波動的，線性模型就不合適。例如，如果殘差圖如右圖所示為拋物線形狀，則為拋物線模型 $Y_i=\alpha+\beta x_i +\gamma x^2_i +U_i$ 對數(shù)據(jù)更加合適。拋物線模型的殘差可以通過 $r_i=y_i-\hat \alpha-\hat \beta x_i-\hat \gamma x^2_i$ 計算。

限制

這種回歸公式只考慮因變量中的觀測誤差（但是可替代的全最小二乘回歸可以解釋這兩個變量中的誤差）。有兩種截然不同的語境，具有不同的含義：

回歸預(yù)測。這里對模型進行了擬合，以提供一個預(yù)測規(guī)則，用于擬合的數(shù)據(jù)所適用的類似情況下的應(yīng)用。在這里，與這種未來應(yīng)用相對應(yīng)的因變量將受到與用于擬合的數(shù)據(jù)中相同類型的觀測誤差的影響。因此，對這些數(shù)據(jù)使用最小二乘預(yù)測規(guī)則在邏輯上是一致的。
回歸擬合“真實關(guān)系”。在用最小二乘法擬合的標(biāo)準(zhǔn)回歸分析中，有一個隱含的假設(shè)，即自變量中的誤差為零或嚴格控制，以至于可以忽略不計。當(dāng)自變量中的誤差不可忽略時，可以使用測量誤差模型；這種方法可以導(dǎo)致參數(shù)估計、假設(shè)檢驗和置信區(qū)間，這些方法考慮到自變量中存在的觀測誤差。另一種方法是用總最小二乘法擬合模型；這可以被看作是采取了一種務(wù)實的方法來平衡不同誤差源的影響，從而形成一個用于模型擬合的目標(biāo)函數(shù)。

解最小二乘問題

通過設(shè)置梯度為0求得平方和的最小值。因為模型包含m個參數(shù)，因此有m個梯度方程：
$\frac{\partial S}{\partial \beta_j}=2\sum_i\frac{\partial r_i}{\partial \beta_j}=0,j=1,...,m$
由 $r_i=y_i-f(x_i ,\beta)$ ，梯度方程可以推導(dǎo)為：
$-2\sum_ir_i\frac{\partial f(x_i,\beta)}{\partial \beta_j}=0,j=1,...,m$
梯度方程適用于所有最小二乘問題。每一個問題都需要模型及其偏導(dǎo)數(shù)的特殊表達式。

線性最小二乘

當(dāng)模型由參數(shù)的線性組合組成時，回歸模型是線性模型，即：
$f(x,\beta)=\sum_{j=1}^m\beta_j\phi_j(x)$
式中 $\phi_j$ 是x的函數(shù)。
令 $X_{ij}=\phi_j(x_i)$ ，并將自變量和因變量轉(zhuǎn)換為矩陣X和Y，我們可以按以下方式計算最小二乘，注意D是所有數(shù)據(jù)的集合。
$L(D,\vec \beta)=||X\vec \beta-Y||^2=(X \vec \beta-Y)^T(X \vec \beta-Y)=Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta$
通過將損失梯度設(shè)置為零并求解 $\vec{\beta}$ ，可以找到最小值。
$\frac{\partial L(D,\vec \beta)}{\partial \vec \beta}=\frac{\partial Y^TY-Y^TX\vec \beta-\vec \beta^TX^TY+\vec \beta^TX^TX\vec \beta}{\partial \vec \beta}=-2X^TY+2X^TX\vec \beta$
最后，將損失的梯度設(shè)置為零，并求解 $\vec{\beta}$ ，我們得到：
$-2X^TY+2X^TX\vec \beta=0 \Rightarrow X^TY=X^TX\vec \beta \Rightarrow \vec{\hat \beta} =(X^TX)^{-1}X^TY$

非線性最小二乘

在某些情況下非線性最小二乘問題有一個解析解，但通常情況下是沒有的。在沒有解析解的情況下，用數(shù)值算法求出使目標(biāo)最小化的參數(shù)?的值。大多數(shù)算法都涉及到參數(shù)的初始值的選擇。然后，迭代地對參數(shù)進行細化，即通過逐次逼近得到這些參數(shù)：
$\beta^{k+1}_j=\beta^{k}_j+ \Delta\beta_j$
式中，上標(biāo)k是迭代數(shù)，增量 $\Delta \beta_j$ 的向量，稱為位移向量。在一些常用算法中，每次迭代該模型都可以通過對 $\beta^k$ 近似一階泰勒級數(shù)展開來線性化：
$\begin{align}f(x_i,\beta) &= f^k(x_i,\beta)+\sum_j \frac{\partial f(x_i,\beta)}{\partial \beta_j}(\beta_j-\beta^k_j) \\&=f^k(x_i,\beta)+\sum_jJ_{ij}\Delta\beta_j\end{align}$
Jacobian矩陣J是常數(shù)、自變量和參數(shù)的函數(shù)，因此它在每次迭代時都會改變。殘差由：
$r_i=y_i-f^k(x_i,\beta)-\sum_{k=1}^mJ_{ik}\Delta\beta_k=\Delta y_i-\sum_{j=1}^mJ_{ij}\Delta \beta_j$
為最小化 $r_i$ 的平方和，將梯度方程置為0，求解 $\Delta \beta_j$ ：
$-2\sum_{i=1}^nJ_{ij}(\Delta y_i-\sum_{k=1}^mJ_{ik}\Delta \beta_k)=0$
經(jīng)過重新排列，形成m個聯(lián)立線性方程組，正規(guī)方程組：
$\sum^n_{i=1}\sum^m_{k=1}J_{ij}J_{ik}\Delta\beta_k=\sum^n_{i=1}J_{ij}\Delta y_i\ \ \ \ (j=1,...,m)$
正規(guī)方程用矩陣表示法寫成
$(J^TJ)\Delta \beta = J^T \Delta y$
這就是高斯牛頓法的定義公式。

線性最小二乘與非線性最小二乘的區(qū)別

模型函數(shù)f在線性最小二乘LLSQ中是參數(shù)的線性組合形式 $f=X_{i1}\beta_1+X_{i2}\beta_2+...$ ，該模型可以表示直線、拋物線或任何其他函數(shù)的線性組合。在非線性最小二乘NLLSQ中，參數(shù)以函數(shù)的形式表示，如 $\beta^2，e^{\beta x}$ 等。如果導(dǎo)數(shù) $\partial f/ \partial \beta_j$ 既不是常數(shù)也不是只依賴于自變量的值，模型的參數(shù)都是線性的。否則模型是非線性的。
求NLLSQ問題的解需要參數(shù)的初始值；LLSQ不需要。
NLLSQ的求解算法通常要求雅可比矩陣的計算類似于LLSQ。偏導(dǎo)數(shù)的解析表達式可能很復(fù)雜。如果無法得到解析表達式，則必須通過數(shù)值近似計算偏導(dǎo)數(shù)，或者必須估計雅可比矩陣，通常是通過有限差分。
在NLLSQ中，不收斂（算法無法找到最小值）是一種常見的現(xiàn)象。
LLSQ是全局凹的，所以不收斂不是問題。
求解NLLSQ通常是一個迭代過程，當(dāng)滿足收斂準(zhǔn)則時，迭代過程必須終止。LLSQ解可以使用直接方法計算，盡管具有大量參數(shù)的問題通常使用迭代方法來解決，例如Gauss–Seidel方法。
在LLSQ中，解是唯一的，但在NLLSQ中，平方和可能存在多個最小值。
在誤差與預(yù)測變量不相關(guān)的情況下，LLSQ得到了無偏估計，但即使在這種情況下，NLLSQ估計通常是有偏的。

在尋求非線性最小二乘問題的解時，必須考慮這些差異。

統(tǒng)計學(xué)

為了對結(jié)果進行統(tǒng)計檢驗，有必要對實驗誤差的性質(zhì)作出假設(shè)。通常的假設(shè)是誤差屬于正態(tài)分布。中心極限定理支持這樣的觀點：在許多情況下，這是一個很好的近似。

高斯-馬爾可夫定理。在誤差是獨立變量具有期望為零、不相關(guān)且方差相等的線性模型中，觀測值的任何線性組合的最佳線性無偏估計量是其最小二乘估計量?！弊罴选笔侵竻?shù)的最小二乘估計具有最小方差。當(dāng)誤差都屬于同一分布時，等方差假設(shè)是有效的。
在線性模型中，如果誤差屬于正態(tài)分布，則最小二乘估計量也是最大似然估計量。

然而，如果誤差不是正態(tài)分布的，中心極限定理通常意味著只要樣本足夠大，參數(shù)估計就會近似正態(tài)分布。因此，鑒于誤差均值獨立于自變量這一重要性質(zhì)，誤差項的分布在回歸分析中不是一個重要問題。具體來說，誤差項是否服從正態(tài)分布并不重要。

在具有單位權(quán)重的最小二乘法計算中，或在線性回歸中，第j個參數(shù)的方差 $Var(\hat \beta_j)$ ，通常估計為：
$var(\hat \beta_j)=\sigma ^2([X^TX]^{-1})_{jj} \approx \frac S{n-m}([X^TX]^{-1})_{jj}$
其中，真實誤差方差 $\sigma^2$ 由基于目標(biāo)函數(shù)平方和最小值的估計值代替。分母，n?m，是統(tǒng)計自由度；請參見有效自由度以獲取歸納。
如果參數(shù)的概率分布已知或漸近近似，則可以找到置信限。同樣，如果殘差的概率分布已知或假設(shè)，則可以對殘差進行統(tǒng)計檢驗。如果已知或假設(shè)實驗誤差的概率分布，我們就可以導(dǎo)出因變量的任何線性組合的概率分布。當(dāng)假設(shè)誤差服從正態(tài)分布時，推斷很容易，因此意味著參數(shù)估計和殘差也將是正態(tài)分布的，這取決于自變量的值。

加權(quán)最小二乘

當(dāng)Ω（殘差的相關(guān)矩陣）的所有非對角項都為空時，廣義最小二乘法的一個特例稱為加權(quán)最小二乘法；觀測值的方差（沿協(xié)方差矩陣對角線）可能仍然不相等（異方差）。更簡單地說，異方差是當(dāng) $Y_i$ 的方差取決于 $x_i$ 的值，這會導(dǎo)致殘差圖產(chǎn)生“扇出”效應(yīng)，使其朝向更大的 $Y_i$ 值，如下側(cè)殘差圖所示。另一方面，同構(gòu)性假設(shè) $Y_i$ 和的 $U_i$ 方差相等。

img

與主成分之間的關(guān)系

關(guān)于一組點的平均值的第一個主成分可以用最接近數(shù)據(jù)點的那條線來表示（用最接近的距離的平方來測量，即垂直于直線）。相比之下，線性最小二乘法只嘗試最小化 $y$ 方向上的距離。因此，雖然二者使用相似的誤差度量，但線性最小二乘法是一種優(yōu)先處理一維數(shù)據(jù)的方法，而PCA則同等對待所有維度。

正則化

tikhonov 正則化

在某些情況下，最小二乘解的正則化版本可能更可取。Tikhonov正則化（或嶺回歸）添加了一個約束，即參數(shù)向量的L2范數(shù) $\|\beta\|^2$ ，即參數(shù)向量的L2范數(shù)，不大于給定值。它可以通過添加 $\alpha\|\beta\|^2$ ，其中 $\alpha$ 是一個常數(shù)（這是約束問題的拉格朗日形式）。在貝葉斯背景下，這相當(dāng)于在參數(shù)向量上放置一個零均值正態(tài)分布的先驗。

Lasso method

最小二乘法的另一種正則化版本是Lasso（least absolute shrinkage and selection operator），它使用 $\|\beta\|$ ，參數(shù)向量的L1范數(shù)，不大于給定值。（如上所述，這相當(dāng)于通過添加懲罰項 $\alpha\|\beta\|$ 對最小二乘法進行無約束最小化）。在貝葉斯背景下，這相當(dāng)于在參數(shù)向量上放置一個零平均拉普拉斯先驗分布。優(yōu)化問題可以使用二次規(guī)劃或更一般的凸優(yōu)化方法，以及由具體算法如最小角度回歸算法。
Lasso 和嶺回歸的一個主要區(qū)別是，在嶺回歸中，隨著懲罰的增加，所有參數(shù)都會減少但仍然保持非零；而在Lasso中，增加懲罰將導(dǎo)致越來越多的參數(shù)被驅(qū)動到零。這是Lasso相對于嶺回歸的一個優(yōu)勢，因為驅(qū)動參數(shù)為零會從回歸中取消選擇特征。因此，Lasso自動選擇更相關(guān)的特征并丟棄其他特征，而嶺回歸永遠不會完全丟棄任何特征?；贚ASSO開發(fā)了一些特征選擇技術(shù)，包括引導(dǎo)樣本的Bolasso方法和分析不同 $\alpha$ 值對應(yīng)的回歸系數(shù)，對所有特征進行評分的FeaLect方法

L1正則化公式在某些情況下是有用的，因為它傾向于選擇更多參數(shù)為零的解，從而給出依賴較少變量的解。因此，Lasso及其變體是壓縮傳感領(lǐng)域的基礎(chǔ)。這種方法的一個擴展是彈性網(wǎng)絡(luò)正則化。

From Wikipedia, the free encyclopedia

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

淺談最小二乘法

淺談最小二乘法

問題陳述