這篇文章介紹下簡單線性回歸的理解。
還是用一個例子來說明。不像在中國,在美國旅游我們會知道,凡是有人為你服務(wù),我們都需要有一定小費的支出,小費的支出比例10%-20%不等。假設(shè)小A留學(xué)生在一家餐廳打工,他在每服務(wù)一桌客戶后都會受到一筆小費,他對小費金額做了記錄,如下圖所示,遺憾的是他沒有對每桌客戶的消費金額做記錄。

而此時,小A希望能夠?qū)λ乱蛔朗盏降南M做一個預(yù)測。然而,當(dāng)前能夠參考的數(shù)據(jù)少的可憐,僅僅有一個消費金額的數(shù)據(jù)。于是此時最佳的預(yù)測值就是根據(jù)以往的小費金額的平均值,我們將這根平均線定義為最佳擬合線(Best-fit line)

然而,這根最佳擬合線和歷史數(shù)據(jù)對比起來是否很理想呢?我們可以進行一個簡單的計算,最佳擬合線的第一筆小費的預(yù)測值和第一小費實際值差異為-5,第二筆為7。那么將歷史數(shù)據(jù)的所有差異進行加總,為了避免負值抵消正值的效果,我們進行平方后加總。得到:(5-10)^2+(17-10)^2+.......=120。
這里面我們給到一個定義,將120稱為線性回歸中的殘差,英文講sum of squares of residuals,簡寫SSE。

簡單線性回歸的最終目標是找到一條最佳擬合線(Best-fit line)能夠讓我們的SEE變得最小。
假設(shè)小A從店長那里找到了以往的消費記錄,得到了新的散點圖信息。

這時,小A開始從平均位置開始移動線,從而尋找能夠使得SSE最小的那根線,直到移動至下圖中第二張圖中狀態(tài)。

這樣小A就找到在有消費金額和小費兩個信息下的最佳擬合線,也就實現(xiàn)了簡單的線性回歸。
當(dāng)然上述描述中這樣無數(shù)次的移動曲線看起來太沒有效率,統(tǒng)計學(xué)家們用了數(shù)學(xué)計算的方式得到該線的位置,計算的方法就叫做最小二乘法。