機器學(xué)習(xí)入門_線性回歸

1. 什么是線性回歸

其實回歸算法是相對分類算法而言的,與我們想要預(yù)測的目標(biāo)變量y的值類型有關(guān)。如果目標(biāo)變量y是分類型變量,如預(yù)測用戶的性別(男、女),預(yù)測月季花的顏色(紅、白、黃……),預(yù)測是否患有肺癌(是、否),那我們就需要用分類算法去擬合訓(xùn)練數(shù)據(jù)并做出預(yù)測;如果y是連續(xù)型變量,如預(yù)測用戶的收入(4千,2萬,10萬……),預(yù)測員工的通勤距離(500m,1km,2萬里……),預(yù)測患肺癌的概率(1%,50%,99%……),我們則需要用回歸模型。

聰明的你一定會發(fā)現(xiàn),有時分類問題也可以轉(zhuǎn)化為回歸問題,例如剛剛舉例的肺癌預(yù)測,我們可以用回歸模型先預(yù)測出患肺癌的概率,然后再給定一個閾值,例如50%,概率值在50%以下的人劃為沒有肺癌,50%以上則認(rèn)為患有肺癌。

這種分類型問題的回歸算法預(yù)測,最常用的就是邏輯回歸,后面我們會講到。

2.一元線性回歸

線性回歸可以說是用法非常簡單、用處非常廣泛、含義也非常容易理解的一類算法,作為機器學(xué)習(xí)的入門算法非常合適。

當(dāng)我們只用一個x來預(yù)測y,就是一元線性回歸,也就是在找一個直線來擬合數(shù)據(jù)。

3. 損失函數(shù)

我們先從殘差說起。殘差說白了就是真實值和預(yù)測值間的差值(也可以理解為差距、距離),用公式表示是:

殘差平方和,即SSE(Sum of Squares for Error),在機器學(xué)習(xí)中它是回歸問題中最常用的損失函數(shù):

4.最小二乘法

殘差平方和的公式是一個二次方程,我們知道一元二次方程差不多長下圖這樣:

5. 小結(jié)

線性回歸的定義,是利用最小二乘函數(shù)對一個或多個自變量之間關(guān)系進行建模的方法?,F(xiàn)在我們看這個定義,是不是覺得不難理解了呢?

以上舉的例子是一維的例子(x只有一個),如果有兩個特征,就是二元線性回歸,要擬合的就是二維空間中的一個平面。如果有多個特征,那就是多元線性回歸:

最后再提醒一點,做線性回歸,不要忘了前提假設(shè)是y和x呈線性關(guān)系,如果兩者不是線性關(guān)系,就要選用其他的模型啦。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容