????線性回歸(linear regression)是由統(tǒng)計(jì)學(xué)演變出的常用機(jī)器學(xué)習(xí)模型。其主要思想是通過模型去描述自變量和因變量
之間的關(guān)系。往模型中輸入
,便得到與之對(duì)應(yīng)的
。接下來我們一步步的解釋線性回歸模型。
一,線性回歸模型
????我們的有m個(gè)樣本,每個(gè)樣本有n個(gè)特征和一個(gè)對(duì)應(yīng)的結(jié)果,如下:
對(duì)于以上數(shù)據(jù),我們建立一個(gè)線性回歸模型:
則對(duì)于樣本有:
? ??????????????????????????????????
進(jìn)一步用矩陣形式表達(dá)為:
一般線性回歸我們用均方誤差作為損失函數(shù)。損失函數(shù)的代數(shù)法表示如下:
進(jìn)一步用矩陣可以表示為:
二,損失函數(shù)最小化
1.最小二乘法
????損失函數(shù)定義為:
根據(jù)最小二乘法的原理,我們要對(duì)這個(gè)損失函數(shù)對(duì)向量求導(dǎo)取0。結(jié)果如下式:
最后可以得到:,有了具體的數(shù)據(jù)
我們就可以計(jì)算出
2.梯度下降法
1)確定當(dāng)前位置的損失函數(shù)的梯度,對(duì)于梯度下降表達(dá)式為:
2)用步長乘以損失函數(shù)的梯度,得到當(dāng)前位置下降的距離,即
3)確定向量里面的每個(gè)值,梯度下降的距離都小于設(shè)定值
,如果小于
則算法終止,當(dāng)前
向量即為最終結(jié)果。否則進(jìn)入步驟4.
4)更新,其更新表達(dá)式如下。更新完畢后繼續(xù)轉(zhuǎn)入步驟1.
我們用向量來進(jìn)行表示,損失函數(shù)對(duì)于的偏導(dǎo)數(shù)計(jì)算如下:
那么步驟4中,更新則為:
。
三,正則化
????為了防止模型的過擬合,我們?cè)诮⒕€性模型的時(shí)候經(jīng)常需要加入正則化項(xiàng)。一般有L1正則化和L2正則化。
1.L1正則化
線性回歸的L1正則化通常稱為Lasso回歸,它和一般線性回歸的區(qū)別是在損失函數(shù)上增加了一個(gè)L1正則化的項(xiàng),L1正則化的項(xiàng)有一個(gè)懲罰系數(shù)來調(diào)節(jié)損失函數(shù)的均方差項(xiàng)和正則化項(xiàng)的權(quán)重,具體Lasso回歸的損失函數(shù)表達(dá)式如下:
其中,
為懲罰系數(shù),
越大,對(duì)
的限制越大。Lasso回歸可以使得一些特征的系數(shù)變小,甚至還是一些絕對(duì)值較小的系數(shù)直接變?yōu)?。增強(qiáng)模型的泛化能力。
2.L2正則化
線性回歸的L2正則化通常稱為Ridge回歸,它和一般線性回歸的區(qū)別是在損失函數(shù)上增加了一個(gè)L2正則化的項(xiàng)。具體Ridge回歸的損失函數(shù)表達(dá)式如下:
其中,
為懲罰系數(shù),
越大,對(duì)
的限制越大。Ridge回歸在不拋棄任何一個(gè)特征的情況下,縮小了回歸系數(shù),使得模型相對(duì)而言比較的穩(wěn)定,但和Lasso回歸比,這會(huì)使得模型的特征留的特別多,模型解釋性差。
下圖為(X軸)與
(Y軸)之間的關(guān)系:

看到這里你可能有個(gè)疑問,L1,L2之間有什么區(qū)別么?
下面給出直觀的解釋:


小伙伴們?nèi)绻X得文章還行的請(qǐng)點(diǎn)個(gè)贊呦??!同時(shí)覺得文章哪里有問題的可以評(píng)論一下? 謝謝你!