Task2 西瓜書(shū)+南瓜書(shū)

3.1 一元線性回歸

1、y和y'的差距是預(yù)測(cè)誤差,預(yù)測(cè)誤差最小的直線是線性回歸要求的直線。

考慮點(diǎn)到直線的距離,叫做正交回歸。

把所有的預(yù)測(cè)誤差加起來(lái)叫做均方誤差。

所以,線性回歸求的就是均方誤差最小的直線,從幾何角度說(shuō),是平行于y軸最短的直線。

2、表示無(wú)序的多值離散特征可以多加幾個(gè)w比如? 黑[1,0,0] 白[0,1,0] 黃[0,0,1]

f(x)=w1x1+w2x2+w3x3+b

3、argmin不是指是式子的最小值,而是使式子達(dá)到最小值的w和b。

4、極大似然估計(jì)的直觀想法是:使得觀測(cè)樣本出現(xiàn)概率最大的分布就是待求分布,也即使得聯(lián)合概率(似然函數(shù))L(θ)取到最大的θ*就是θ的估計(jì)值。

5、機(jī)器學(xué)習(xí)三要素:

模型-根據(jù)具體問(wèn)題,確定假設(shè)空間

策略-根據(jù)評(píng)價(jià)標(biāo)準(zhǔn),確定選取最優(yōu)模型的策略(通常會(huì)產(chǎn)出一個(gè)損失函數(shù))

算法-求解損失函數(shù),確定最優(yōu)模型,次優(yōu)也行

6、用最小二乘法對(duì)w和b進(jìn)行估計(jì),最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小。

3.2 二元線性回歸

知識(shí)點(diǎn)與一元大致相同

且多為公式推導(dǎo)

3.3對(duì)數(shù)幾率回歸

1、算法原理:在線性模型的基礎(chǔ)上套一個(gè)映射函數(shù)來(lái)實(shí)現(xiàn)分類功能。至于為什么選擇sigmoid函數(shù),解釋有很多種,比較有公信力的角度是最大熵。西瓜書(shū)上給的解釋是對(duì)數(shù)幾率。

2、對(duì)數(shù)幾率角度

給了映射函數(shù)后,可以開(kāi)始建模了。

第一步要確定概率質(zhì)量函數(shù)

第二步寫(xiě)出似然函數(shù)

3、信息論角度

信息熵(自信息的期望):度量隨機(jī)變量X的不確定性,信息熵越大越不確定

相對(duì)熵(KL散度):度量?jī)蓚€(gè)分布的差異,其典型場(chǎng)景是用來(lái)度量理想分布p(x)和模擬分布q(x)之間的差異

q(x)部分得到交叉熵

通過(guò)最小化相對(duì)熵這個(gè)策略可以求出最優(yōu)分布

但由于理想分布p(x)是未知且固定的常量,那么最小化相對(duì)熵就等價(jià)于最小化交叉熵

4、對(duì)數(shù)幾率回歸算法的三要素:

模型:線性模型,輸出值的范圍是[0,1],近似階躍的單調(diào)可微函數(shù)

策略:極大似然估計(jì),信息論

算法:梯度下降,牛頓法

3.4線性判別分析

1、算法原理

從幾何角度:異類樣本的中心盡可能遠(yuǎn),同類樣本的方差盡可能小

2、損失函數(shù)推導(dǎo)(重點(diǎn)回顧)

3、拉格朗日乘子法

4、求解w(重點(diǎn)回顧)

5、廣義特征值和廣義瑞利商

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容