3.1 一元線性回歸
1、y和y'的差距是預(yù)測(cè)誤差,預(yù)測(cè)誤差最小的直線是線性回歸要求的直線。
考慮點(diǎn)到直線的距離,叫做正交回歸。
把所有的預(yù)測(cè)誤差加起來(lái)叫做均方誤差。
所以,線性回歸求的就是均方誤差最小的直線,從幾何角度說(shuō),是平行于y軸最短的直線。
2、表示無(wú)序的多值離散特征可以多加幾個(gè)w比如? 黑[1,0,0] 白[0,1,0] 黃[0,0,1]
f(x)=w1x1+w2x2+w3x3+b
3、argmin不是指是式子的最小值,而是使式子達(dá)到最小值的w和b。
4、極大似然估計(jì)的直觀想法是:使得觀測(cè)樣本出現(xiàn)概率最大的分布就是待求分布,也即使得聯(lián)合概率(似然函數(shù))L(θ)取到最大的θ*就是θ的估計(jì)值。
5、機(jī)器學(xué)習(xí)三要素:
模型-根據(jù)具體問(wèn)題,確定假設(shè)空間
策略-根據(jù)評(píng)價(jià)標(biāo)準(zhǔn),確定選取最優(yōu)模型的策略(通常會(huì)產(chǎn)出一個(gè)損失函數(shù))
算法-求解損失函數(shù),確定最優(yōu)模型,次優(yōu)也行
6、用最小二乘法對(duì)w和b進(jìn)行估計(jì),最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐式距離之和最小。
3.2 二元線性回歸
略
知識(shí)點(diǎn)與一元大致相同
且多為公式推導(dǎo)
3.3對(duì)數(shù)幾率回歸
1、算法原理:在線性模型的基礎(chǔ)上套一個(gè)映射函數(shù)來(lái)實(shí)現(xiàn)分類功能。至于為什么選擇sigmoid函數(shù),解釋有很多種,比較有公信力的角度是最大熵。西瓜書(shū)上給的解釋是對(duì)數(shù)幾率。
2、對(duì)數(shù)幾率角度
給了映射函數(shù)后,可以開(kāi)始建模了。
第一步要確定概率質(zhì)量函數(shù)
第二步寫(xiě)出似然函數(shù)
3、信息論角度
信息熵(自信息的期望):度量隨機(jī)變量X的不確定性,信息熵越大越不確定
相對(duì)熵(KL散度):度量?jī)蓚€(gè)分布的差異,其典型場(chǎng)景是用來(lái)度量理想分布p(x)和模擬分布q(x)之間的差異
q(x)部分得到交叉熵
通過(guò)最小化相對(duì)熵這個(gè)策略可以求出最優(yōu)分布
但由于理想分布p(x)是未知且固定的常量,那么最小化相對(duì)熵就等價(jià)于最小化交叉熵
4、對(duì)數(shù)幾率回歸算法的三要素:
模型:線性模型,輸出值的范圍是[0,1],近似階躍的單調(diào)可微函數(shù)
策略:極大似然估計(jì),信息論
算法:梯度下降,牛頓法
3.4線性判別分析
1、算法原理
從幾何角度:異類樣本的中心盡可能遠(yuǎn),同類樣本的方差盡可能小
2、損失函數(shù)推導(dǎo)(重點(diǎn)回顧)
3、拉格朗日乘子法
4、求解w(重點(diǎn)回顧)
5、廣義特征值和廣義瑞利商