這次打卡學(xué)習(xí)的是西瓜書的第三章線性模型。
1)線性回歸
線性回歸問(wèn)題就是試圖學(xué)到一個(gè)線性模型盡可能準(zhǔn)確地預(yù)測(cè)新樣本的輸出值,例如:通過(guò)歷年的全國(guó)航班量數(shù)據(jù)預(yù)測(cè)2022年航班量。在這類問(wèn)題中,往往我們會(huì)先得到一系列的有標(biāo)記數(shù)據(jù),例如:2000–>5000w…2020–>16億,這時(shí)輸入的屬性只有一個(gè),即年份,可以當(dāng)作是時(shí)間序列數(shù)據(jù);也有輸入多屬性的情形,假設(shè)我們預(yù)測(cè)一個(gè)人的收入,這時(shí)輸入的屬性值就不止一個(gè)了,例如:(學(xué)歷,年齡,性別,顏值,身高,體重),都可以作為預(yù)測(cè)的特征。方法是使用最小二乘原理。
2)對(duì)數(shù)幾率回歸
回歸就是通過(guò)輸入的屬性值得到一個(gè)預(yù)測(cè)值,利用上述廣義線性模型的特征,是否可以通過(guò)一個(gè)聯(lián)系函數(shù),將預(yù)測(cè)值轉(zhuǎn)化為離散值從而進(jìn)行分類呢?線性幾率回歸正是研究這樣的問(wèn)題。對(duì)數(shù)幾率引入了一個(gè)對(duì)數(shù)幾率函數(shù)(logistic function),將預(yù)測(cè)值投影到0-1之間,從而將線性回歸問(wèn)題轉(zhuǎn)化為二分類問(wèn)題。

3)線性判別分析
線性判別分析(Linear Discriminant Analysis,簡(jiǎn)稱LDA),其基本思想是:將訓(xùn)練樣本投影到一條直線上,使得同類的樣例盡可能近,不同類的樣例盡可能遠(yuǎn)。

4)多分類學(xué)習(xí)
現(xiàn)實(shí)中我們經(jīng)常遇到不只兩個(gè)類別的分類問(wèn)題,即多分類問(wèn)題,在這種情形下,我們常常運(yùn)用“拆分”的策略,通過(guò)多個(gè)二分類學(xué)習(xí)器來(lái)解決多分類問(wèn)題,即將多分類問(wèn)題拆解為多個(gè)二分類問(wèn)題,訓(xùn)練出多個(gè)二分類學(xué)習(xí)器,最后將多個(gè)分類結(jié)果進(jìn)行集成得出結(jié)論。最為經(jīng)典的拆分策略有三種:“一對(duì)一”(OvO)、“一對(duì)其余”(OvR)和“多對(duì)多”(MvM)。

5)類別不平衡
類別不平衡(class-imbanlance)就是指分類問(wèn)題中不同類別的訓(xùn)練樣本相差懸殊的情況,例如正例有900個(gè),而反例只有100個(gè),這個(gè)時(shí)候我們就需要進(jìn)行相應(yīng)的處理來(lái)平衡這個(gè)問(wèn)題。常見的做法有三種:
【1】在訓(xùn)練樣本較多的類別中進(jìn)行“欠采樣”(undersampling),比如從正例中采出100個(gè),常見的算法有:EasyEnsemble。
【2】在訓(xùn)練樣本較少的類別中進(jìn)行“過(guò)采樣”(oversampling),例如通過(guò)對(duì)反例中的數(shù)據(jù)進(jìn)行插值,來(lái)產(chǎn)生額外的反例,常見的算法有SMOTE。
【3】直接基于原數(shù)據(jù)集進(jìn)行學(xué)習(xí),對(duì)預(yù)測(cè)值進(jìn)行“再縮放”處理。其中再縮放也是代價(jià)敏感學(xué)習(xí)的基礎(chǔ)。