Datawhale七月組隊(duì)學(xué)習(xí)——"吃瓜教程"Task02

這次打卡學(xué)習(xí)的是西瓜書的第三章線性模型。

1)線性回歸

線性回歸問(wèn)題就是試圖學(xué)到一個(gè)線性模型盡可能準(zhǔn)確地預(yù)測(cè)新樣本的輸出值,例如:通過(guò)歷年的全國(guó)航班量數(shù)據(jù)預(yù)測(cè)2022年航班量。在這類問(wèn)題中,往往我們會(huì)先得到一系列的有標(biāo)記數(shù)據(jù),例如:2000–>5000w…2020–>16億,這時(shí)輸入的屬性只有一個(gè),即年份,可以當(dāng)作是時(shí)間序列數(shù)據(jù);也有輸入多屬性的情形,假設(shè)我們預(yù)測(cè)一個(gè)人的收入,這時(shí)輸入的屬性值就不止一個(gè)了,例如:(學(xué)歷,年齡,性別,顏值,身高,體重),都可以作為預(yù)測(cè)的特征。方法是使用最小二乘原理。

2)對(duì)數(shù)幾率回歸

回歸就是通過(guò)輸入的屬性值得到一個(gè)預(yù)測(cè)值,利用上述廣義線性模型的特征,是否可以通過(guò)一個(gè)聯(lián)系函數(shù),將預(yù)測(cè)值轉(zhuǎn)化為離散值從而進(jìn)行分類呢?線性幾率回歸正是研究這樣的問(wèn)題。對(duì)數(shù)幾率引入了一個(gè)對(duì)數(shù)幾率函數(shù)(logistic function),將預(yù)測(cè)值投影到0-1之間,從而將線性回歸問(wèn)題轉(zhuǎn)化為二分類問(wèn)題。

3)線性判別分析

線性判別分析(Linear Discriminant Analysis,簡(jiǎn)稱LDA),其基本思想是:將訓(xùn)練樣本投影到一條直線上,使得同類的樣例盡可能近,不同類的樣例盡可能遠(yuǎn)。


4)多分類學(xué)習(xí)

現(xiàn)實(shí)中我們經(jīng)常遇到不只兩個(gè)類別的分類問(wèn)題,即多分類問(wèn)題,在這種情形下,我們常常運(yùn)用“拆分”的策略,通過(guò)多個(gè)二分類學(xué)習(xí)器來(lái)解決多分類問(wèn)題,即將多分類問(wèn)題拆解為多個(gè)二分類問(wèn)題,訓(xùn)練出多個(gè)二分類學(xué)習(xí)器,最后將多個(gè)分類結(jié)果進(jìn)行集成得出結(jié)論。最為經(jīng)典的拆分策略有三種:“一對(duì)一”(OvO)、“一對(duì)其余”(OvR)和“多對(duì)多”(MvM)。

5)類別不平衡

類別不平衡(class-imbanlance)就是指分類問(wèn)題中不同類別的訓(xùn)練樣本相差懸殊的情況,例如正例有900個(gè),而反例只有100個(gè),這個(gè)時(shí)候我們就需要進(jìn)行相應(yīng)的處理來(lái)平衡這個(gè)問(wèn)題。常見的做法有三種:

【1】在訓(xùn)練樣本較多的類別中進(jìn)行“欠采樣”(undersampling),比如從正例中采出100個(gè),常見的算法有:EasyEnsemble。

【2】在訓(xùn)練樣本較少的類別中進(jìn)行“過(guò)采樣”(oversampling),例如通過(guò)對(duì)反例中的數(shù)據(jù)進(jìn)行插值,來(lái)產(chǎn)生額外的反例,常見的算法有SMOTE。

【3】直接基于原數(shù)據(jù)集進(jìn)行學(xué)習(xí),對(duì)預(yù)測(cè)值進(jìn)行“再縮放”處理。其中再縮放也是代價(jià)敏感學(xué)習(xí)的基礎(chǔ)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容