02 第3章

<meta charset="utf-8">

一、基本形式

“線性模型”(linear model) 試圖學(xué)得一個(gè)通過屬性得線性組合來進(jìn)行預(yù)測的函數(shù)

image.png

向量形式

image.png

其中 w = ( w 1 ; w 2 ; . . . ; w b ) ,w和b學(xué)得后模型就確定了。

  • 許多功能更強(qiáng)大的 “非線性模型(nonlinear model)” 可在線性模型的基礎(chǔ)上通過引入層次結(jié)構(gòu)或高維映射而得

  • 可解釋性(comprehensibility)

二,線性回歸

當(dāng)樣本由單個(gè)屬性描述時(shí):

線性回歸試圖學(xué)得f(xi)= wxi+b使得f(xi)→yi 。")線性回歸試圖學(xué)得f(xi)= wxi+b使得f(xi)→yi 。

如何求w和b?

最小二乘法——基于均方誤差最小化")最小二乘法——基于均方誤差最小化

試圖找到一條直線,使所有樣本到直線上的歐氏距離之和最小。

當(dāng)樣本由多個(gè)屬性描述時(shí):

線性回歸試圖學(xué)得f(xi)= w^Txi+b使得f(xi)→yi ,稱多元線性回歸。

但現(xiàn)實(shí)中往往遇到大量變量,X T X不是滿秩矩陣,此時(shí)可以求出多個(gè)解,選擇哪一個(gè)解由算法的偏好決定,常用的做法是引入 正則化(regularization) 項(xiàng)

三、對數(shù)幾率回歸

若進(jìn)行分類任務(wù)時(shí)怎么辦?→找一個(gè)單調(diào)可微函數(shù)將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測值聯(lián)系起來.

二分類任務(wù)時(shí),我們的輸出標(biāo)記為{0,1},而線性回歸模型產(chǎn)生的預(yù)測值是實(shí)值,需 將實(shí)值z轉(zhuǎn)換為 0 / 1 值,此時(shí)考慮“單位階躍函數(shù)”。
y視為樣本x作為正例的可能性,則1-y作為反例可能性,兩者比值y/( 1 ? y)稱為 “幾率”(odds),反映了x作為正例的相對可能性。對幾率取對數(shù)則得到 “對數(shù)幾率”(log odds,亦稱logit) l n (y/(1 ? y))

  • 實(shí)際上是在用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率

四、線性判別分析LDA

  • 線性判別分析(Linear Discriminant Analysis,簡稱LDA),亦稱 “Fisher判別分析”
  • LDA思想非常樸素:給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上,使得同類樣例的投影點(diǎn)盡可能接近、異類樣例的投影點(diǎn)盡可能遠(yuǎn)離;對新樣本進(jìn)行分類時(shí),將其投影到同樣這條直線上,再根據(jù)投影點(diǎn)的位置確定新樣本的類別。


    image.png

五 多分類

利用二分類學(xué)習(xí)器來解決多分類問題.
將多分類任務(wù)拆為若干個(gè)二分類任務(wù)求解.")·將多分類任務(wù)拆為若干個(gè)二分類任務(wù)求解.
拆分策略:
“一對一”(One vs. One,簡稱OvO)、
“一對其余“(One vs. Rest,簡稱 OvR)和
”多對多” (Many vs. Many,簡稱 MvM).")·


image.png

六、類別不平衡問題

  • 類別不平衡(class-imbalance)就是指分類任務(wù)中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況
    “欠采樣”(undersampling),去除一些多余樣例,使正、反例數(shù)目接近,然后再進(jìn)行學(xué)習(xí);
    “過采樣”(oversampling) 增加一些數(shù)量少類型的樣例,使正反樣例數(shù)量接近,然后再進(jìn)行學(xué)習(xí);
    直接基于原始訓(xùn)練集進(jìn)行學(xué)習(xí),但在訓(xùn)練好的分類器進(jìn)行預(yù)測時(shí),將再縮放式嵌入到?jīng)Q策過程中,成為 “閾值移動”(threshold-moving)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容