?? 機(jī)器學(xué)習(xí)筆記(西瓜書(shū))

一、緒論

1.1引言

1.1.1定義

????????機(jī)器學(xué)習(xí)是致力于通過(guò)計(jì)算的手段,利用數(shù)據(jù)來(lái)改善系統(tǒng)自身的性能的學(xué)科。

1.1.2研究?jī)?nèi)容

????????從數(shù)據(jù)中產(chǎn)生“模型”的算法(即學(xué)習(xí)算法)

1.1.3如何運(yùn)用

????????有了學(xué)習(xí)算法,將經(jīng)驗(yàn)數(shù)據(jù)傳給學(xué)習(xí)算法后,產(chǎn)生相應(yīng)模型;在面對(duì)新情況時(shí),模型將會(huì)給出相應(yīng)的判斷。

1.2基本術(shù)語(yǔ)

數(shù)據(jù)集:一組記錄的集合

示例/樣本:每條記錄

屬性:反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性

屬性空間:屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個(gè)坐標(biāo)軸,則它們張成一個(gè)用于描述西瓜的三維空間就是屬性空間

特征向量:每個(gè)西瓜都可在這個(gè)空間中找到自己的坐標(biāo)位置。由于空間中的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)向量,因此我們也把這個(gè)坐標(biāo)向量稱為一個(gè)特征向量。


將每個(gè)屬性作為一個(gè)坐標(biāo)軸,多個(gè)屬性就多個(gè)坐標(biāo)軸,從而形成一個(gè)描述物體的屬性空間。此空間中的每個(gè)樣本對(duì)應(yīng)一個(gè)點(diǎn),每個(gè)點(diǎn)都有一個(gè)坐標(biāo)向量,把這個(gè)坐標(biāo)向量稱為特征向量。

學(xué)習(xí)/訓(xùn)練:從數(shù)據(jù)中學(xué)得模型的過(guò)程

訓(xùn)練數(shù)據(jù):訓(xùn)練過(guò)程中使用的數(shù)據(jù)

訓(xùn)練樣本:訓(xùn)練過(guò)程中使用的每一個(gè)樣本

訓(xùn)練集:訓(xùn)練樣本組成的集合

假設(shè):學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律

真相/真實(shí):這種潛在規(guī)律自身

如果希望學(xué)得一個(gè)能幫助我們判斷沒(méi)剖開(kāi)的是不是"好瓜"的模型,僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測(cè)" 的模型,我們還需獲得訓(xùn)練樣本的"結(jié)果"信息,例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響),好瓜)" 。

標(biāo)記:關(guān)于示例結(jié)果的信息,比如上面例子中的 "好瓜" 就屬于標(biāo)記。

樣例:擁有了標(biāo)記信息的示例,則稱為樣例。一般地,用 (xi,yi) 表示第 i 個(gè)樣例,其中 xi 是特征向量,yi 是這個(gè)樣本的標(biāo)記。

標(biāo)記空間/輸出空間:一般的用(xi,yi)表示第i個(gè)樣例,其中yi∈Y是示例xi的標(biāo)記,Y是所有標(biāo)記的集合

????????根據(jù)預(yù)測(cè)結(jié)果的類型,可以將機(jī)器學(xué)習(xí)任務(wù)分為二類。

分類:預(yù)測(cè)結(jié)果的類型是離散值,例如"好瓜","壞瓜";

回歸:預(yù)測(cè)結(jié)果的類型是連續(xù)值,例如西瓜的成熟度0.37、0.95。

????????學(xué)得模型后,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱為測(cè)試

測(cè)試樣本:被預(yù)測(cè)的樣本被稱為測(cè)試樣本

????????我們還可以對(duì)西瓜做聚類

在聚類學(xué)習(xí)中,“淺色瓜”,“外地瓜”這樣的概念我們事先是不知道的,而且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息

????????根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息,學(xué)習(xí)任務(wù)也可大致劃分為兩大類。

監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)有標(biāo)記信息,其中分類與回歸屬于監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí):訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記信息,代表有聚類

機(jī)器學(xué)習(xí)的目標(biāo):使得學(xué)到的模型能夠很好的適用"新樣本"

泛化:學(xué)得模型適用于新樣本的能力

1.3假設(shè)空間

1.3.1歸納與假設(shè)

歸納:從特殊到一般的“泛化”過(guò)程,即從具體的事實(shí)歸結(jié)出一般性規(guī)律

假設(shè):從一般到特殊的“特化”過(guò)程,即從基礎(chǔ)原理推演出具體情況

1.3.2假設(shè)空間定義

????????所有假設(shè)構(gòu)成的集合

1.3.3版本空間

只保留了假設(shè)空間中與訓(xùn)練數(shù)據(jù)集中正例一致的假設(shè),由這些正確的假設(shè)構(gòu)成的集合成為版本空間(簡(jiǎn)單來(lái)說(shuō),版本空間就是正例的泛化)。

假設(shè)空間大小計(jì)算、構(gòu)建假設(shè)空間以及版本空間

舉個(gè)例子,假設(shè)西瓜的好壞由“色澤”,“根蒂”以及“敲聲”決定,且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。

1.3.4假設(shè)空間大小

1.3.5假設(shè)空間圖示

1.3.6訓(xùn)練集

1.4歸納偏好

定義:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好。

任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其歸納偏好,否則它將被假設(shè)空間中看似在訓(xùn)練集上"等效"的假設(shè)所迷惑,無(wú)法產(chǎn)生確定的學(xué)習(xí)結(jié)果。如果沒(méi)有偏好,剛才那個(gè)例子就沒(méi)有確定的答案了。這樣的學(xué)習(xí)結(jié)果顯得沒(méi)有意義。

歸納偏好可以看做學(xué)習(xí)算法自身在一個(gè)可能很龐大的假設(shè)空間對(duì)假設(shè)進(jìn)行選擇的啟發(fā)式或“價(jià)值觀”

奧卡姆剃刀:若有多個(gè)假設(shè)與觀察一直,則選擇最簡(jiǎn)單的那個(gè)。

1.5發(fā)展歷程

20世紀(jì)80年代,“從樣例中學(xué)習(xí)”的一大主流師符號(hào)主義學(xué)習(xí),其代表包括決策樹(shù)和基于邏輯學(xué)習(xí)。

20世紀(jì)90年代中期之前,“從樣例中學(xué)習(xí)”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)。

20世紀(jì)90年代中期, “統(tǒng)計(jì)學(xué)習(xí)(statistical learning)”閃亮登場(chǎng)并迅速占據(jù)主流舞臺(tái),代表技術(shù)是支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)以及更一般的“核方法”(kernel methods)

21世紀(jì)初,連接主義卷土重來(lái),掀起了以“深度學(xué)習(xí)”為名的熱潮。深度學(xué)習(xí)的前身是連接主義學(xué)習(xí)。



二、模型評(píng)估與選擇

2.1經(jīng)驗(yàn)誤差與過(guò)擬合

錯(cuò)誤率:分類錯(cuò)誤的樣本占樣本總數(shù)的比例

精度:精度=1-錯(cuò)誤率

誤差:學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

訓(xùn)練誤差/經(jīng)驗(yàn)誤差:學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差:學(xué)習(xí)器在新樣本上的誤差

過(guò)擬合:學(xué)習(xí)器把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),導(dǎo)致泛化性能下降

????????形成原因:由于學(xué)習(xí)能力過(guò)于強(qiáng)大,以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了

欠擬合:學(xué)習(xí)器對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好

????????形成原因:由于學(xué)習(xí)能力低下造成的

模型選擇:

????????理想的解決方案是對(duì)候選模型的泛化誤差進(jìn)行評(píng)估,然后選擇泛化誤差最小的那個(gè)模型

2.2評(píng)估方法

測(cè)試集:測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力

測(cè)試誤差:已測(cè)試集上的測(cè)試誤差作為泛化誤差的近似

如果我們還有一個(gè)包含m個(gè)樣例的數(shù)據(jù)集D={(x1,y1),(x2,y2),...,(xm,ym)},既要訓(xùn)練,又要測(cè)試,就需要通過(guò)對(duì)D進(jìn)行適當(dāng)?shù)奶幚恚瑥闹挟a(chǎn)生出訓(xùn)練集S和測(cè)試集T。

留出法(hold-out):

直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合,其中一個(gè)集合作為訓(xùn)練集S,另一個(gè)作為測(cè)試集T

訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性。保留類別的方式通常稱為(分層采樣)

即便是在給定訓(xùn)練/測(cè)試集的樣本比例后,仍存在多重劃分方式對(duì)初始數(shù)據(jù)集D進(jìn)行分割。

因此,單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠,在使用留出法時(shí),一般多次取平均值。

常見(jiàn)做法:將大約2/3~4/5的樣本用于訓(xùn)練,剩余樣本用于測(cè)試

交叉驗(yàn)證法(cross validation):

k折交叉驗(yàn)證:均勻分成k份,依次取一份作為測(cè)試集,其他k-1份作為訓(xùn)練集,分別做k次訓(xùn)練和測(cè)試

交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性正在很大程度上取決于k的取值

留一法:

優(yōu)點(diǎn):評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確

缺點(diǎn):訓(xùn)練M個(gè)模型的計(jì)算開(kāi)銷可能是難以忍受的

自助法(bootstrapping):

是一種從給定訓(xùn)練集中有放回的均勻抽樣,也就是說(shuō),每當(dāng)選中一個(gè)樣本,它等可能地被再次選中并被再次添加到訓(xùn)練集中。

樣本在m次采樣中始終不被采到的概率是(1-1/m)m,取極限為1/e約等于0.368

優(yōu)點(diǎn):

自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)也很有用 ?

從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集

缺點(diǎn):改變了初始數(shù)據(jù)集的分布,會(huì)引入估計(jì)誤差

調(diào)參與最終模型:

????????在模型選擇完成以后,學(xué)習(xí)算法和參數(shù)配置已選定,此時(shí)應(yīng)該用數(shù)據(jù)集D重新訓(xùn)練模型

測(cè)試數(shù)據(jù):學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)

驗(yàn)證集:模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集

????????通常我們用測(cè)試集上的判別效果來(lái)估計(jì)模型在實(shí)際使用時(shí)的泛化能力,而把訓(xùn)練數(shù)據(jù)另外劃分為訓(xùn)練集合驗(yàn)證集基于驗(yàn)證集上的性能來(lái)進(jìn)行模型選擇和調(diào)參

2.3性能度量

????????除了如何劃分集合、如何調(diào)參外,還有一點(diǎn)需要討論——我們以什么樣的指標(biāo)來(lái)度量模型的表現(xiàn)?????

定義:

????????衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

均方誤差:

????????回歸任務(wù)常用的性能度量

錯(cuò)誤率:

精度:

分類混淆矩陣:

查準(zhǔn)率(precision):

????????預(yù)測(cè)中的正例實(shí)際為正例所占的比例

查全率(recall):

????????所有正例被預(yù)測(cè)為正例所占的比例

查準(zhǔn)率P和查全率R是矛盾的

PR圖:

P-R圖可以直觀地表示查準(zhǔn)率P和查全率R的關(guān)系,曲線面積越大,算法越好。如果一個(gè)算法的P-R曲線能“包住”另外一個(gè)說(shuō)明該算法比后者要好。

平衡點(diǎn)(BEP,Break-Even-Point):查準(zhǔn)率P=查全率R時(shí)的取值

F1:

產(chǎn)出原因:BEP過(guò)于簡(jiǎn)化

F1是基于查準(zhǔn)率與查全率的調(diào)和平均

????????Fβ是加權(quán)調(diào)和平均,能夠讓我們表達(dá)出對(duì)查準(zhǔn)率/查全率的不同偏好

????????其中β>0度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性

????????β=1時(shí)退化為標(biāo)準(zhǔn)的F1;

????????β>1時(shí)查全率有更大影響;

????????β<1時(shí)查準(zhǔn)率有更大影響

????????很多時(shí)候,我們希望在n個(gè)二分類混淆矩陣上分別計(jì)算出查準(zhǔn)率與查全率,記為(P1,R1),(p2,R2),…,(Pn,Rn)

????????方法一:一種直接的做法是先在各混淆矩陣上分別計(jì)算出查準(zhǔn)率和查全率,記為(P1,R1),(p2,R2),…,(Pn,Rn),再計(jì)算平均值,這樣就得到“宏查準(zhǔn)率”( macro-p)、“宏查全率”( macro-r),以及相應(yīng)的“宏F1”( macro-f1)

宏查準(zhǔn)率(macro—P):

宏查全率(macro-R):

宏F1(macro—F1):

????????方法二:還可先將各混淆矩陣的對(duì)應(yīng)元素進(jìn)行平均,得到TP、FP、TN、FN的平均值,分別記為:

微查準(zhǔn)率(micro—P):

微查全率(micro-R):

微F1(micro—F1):

Roc和AUC:

????????Roc:Roc全稱是“受試者工作特征(Receiver Operating Characteristic)”曲線。根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),每次計(jì)算出兩個(gè)重要量的值,分別以它們的橫、縱坐標(biāo)作圖,就得到了Roc曲線。

????????AUC:其中AUC(Area Under Roc Curve)為Roc曲線下所包含的面積,用于判斷學(xué)習(xí)器間的性能誰(shuí)更優(yōu)。

????????Roc曲線的縱軸是“真正例率(True Positive Rate,簡(jiǎn)稱TPR)”,橫軸是“假正例率(False Positive Rate,簡(jiǎn)稱FPR)”。

分類混淆矩陣

計(jì)算示例:

????????我們從高到低,依次將“Score”值作為閾值threshold,當(dāng)測(cè)試樣本屬于正樣本的概率大于或等于這個(gè)threshold時(shí),我們認(rèn)為它為正樣本,否則為負(fù)樣本。舉例來(lái)說(shuō),對(duì)于圖中的第4個(gè)樣本,其“Score”值為0.6,那么樣本1,2,3,4都被認(rèn)為是正樣本,因?yàn)樗鼈兊摹癝core”值都大于等于0.6,而其他樣本則都認(rèn)為是負(fù)樣本。每次選取一個(gè)不同的threshold,我們就可以得到一組FPR和TPR,即Roc曲線上的一點(diǎn)。這樣一來(lái),我們一共得到了20組FPR和TPR的值,將它們畫(huà)在Roc曲線的結(jié)果如下圖:

為什么使用Roc和Auc評(píng)價(jià)分類器?

????????因?yàn)镽oc曲線有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本的分布變換的時(shí)候,Roc曲線能夠保持不變。

代價(jià)敏感錯(cuò)誤率與代價(jià)曲線:

產(chǎn)生原因:在前面介紹的一些性能度量可以看出,它們大多隱式的假設(shè)了均等代價(jià);然而在現(xiàn)實(shí)任務(wù)中常會(huì)遇到這樣的情況:不同類型的錯(cuò)誤所造成的后果不同

非均等代價(jià):為權(quán)衡不同類型錯(cuò)誤所造成的不同損失,可將錯(cuò)誤賦予“非均等代價(jià)”

二類代價(jià)矩陣:一般來(lái)說(shuō)costii=0;若將第0類判定為第1類所造成的損失更大,則cost01>cost10;損失程度相差越大,cost01與cost10的值相差越大

敏感錯(cuò)誤率:

????????D+與D-分別代表樣例集D的正例子集和反類子集

代價(jià)曲線:

在非均等的代價(jià)下,Roc曲線不能直接反映出學(xué)習(xí)器的期望的總體代價(jià),而代價(jià)曲線則可以。其中P是樣例為正例的概率,縱軸是取值為[0,1]的歸一化代價(jià)

Roc曲線上每一點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段,設(shè)Roc曲線上點(diǎn)的坐標(biāo)為(TPR,FPR),則可相應(yīng)計(jì)算出FNR,然后在代價(jià)平面上繪制條從(0,FPR)到(1,FNR)的線段,線段下的面積即表示了該條件下的期望總體代價(jià);如此將Roc曲線上的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一條線段,然后取所有線段的下界,圍成的面積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

2.4比較檢驗(yàn)

2.4.1產(chǎn)生原因:

????????直接取得性能度量的值然后“比大小”嗎?實(shí)際上,機(jī)器學(xué)習(xí)中性能比較這件事要比大家想象的復(fù)雜得多。這里面涉及幾個(gè)重要因素:首先,我們希望比較的是泛化性能,然而通過(guò)實(shí)驗(yàn)評(píng)估方法我們獲得的是測(cè)試集上的性能,兩者的對(duì)比結(jié)果可能未必相同;第二,測(cè)試集上的性能與測(cè)試集本身的選擇有很大關(guān)系,且不論使用不同大小的測(cè)試集會(huì)得到不同的結(jié)果,即便用相同大小的測(cè)試集,若包含的測(cè)試樣例不同,測(cè)試結(jié)果也會(huì)有不同;第三,很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性,即便用相同的參數(shù)設(shè)置在同一個(gè)測(cè)試集上多次運(yùn)行,其結(jié)果也會(huì)有不同。

2.4.2主要有3類方法可以對(duì)學(xué)習(xí)器的性能進(jìn)行比較:

1.假設(shè)檢驗(yàn)

二項(xiàng)檢驗(yàn)與t檢驗(yàn)

????????上面介紹的兩種方法都是對(duì)關(guān)于單個(gè)學(xué)習(xí)器泛化性能的假設(shè)進(jìn)行檢驗(yàn),而在現(xiàn)實(shí)任務(wù)中,更多時(shí)候我們需對(duì)不同學(xué)習(xí)器的性能進(jìn)行比較,下面將介紹適用于此類情況的假設(shè)檢驗(yàn)方法。

2.交叉驗(yàn)證t檢驗(yàn)

????????這里的基本思想是若兩個(gè)學(xué)習(xí)器的性能相同,則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同。

3.McNemar檢驗(yàn)

????????交又驗(yàn)證t檢驗(yàn)和 Mcnemar檢驗(yàn)都是在一個(gè)數(shù)據(jù)集上比較兩個(gè)算法的性能,而在很多時(shí)候,我們會(huì)在一組數(shù)據(jù)集上對(duì)多個(gè)算法進(jìn)行比較.

4.Frieman檢驗(yàn)與Nemenyi后續(xù)檢驗(yàn)

2.5偏差與方差

產(chǎn)生原因:

????????對(duì)學(xué)習(xí)算法除了通過(guò)實(shí)驗(yàn)估計(jì)其泛化性能,人們往往還希望了解它“為什”具有這樣的性能.“偏差方差分解”(bias- variance decomposition)是解釋學(xué)習(xí)算法泛化性能的一種重要工具

期望預(yù)測(cè):

使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差:

噪聲:

偏差:

期望輸出與真實(shí)標(biāo)記的差別稱為偏差(bias)

泛化誤差公式:

泛化誤差可分解為偏差、方差和噪聲之和

一般來(lái)說(shuō),偏差與方差有沖突,稱為偏差-方差窘境(bias-variance dilemma)


????????偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫(huà)了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫(huà)了數(shù)據(jù)擾動(dòng)所造成的影響;噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫(huà)了學(xué)習(xí)問(wèn)題本身的難度.偏差一方差分解說(shuō)明,泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的.給定學(xué)習(xí)任務(wù),為了取得好的泛化性能,則需使偏差較小,即能夠充分?jǐn)M合數(shù)據(jù),并且使方差較小,即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小。



三、線性模型

3.1基本形式

????????線性模型:

????????試圖學(xué)得一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù),即

????????用向量形式寫(xiě)成

????????由于w直觀的表達(dá)了各屬性在預(yù)測(cè)中的重要性,由此線性模型有很好的可解釋性

3.2線性回歸

3.2.1定義

????????所謂線性回歸,就是已知數(shù)據(jù)集學(xué)成一個(gè)線性模型f(x)=w1x1+w2x2+...+wdxd+b=w^Tx+b,使得誤差平方和最小。

????????最小化的過(guò)程,稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”。讓它分別對(duì)w和b求導(dǎo),得

????????令上面的兩個(gè)式子為0,解得

3.2.2多元線性回歸

可利用最小二乘法對(duì)w和b進(jìn)行估計(jì),把w和b吸入向量形式w^=(w;b),把數(shù)據(jù)集D表示為m*(d+1)大小的矩陣X,每行對(duì)應(yīng)一個(gè)示例,該行前d個(gè)元素對(duì)應(yīng)于示例的d個(gè)屬性值,最后一個(gè)元素均置為1,即

再把標(biāo)記寫(xiě)成向量形式y(tǒng)=(y1;y2;...;ym)

誤差平方和的矩陣形式

當(dāng)X^TX為滿秩矩陣或正定矩陣,令上式為0可得

廣義線性模型考慮單調(diào)可微函數(shù)g(x)

????????最終學(xué)得的線性回歸模型為

3.2.3正則化項(xiàng)

????????在現(xiàn)實(shí)任務(wù)中,我們會(huì)遇到大量的變量,數(shù)目甚至超過(guò)樣例數(shù),導(dǎo)致X的列數(shù)多余行數(shù),X^TX往往不是滿秩矩陣,此時(shí)可以解出多個(gè)w^ ,它們都能使均方誤差最小化,選擇哪一個(gè)解作為輸出,將由學(xué)習(xí)算法的歸納偏好決定

3.2.4對(duì)數(shù)線性回歸

????????假設(shè)我們認(rèn)為示例對(duì)應(yīng)的輸出標(biāo)記在指數(shù)尺度上變化,可將輸出標(biāo)記的對(duì)數(shù)作為線性模型逼近的目標(biāo),即

????????實(shí)際上是在試圖讓逼近y

????????考慮單調(diào)可微函數(shù)g(·),令

????????這樣得到的模型是“廣義線性模型”,其中函數(shù)g(·)稱為聯(lián)系函數(shù),對(duì)數(shù)線性回歸是廣義線性模型在g(·)在ln(·)的特例

3.3對(duì)數(shù)線性回歸

????????對(duì)于分類任務(wù),在廣義線性模型中,只需找到一個(gè)單調(diào)可微函數(shù)將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)。

????????對(duì)于二分類任務(wù),輸出標(biāo)記y∈ {0,1},而線性回歸模型產(chǎn)生的預(yù)測(cè)值

????????是實(shí)值,于是將實(shí)值z(mì)轉(zhuǎn)化為0/1值,用到“單位階躍函數(shù)”

若預(yù)測(cè)值z(mì)大于0就判為正例,小于0判為反例,為臨界值可任意判別

然而單位階躍函數(shù)并不連續(xù),希望找到一個(gè)一定程度上近似單位階躍函數(shù)的“替代函數(shù)”并且它單調(diào)可微

????????對(duì)數(shù)幾率函數(shù)是一個(gè)常用的替代函數(shù):

????????將對(duì)數(shù)幾率函數(shù)作為g^- (·)代入廣義線性模型,得到

幾率:y/1-y ?

對(duì)數(shù)幾率:ln(y/1-y)

若y為樣本x作為正例的可能性,則1-y是反例可能性,兩者的比值y/1-y稱為幾率,反映了x作為正例的相對(duì)可能性,對(duì)幾率取對(duì)數(shù)得到對(duì)數(shù)幾率ln(y/1-y),可看出式子是在用線性回歸模型的預(yù)測(cè)結(jié)果逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率,因此對(duì)應(yīng)的模型稱為“對(duì)數(shù)幾率回歸”,雖然名字是回歸,但是是一種分類學(xué)習(xí)方法。

優(yōu)點(diǎn)是它直接對(duì)分類可能性進(jìn)行建模,無(wú)須事先假設(shè)數(shù)據(jù)分布,避免了假設(shè)分布不準(zhǔn)確帶來(lái)的問(wèn)題,它不是預(yù)測(cè)出“類別”,而是可得到近似概率預(yù)測(cè),對(duì)需利用概率輔助決策的任務(wù)很有用。

????????若將y視為類后驗(yàn)概率估計(jì)p(y=1|x),則上式可重寫(xiě)為

????????最后可用極大似然法來(lái)估計(jì)w和b

3.4多分類學(xué)習(xí)

3.4.1基本思路

????????基本思路是“拆解法”,將多分類學(xué)習(xí)任務(wù)拆為若干個(gè)二分類任務(wù)求解,最經(jīng)典的三種拆分策略:“一對(duì)一”(OvO)、“一對(duì)其余”(OvR)和“多對(duì)多”(MvM)

3.4.2 OVO

????????給定數(shù)據(jù)集D={(x1,y1),(x2,y2),…(xm,ym)},yi∈(C1,C2,…CN),OVO將這N個(gè)類別兩兩配對(duì),從而產(chǎn)生N(N-1)/2個(gè)分類任務(wù),最終結(jié)果可以通過(guò)投票產(chǎn)生:即把被預(yù)測(cè)得最多的類別作為最終分類結(jié)果。

3.4.3 OVR

????????OVR則是每次將一個(gè)類的樣例作為正例,所有其他的樣例作為反例來(lái)訓(xùn)練N個(gè)分類器。在測(cè)試時(shí)若只有一個(gè)分類器預(yù)測(cè)為正類,則對(duì)應(yīng)的類別標(biāo)記作為最終分類結(jié)果。

3.4.4 OVO與OVR比較

????????OVO的存儲(chǔ)開(kāi)銷和測(cè)試時(shí)間開(kāi)銷通常比OVR更大,方式在訓(xùn)練時(shí),OVR的每個(gè)分類器均使用全部訓(xùn)練樣例,因此,在類別很多時(shí),OVO的訓(xùn)練時(shí)間開(kāi)銷通常比OVR更小。

3.4.5 MVM技術(shù)

????????糾錯(cuò)輸出碼(Error Correcting Output Codes,ECOC)

過(guò)程:

編碼:對(duì)N個(gè)類別做M次劃分,每次劃分將一部分類別化為正類,另一部分分為反類,產(chǎn)生M個(gè)訓(xùn)練集——M個(gè)分類器。

解碼:M個(gè)分類器分別預(yù)測(cè),這些預(yù)測(cè)標(biāo)記組成一個(gè)編碼,將其與每個(gè)類別的編碼比較,區(qū)別最小的就是最終結(jié)果。

????????類別劃分通過(guò)“編碼矩陣”指定

二元陣:將類別指定為正類和反類

三元陣:在正反類之外還可以指定“停用類”

示意圖:

歐氏距離:在a圖中分類器f2將C1和C3類的樣例作為正例;若基于歐式距離,預(yù)測(cè)結(jié)果是C3

海明距離:兩個(gè)合法代碼對(duì)應(yīng)位上編碼不同的位數(shù)為碼距,又稱海明碼,例如測(cè)試示例:101010,分類示例:100101,此時(shí)海明距離為4

總結(jié):一般來(lái)說(shuō),對(duì)于同一個(gè)學(xué)習(xí)任務(wù),ECOC編碼越長(zhǎng),糾錯(cuò)能力越強(qiáng);然而,編碼越長(zhǎng),意味著所需訓(xùn)練器的分類器越多,計(jì)算、存儲(chǔ)開(kāi)銷都會(huì)增大。

3.5類別不均衡問(wèn)題

3.5.1 定義

????????類別不平衡,就是指分類任務(wù)中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況。

用1式對(duì)新樣本進(jìn)行分類,實(shí)際上在用預(yù)測(cè)的y值與一個(gè)閾值比較。若:

則預(yù)測(cè)為正例

然而,正反例數(shù)目不同時(shí),觀測(cè)幾率m+/m-,由于我們假設(shè)無(wú)偏采樣,則觀測(cè)幾率就代表真實(shí)幾率,于是若

則預(yù)測(cè)為正例

但是原來(lái)的分類器基于1式進(jìn)行決策,所以需要再縮放操作

但是我們很難保證“訓(xùn)練集是真實(shí)樣本總體的無(wú)偏采樣”?,F(xiàn)有技術(shù)有3種做法:

1.“欠采樣”:直接去除一些反例。

2.“過(guò)采樣”:增加一些正例。

3.閾值移動(dòng):不增不減,但是預(yù)測(cè)時(shí)采取式2。


機(jī)器學(xué)習(xí)系列文檔持續(xù)更新,求關(guān)注求點(diǎn)贊哦!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容