看视频一区二区三区,久久久亚洲骚妇

一、緒論

1.1引言

1.1.1定義

????????機(jī)器學(xué)習(xí)是致力于通過(guò)計(jì)算的手段，利用數(shù)據(jù)來(lái)改善系統(tǒng)自身的性能的學(xué)科。

1.1.2研究?jī)?nèi)容

????????從數(shù)據(jù)中產(chǎn)生“模型”的算法（即學(xué)習(xí)算法）

1.1.3如何運(yùn)用

????????有了學(xué)習(xí)算法，將經(jīng)驗(yàn)數(shù)據(jù)傳給學(xué)習(xí)算法后，產(chǎn)生相應(yīng)模型；在面對(duì)新情況時(shí)，模型將會(huì)給出相應(yīng)的判斷。

1.2基本術(shù)語(yǔ)

數(shù)據(jù)集：一組記錄的集合

示例/樣本：每條記錄

屬性：反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項(xiàng)。例如每條記錄中的“色澤”、“根蒂”、“敲聲”就是西瓜的屬性

屬性空間：屬性張成的空間。例如我們把"色澤" "根蒂" "敲聲"作為三個(gè)坐標(biāo)軸，則它們張成一個(gè)用于描述西瓜的三維空間就是屬性空間

特征向量：每個(gè)西瓜都可在這個(gè)空間中找到自己的坐標(biāo)位置。由于空間中的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)向量，因此我們也把這個(gè)坐標(biāo)向量稱為一個(gè)特征向量。

將每個(gè)屬性作為一個(gè)坐標(biāo)軸，多個(gè)屬性就多個(gè)坐標(biāo)軸，從而形成一個(gè)描述物體的屬性空間。此空間中的每個(gè)樣本對(duì)應(yīng)一個(gè)點(diǎn)，每個(gè)點(diǎn)都有一個(gè)坐標(biāo)向量，把這個(gè)坐標(biāo)向量稱為特征向量。

學(xué)習(xí)/訓(xùn)練：從數(shù)據(jù)中學(xué)得模型的過(guò)程

訓(xùn)練數(shù)據(jù)：訓(xùn)練過(guò)程中使用的數(shù)據(jù)

訓(xùn)練樣本：訓(xùn)練過(guò)程中使用的每一個(gè)樣本

訓(xùn)練集：訓(xùn)練樣本組成的集合

假設(shè)：學(xué)得模型對(duì)應(yīng)了關(guān)于數(shù)據(jù)的某種潛在規(guī)律

真相/真實(shí)：這種潛在規(guī)律自身

如果希望學(xué)得一個(gè)能幫助我們判斷沒(méi)剖開(kāi)的是不是"好瓜"的模型，僅有前面的示例數(shù)據(jù)顯然是不夠的要建立這樣的關(guān)于"預(yù)測(cè)" 的模型，我們還需獲得訓(xùn)練樣本的"結(jié)果"信息，例如"((色澤=青綠;根蒂=蜷縮;敲聲=濁響)，好瓜)" 。

標(biāo)記：關(guān)于示例結(jié)果的信息，比如上面例子中的 "好瓜" 就屬于標(biāo)記。

樣例：擁有了標(biāo)記信息的示例，則稱為樣例。一般地，用 (xi,yi) 表示第 i 個(gè)樣例，其中 xi 是特征向量，yi 是這個(gè)樣本的標(biāo)記。

標(biāo)記空間/輸出空間：一般的用（xi,yi）表示第i個(gè)樣例，其中yi∈Y是示例xi的標(biāo)記，Y是所有標(biāo)記的集合

????????根據(jù)預(yù)測(cè)結(jié)果的類型，可以將機(jī)器學(xué)習(xí)任務(wù)分為二類。

分類：預(yù)測(cè)結(jié)果的類型是離散值，例如"好瓜"，"壞瓜"；

回歸：預(yù)測(cè)結(jié)果的類型是連續(xù)值，例如西瓜的成熟度0.37、0.95。

????????學(xué)得模型后，使用其進(jìn)行預(yù)測(cè)的過(guò)程稱為測(cè)試

測(cè)試樣本：被預(yù)測(cè)的樣本被稱為測(cè)試樣本

????????我們還可以對(duì)西瓜做聚類

在聚類學(xué)習(xí)中，“淺色瓜”，“外地瓜”這樣的概念我們事先是不知道的，而且學(xué)習(xí)過(guò)程中使用的訓(xùn)練樣本通常不擁有標(biāo)記信息

????????根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息，學(xué)習(xí)任務(wù)也可大致劃分為兩大類。

監(jiān)督學(xué)習(xí)：訓(xùn)練數(shù)據(jù)有標(biāo)記信息，其中分類與回歸屬于監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)：訓(xùn)練數(shù)據(jù)沒(méi)有標(biāo)記信息，代表有聚類

機(jī)器學(xué)習(xí)的目標(biāo)：使得學(xué)到的模型能夠很好的適用"新樣本"

泛化：學(xué)得模型適用于新樣本的能力

1.3假設(shè)空間

1.3.1歸納與假設(shè)

歸納：從特殊到一般的“泛化”過(guò)程，即從具體的事實(shí)歸結(jié)出一般性規(guī)律

假設(shè)：從一般到特殊的“特化”過(guò)程，即從基礎(chǔ)原理推演出具體情況

1.3.2假設(shè)空間定義

????????所有假設(shè)構(gòu)成的集合

1.3.3版本空間

只保留了假設(shè)空間中與訓(xùn)練數(shù)據(jù)集中正例一致的假設(shè)，由這些正確的假設(shè)構(gòu)成的集合成為版本空間（簡(jiǎn)單來(lái)說(shuō)，版本空間就是正例的泛化）。

假設(shè)空間大小計(jì)算、構(gòu)建假設(shè)空間以及版本空間

舉個(gè)例子，假設(shè)西瓜的好壞由“色澤”，“根蒂”以及“敲聲”決定，且"色澤"、"根蒂"和"敲聲"分別有3、2、2 種可能取值。

1.3.4假設(shè)空間大小

1.3.5假設(shè)空間圖示

1.3.6訓(xùn)練集

1.4歸納偏好

定義：機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好。

任何一個(gè)有效的機(jī)器學(xué)習(xí)算法必有其歸納偏好，否則它將被假設(shè)空間中看似在訓(xùn)練集上"等效"的假設(shè)所迷惑，無(wú)法產(chǎn)生確定的學(xué)習(xí)結(jié)果。如果沒(méi)有偏好，剛才那個(gè)例子就沒(méi)有確定的答案了。這樣的學(xué)習(xí)結(jié)果顯得沒(méi)有意義。

歸納偏好可以看做學(xué)習(xí)算法自身在一個(gè)可能很龐大的假設(shè)空間對(duì)假設(shè)進(jìn)行選擇的啟發(fā)式或“價(jià)值觀”

奧卡姆剃刀：若有多個(gè)假設(shè)與觀察一直，則選擇最簡(jiǎn)單的那個(gè)。

1.5發(fā)展歷程

20世紀(jì)80年代，“從樣例中學(xué)習(xí)”的一大主流師符號(hào)主義學(xué)習(xí)，其代表包括決策樹(shù)和基于邏輯學(xué)習(xí)。

20世紀(jì)90年代中期之前，“從樣例中學(xué)習(xí)”的另一主流技術(shù)是基于神經(jīng)網(wǎng)絡(luò)的連接主義學(xué)習(xí)。

20世紀(jì)90年代中期, “統(tǒng)計(jì)學(xué)習(xí)（statistical learning）”閃亮登場(chǎng)并迅速占據(jù)主流舞臺(tái)，代表技術(shù)是支持向量機(jī)（Support Vector Machine,簡(jiǎn)稱SVM）以及更一般的“核方法”（kernel methods）

21世紀(jì)初，連接主義卷土重來(lái)，掀起了以“深度學(xué)習(xí)”為名的熱潮。深度學(xué)習(xí)的前身是連接主義學(xué)習(xí)。

二、模型評(píng)估與選擇

2.1經(jīng)驗(yàn)誤差與過(guò)擬合

錯(cuò)誤率：分類錯(cuò)誤的樣本占樣本總數(shù)的比例

精度：精度=1-錯(cuò)誤率

誤差：學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異

訓(xùn)練誤差/經(jīng)驗(yàn)誤差：學(xué)習(xí)器在訓(xùn)練集上的誤差

泛化誤差：學(xué)習(xí)器在新樣本上的誤差

過(guò)擬合：學(xué)習(xí)器把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì)，導(dǎo)致泛化性能下降

????????形成原因：由于學(xué)習(xí)能力過(guò)于強(qiáng)大，以至于把訓(xùn)練樣本所包含的不太一般的特性都學(xué)到了

欠擬合：學(xué)習(xí)器對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好

????????形成原因：由于學(xué)習(xí)能力低下造成的

模型選擇：

????????理想的解決方案是對(duì)候選模型的泛化誤差進(jìn)行評(píng)估，然后選擇泛化誤差最小的那個(gè)模型

2.2評(píng)估方法

測(cè)試集：測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力

測(cè)試誤差：已測(cè)試集上的測(cè)試誤差作為泛化誤差的近似

如果我們還有一個(gè)包含m個(gè)樣例的數(shù)據(jù)集D={(x1,y1),(x2,y2),...,(xm,ym)}，既要訓(xùn)練，又要測(cè)試，就需要通過(guò)對(duì)D進(jìn)行適當(dāng)?shù)奶幚恚瑥闹挟a(chǎn)生出訓(xùn)練集S和測(cè)試集T。

留出法（hold-out）：

直接將數(shù)據(jù)集D劃分為兩個(gè)互斥的集合，其中一個(gè)集合作為訓(xùn)練集S，另一個(gè)作為測(cè)試集T

訓(xùn)練/測(cè)試集的劃分要盡可能保持?jǐn)?shù)據(jù)分布的一致性。保留類別的方式通常稱為（分層采樣）

即便是在給定訓(xùn)練/測(cè)試集的樣本比例后，仍存在多重劃分方式對(duì)初始數(shù)據(jù)集D進(jìn)行分割。

因此，單次使用留出法得到的估計(jì)結(jié)果往往不夠穩(wěn)定可靠，在使用留出法時(shí)，一般多次取平均值。

常見(jiàn)做法：將大約2/3~4/5的樣本用于訓(xùn)練，剩余樣本用于測(cè)試

交叉驗(yàn)證法（cross validation）：

k折交叉驗(yàn)證：均勻分成k份，依次取一份作為測(cè)試集，其他k-1份作為訓(xùn)練集，分別做k次訓(xùn)練和測(cè)試

交叉驗(yàn)證法評(píng)估結(jié)果的穩(wěn)定性和保真性正在很大程度上取決于k的取值

留一法：

優(yōu)點(diǎn)：評(píng)估結(jié)果往往被認(rèn)為比較準(zhǔn)確

缺點(diǎn)：訓(xùn)練M個(gè)模型的計(jì)算開(kāi)銷可能是難以忍受的

自助法（bootstrapping）：

是一種從給定訓(xùn)練集中有放回的均勻抽樣，也就是說(shuō)，每當(dāng)選中一個(gè)樣本，它等可能地被再次選中并被再次添加到訓(xùn)練集中。

樣本在m次采樣中始終不被采到的概率是(1-1/m)m，取極限為1/e約等于0.368

優(yōu)點(diǎn)：

自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練/測(cè)試集時(shí)也很有用 ?

從初始數(shù)據(jù)集中產(chǎn)生多個(gè)不同的訓(xùn)練集

缺點(diǎn)：改變了初始數(shù)據(jù)集的分布，會(huì)引入估計(jì)誤差

調(diào)參與最終模型：

????????在模型選擇完成以后，學(xué)習(xí)算法和參數(shù)配置已選定，此時(shí)應(yīng)該用數(shù)據(jù)集D重新訓(xùn)練模型

測(cè)試數(shù)據(jù)：學(xué)得模型在實(shí)際使用中遇到的數(shù)據(jù)

驗(yàn)證集：模型評(píng)估與選擇中用于評(píng)估測(cè)試的數(shù)據(jù)集

????????通常我們用測(cè)試集上的判別效果來(lái)估計(jì)模型在實(shí)際使用時(shí)的泛化能力，而把訓(xùn)練數(shù)據(jù)另外劃分為訓(xùn)練集合驗(yàn)證集基于驗(yàn)證集上的性能來(lái)進(jìn)行模型選擇和調(diào)參

2.3性能度量

????????除了如何劃分集合、如何調(diào)參外，還有一點(diǎn)需要討論——我們以什么樣的指標(biāo)來(lái)度量模型的表現(xiàn)？????

定義：

????????衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn)

均方誤差：

????????回歸任務(wù)常用的性能度量

錯(cuò)誤率：

精度：

分類混淆矩陣：

查準(zhǔn)率（precision）：

????????預(yù)測(cè)中的正例實(shí)際為正例所占的比例

查全率(recall)：

????????所有正例被預(yù)測(cè)為正例所占的比例

查準(zhǔn)率P和查全率R是矛盾的

PR圖：

P-R圖可以直觀地表示查準(zhǔn)率P和查全率R的關(guān)系，曲線面積越大，算法越好。如果一個(gè)算法的P-R曲線能“包住”另外一個(gè)說(shuō)明該算法比后者要好。

平衡點(diǎn)(BEP，Break-Even-Point)：查準(zhǔn)率P=查全率R時(shí)的取值

F1：

產(chǎn)出原因：BEP過(guò)于簡(jiǎn)化

F1是基于查準(zhǔn)率與查全率的調(diào)和平均

????????Fβ是加權(quán)調(diào)和平均，能夠讓我們表達(dá)出對(duì)查準(zhǔn)率/查全率的不同偏好

????????其中β>0度量了查全率對(duì)查準(zhǔn)率的相對(duì)重要性

????????β=1時(shí)退化為標(biāo)準(zhǔn)的F1;

????????β>1時(shí)查全率有更大影響;

????????β<1時(shí)查準(zhǔn)率有更大影響

????????很多時(shí)候，我們希望在n個(gè)二分類混淆矩陣上分別計(jì)算出查準(zhǔn)率與查全率，記為(P1,R1),（p2,R2）,…,（Pn,Rn）

????????方法一：一種直接的做法是先在各混淆矩陣上分別計(jì)算出查準(zhǔn)率和查全率,記為(P1,R1),（p2,R2）,…,（Pn,Rn）,再計(jì)算平均值,這樣就得到“宏查準(zhǔn)率”( macro-p)、“宏查全率”( macro-r),以及相應(yīng)的“宏F1”( macro-f1)

宏查準(zhǔn)率（macro—P）：

宏查全率（macro-R）：

宏F1（macro—F1）：

????????方法二：還可先將各混淆矩陣的對(duì)應(yīng)元素進(jìn)行平均,得到TP、FP、TN、FN的平均值，分別記為：

微查準(zhǔn)率（micro—P）：

微查全率（micro-R）：

微F1（micro—F1）：

Roc和AUC：

????????Roc：Roc全稱是“受試者工作特征（Receiver Operating Characteristic）”曲線。根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序，按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)，每次計(jì)算出兩個(gè)重要量的值，分別以它們的橫、縱坐標(biāo)作圖，就得到了Roc曲線。

????????AUC：其中AUC（Area Under Roc Curve）為Roc曲線下所包含的面積，用于判斷學(xué)習(xí)器間的性能誰(shuí)更優(yōu)。

????????Roc曲線的縱軸是“真正例率（True Positive Rate，簡(jiǎn)稱TPR）”，橫軸是“假正例率（False Positive Rate，簡(jiǎn)稱FPR）”。

分類混淆矩陣

計(jì)算示例：

????????我們從高到低，依次將“Score”值作為閾值threshold，當(dāng)測(cè)試樣本屬于正樣本的概率大于或等于這個(gè)threshold時(shí)，我們認(rèn)為它為正樣本，否則為負(fù)樣本。舉例來(lái)說(shuō)，對(duì)于圖中的第4個(gè)樣本，其“Score”值為0.6，那么樣本1，2，3，4都被認(rèn)為是正樣本，因?yàn)樗鼈兊摹癝core”值都大于等于0.6，而其他樣本則都認(rèn)為是負(fù)樣本。每次選取一個(gè)不同的threshold，我們就可以得到一組FPR和TPR，即Roc曲線上的一點(diǎn)。這樣一來(lái)，我們一共得到了20組FPR和TPR的值，將它們畫(huà)在Roc曲線的結(jié)果如下圖：

為什么使用Roc和Auc評(píng)價(jià)分類器？

????????因?yàn)镽oc曲線有個(gè)很好的特性：當(dāng)測(cè)試集中的正負(fù)樣本的分布變換的時(shí)候，Roc曲線能夠保持不變。

代價(jià)敏感錯(cuò)誤率與代價(jià)曲線：

產(chǎn)生原因：在前面介紹的一些性能度量可以看出，它們大多隱式的假設(shè)了均等代價(jià)；然而在現(xiàn)實(shí)任務(wù)中常會(huì)遇到這樣的情況:不同類型的錯(cuò)誤所造成的后果不同

非均等代價(jià)：為權(quán)衡不同類型錯(cuò)誤所造成的不同損失，可將錯(cuò)誤賦予“非均等代價(jià)”

二類代價(jià)矩陣：一般來(lái)說(shuō)costii=0;若將第0類判定為第1類所造成的損失更大，則cost01>cost10;損失程度相差越大，cost01與cost10的值相差越大

敏感錯(cuò)誤率：

????????D+與D-分別代表樣例集D的正例子集和反類子集

代價(jià)曲線：

在非均等的代價(jià)下，Roc曲線不能直接反映出學(xué)習(xí)器的期望的總體代價(jià)，而代價(jià)曲線則可以。其中P是樣例為正例的概率，縱軸是取值為[0,1]的歸一化代價(jià)

Roc曲線上每一點(diǎn)對(duì)應(yīng)了代價(jià)平面上的一條線段,設(shè)Roc曲線上點(diǎn)的坐標(biāo)為(TPR,FPR),則可相應(yīng)計(jì)算出FNR,然后在代價(jià)平面上繪制條從(0,FPR)到(1,FNR)的線段,線段下的面積即表示了該條件下的期望總體代價(jià);如此將Roc曲線上的每個(gè)點(diǎn)轉(zhuǎn)化為代價(jià)平面上的一條線段,然后取所有線段的下界,圍成的面積即為在所有條件下學(xué)習(xí)器的期望總體代價(jià)。

2.4比較檢驗(yàn)

2.4.1產(chǎn)生原因：

????????直接取得性能度量的值然后“比大小”嗎?實(shí)際上，機(jī)器學(xué)習(xí)中性能比較這件事要比大家想象的復(fù)雜得多。這里面涉及幾個(gè)重要因素:首先，我們希望比較的是泛化性能，然而通過(guò)實(shí)驗(yàn)評(píng)估方法我們獲得的是測(cè)試集上的性能，兩者的對(duì)比結(jié)果可能未必相同；第二，測(cè)試集上的性能與測(cè)試集本身的選擇有很大關(guān)系，且不論使用不同大小的測(cè)試集會(huì)得到不同的結(jié)果，即便用相同大小的測(cè)試集，若包含的測(cè)試樣例不同，測(cè)試結(jié)果也會(huì)有不同；第三，很多機(jī)器學(xué)習(xí)算法本身有一定的隨機(jī)性，即便用相同的參數(shù)設(shè)置在同一個(gè)測(cè)試集上多次運(yùn)行，其結(jié)果也會(huì)有不同。

2.4.2主要有3類方法可以對(duì)學(xué)習(xí)器的性能進(jìn)行比較：

1.假設(shè)檢驗(yàn)

二項(xiàng)檢驗(yàn)與t檢驗(yàn)

????????上面介紹的兩種方法都是對(duì)關(guān)于單個(gè)學(xué)習(xí)器泛化性能的假設(shè)進(jìn)行檢驗(yàn),而在現(xiàn)實(shí)任務(wù)中,更多時(shí)候我們需對(duì)不同學(xué)習(xí)器的性能進(jìn)行比較,下面將介紹適用于此類情況的假設(shè)檢驗(yàn)方法。

2.交叉驗(yàn)證t檢驗(yàn)

????????這里的基本思想是若兩個(gè)學(xué)習(xí)器的性能相同,則它們使用相同的訓(xùn)練/測(cè)試集得到的測(cè)試錯(cuò)誤率應(yīng)相同。

3.McNemar檢驗(yàn)

????????交又驗(yàn)證t檢驗(yàn)和 Mcnemar檢驗(yàn)都是在一個(gè)數(shù)據(jù)集上比較兩個(gè)算法的性能,而在很多時(shí)候,我們會(huì)在一組數(shù)據(jù)集上對(duì)多個(gè)算法進(jìn)行比較.

4.Frieman檢驗(yàn)與Nemenyi后續(xù)檢驗(yàn)

2.5偏差與方差

產(chǎn)生原因：

????????對(duì)學(xué)習(xí)算法除了通過(guò)實(shí)驗(yàn)估計(jì)其泛化性能,人們往往還希望了解它“為什”具有這樣的性能.“偏差方差分解”(bias- variance decomposition)是解釋學(xué)習(xí)算法泛化性能的一種重要工具

期望預(yù)測(cè)：

使用樣本數(shù)相同的不同訓(xùn)練集產(chǎn)生的方差：

噪聲：

偏差：

期望輸出與真實(shí)標(biāo)記的差別稱為偏差（bias)

泛化誤差公式：

泛化誤差可分解為偏差、方差和噪聲之和

一般來(lái)說(shuō)，偏差與方差有沖突，稱為偏差-方差窘境(bias-variance dilemma)

????????偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)與真實(shí)結(jié)果的偏離程度,即刻畫(huà)了學(xué)習(xí)算法本身的擬合能力;方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化,即刻畫(huà)了數(shù)據(jù)擾動(dòng)所造成的影響;噪聲則表達(dá)了在當(dāng)前任務(wù)上任何學(xué)習(xí)算法所能達(dá)到的期望泛化誤差的下界,即刻畫(huà)了學(xué)習(xí)問(wèn)題本身的難度.偏差一方差分解說(shuō)明,泛化性能是由學(xué)習(xí)算法的能力、數(shù)據(jù)的充分性以及學(xué)習(xí)任務(wù)本身的難度所共同決定的.給定學(xué)習(xí)任務(wù),為了取得好的泛化性能,則需使偏差較小,即能夠充分?jǐn)M合數(shù)據(jù),并且使方差較小,即使得數(shù)據(jù)擾動(dòng)產(chǎn)生的影響小。

三、線性模型

3.1基本形式

????????線性模型：

????????試圖學(xué)得一個(gè)通過(guò)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)，即

????????用向量形式寫(xiě)成

????????由于w直觀的表達(dá)了各屬性在預(yù)測(cè)中的重要性，由此線性模型有很好的可解釋性

3.2線性回歸

3.2.1定義

????????所謂線性回歸，就是已知數(shù)據(jù)集學(xué)成一個(gè)線性模型f(x)=w1x1+w2x2+...+wdxd+b=w^Tx+b，使得誤差平方和最小。

????????最小化的過(guò)程，稱為線性回歸模型的最小二乘“參數(shù)估計(jì)”。讓它分別對(duì)w和b求導(dǎo)，得

????????令上面的兩個(gè)式子為0，解得

3.2.2多元線性回歸

可利用最小二乘法對(duì)w和b進(jìn)行估計(jì)，把w和b吸入向量形式w^=(w;b)，把數(shù)據(jù)集D表示為m*(d+1)大小的矩陣X，每行對(duì)應(yīng)一個(gè)示例，該行前d個(gè)元素對(duì)應(yīng)于示例的d個(gè)屬性值，最后一個(gè)元素均置為1，即

再把標(biāo)記寫(xiě)成向量形式y(tǒng)=(y1;y2;...;ym)

誤差平方和的矩陣形式

當(dāng)X^TX為滿秩矩陣或正定矩陣，令上式為0可得

廣義線性模型考慮單調(diào)可微函數(shù)g(x)

????????最終學(xué)得的線性回歸模型為

3.2.3正則化項(xiàng)

????????在現(xiàn)實(shí)任務(wù)中，我們會(huì)遇到大量的變量，數(shù)目甚至超過(guò)樣例數(shù)，導(dǎo)致X的列數(shù)多余行數(shù)，X^TX往往不是滿秩矩陣，此時(shí)可以解出多個(gè)w^ ，它們都能使均方誤差最小化，選擇哪一個(gè)解作為輸出，將由學(xué)習(xí)算法的歸納偏好決定

3.2.4對(duì)數(shù)線性回歸

????????假設(shè)我們認(rèn)為示例對(duì)應(yīng)的輸出標(biāo)記在指數(shù)尺度上變化，可將輸出標(biāo)記的對(duì)數(shù)作為線性模型逼近的目標(biāo)，即

????????實(shí)際上是在試圖讓逼近y

????????考慮單調(diào)可微函數(shù)g(·)，令

????????這樣得到的模型是“廣義線性模型”，其中函數(shù)g(·)稱為聯(lián)系函數(shù)，對(duì)數(shù)線性回歸是廣義線性模型在g(·)在ln(·)的特例

3.3對(duì)數(shù)線性回歸

????????對(duì)于分類任務(wù)，在廣義線性模型中，只需找到一個(gè)單調(diào)可微函數(shù)將分類任務(wù)的真實(shí)標(biāo)記y與線性回歸模型的預(yù)測(cè)值聯(lián)系起來(lái)。

????????對(duì)于二分類任務(wù)，輸出標(biāo)記y∈ {0,1}，而線性回歸模型產(chǎn)生的預(yù)測(cè)值

????????是實(shí)值，于是將實(shí)值z(mì)轉(zhuǎn)化為0/1值，用到“單位階躍函數(shù)”

若預(yù)測(cè)值z(mì)大于0就判為正例，小于0判為反例，為臨界值可任意判別

然而單位階躍函數(shù)并不連續(xù)，希望找到一個(gè)一定程度上近似單位階躍函數(shù)的“替代函數(shù)”并且它單調(diào)可微

????????對(duì)數(shù)幾率函數(shù)是一個(gè)常用的替代函數(shù)：

????????將對(duì)數(shù)幾率函數(shù)作為g^- (·)代入廣義線性模型，得到

幾率：y/1-y ?

對(duì)數(shù)幾率：ln(y/1-y)

若y為樣本x作為正例的可能性，則1-y是反例可能性，兩者的比值y/1-y稱為幾率，反映了x作為正例的相對(duì)可能性，對(duì)幾率取對(duì)數(shù)得到對(duì)數(shù)幾率ln(y/1-y)，可看出式子是在用線性回歸模型的預(yù)測(cè)結(jié)果逼近真實(shí)標(biāo)記的對(duì)數(shù)幾率，因此對(duì)應(yīng)的模型稱為“對(duì)數(shù)幾率回歸”，雖然名字是回歸，但是是一種分類學(xué)習(xí)方法。

優(yōu)點(diǎn)是它直接對(duì)分類可能性進(jìn)行建模，無(wú)須事先假設(shè)數(shù)據(jù)分布，避免了假設(shè)分布不準(zhǔn)確帶來(lái)的問(wèn)題，它不是預(yù)測(cè)出“類別”，而是可得到近似概率預(yù)測(cè)，對(duì)需利用概率輔助決策的任務(wù)很有用。

????????若將y視為類后驗(yàn)概率估計(jì)p(y=1|x)，則上式可重寫(xiě)為

????????最后可用極大似然法來(lái)估計(jì)w和b

3.4多分類學(xué)習(xí)

3.4.1基本思路

????????基本思路是“拆解法”，將多分類學(xué)習(xí)任務(wù)拆為若干個(gè)二分類任務(wù)求解，最經(jīng)典的三種拆分策略：“一對(duì)一”(OvO)、“一對(duì)其余”(OvR)和“多對(duì)多”(MvM)

3.4.2 OVO

????????給定數(shù)據(jù)集D={(x1,y1),(x2,y2),…(xm,ym)},yi∈(C1,C2,…CN),OVO將這N個(gè)類別兩兩配對(duì)，從而產(chǎn)生N(N-1)/2個(gè)分類任務(wù)，最終結(jié)果可以通過(guò)投票產(chǎn)生：即把被預(yù)測(cè)得最多的類別作為最終分類結(jié)果。

3.4.3 OVR

????????OVR則是每次將一個(gè)類的樣例作為正例，所有其他的樣例作為反例來(lái)訓(xùn)練N個(gè)分類器。在測(cè)試時(shí)若只有一個(gè)分類器預(yù)測(cè)為正類，則對(duì)應(yīng)的類別標(biāo)記作為最終分類結(jié)果。

3.4.4 OVO與OVR比較

????????OVO的存儲(chǔ)開(kāi)銷和測(cè)試時(shí)間開(kāi)銷通常比OVR更大，方式在訓(xùn)練時(shí)，OVR的每個(gè)分類器均使用全部訓(xùn)練樣例，因此，在類別很多時(shí)，OVO的訓(xùn)練時(shí)間開(kāi)銷通常比OVR更小。

3.4.5 MVM技術(shù)

????????糾錯(cuò)輸出碼（Error Correcting Output Codes，ECOC）

過(guò)程：

編碼：對(duì)N個(gè)類別做M次劃分，每次劃分將一部分類別化為正類，另一部分分為反類，產(chǎn)生M個(gè)訓(xùn)練集——M個(gè)分類器。

解碼：M個(gè)分類器分別預(yù)測(cè)，這些預(yù)測(cè)標(biāo)記組成一個(gè)編碼，將其與每個(gè)類別的編碼比較，區(qū)別最小的就是最終結(jié)果。

????????類別劃分通過(guò)“編碼矩陣”指定

二元陣：將類別指定為正類和反類

三元陣：在正反類之外還可以指定“停用類”

示意圖：

歐氏距離：在a圖中分類器f2將C1和C3類的樣例作為正例；若基于歐式距離，預(yù)測(cè)結(jié)果是C3

海明距離：兩個(gè)合法代碼對(duì)應(yīng)位上編碼不同的位數(shù)為碼距，又稱海明碼，例如測(cè)試示例：101010，分類示例：100101，此時(shí)海明距離為4

總結(jié)：一般來(lái)說(shuō)，對(duì)于同一個(gè)學(xué)習(xí)任務(wù)，ECOC編碼越長(zhǎng)，糾錯(cuò)能力越強(qiáng)；然而，編碼越長(zhǎng)，意味著所需訓(xùn)練器的分類器越多，計(jì)算、存儲(chǔ)開(kāi)銷都會(huì)增大。

3.5類別不均衡問(wèn)題

3.5.1 定義

????????類別不平衡，就是指分類任務(wù)中不同類別的訓(xùn)練樣例數(shù)目差別很大的情況。

用1式對(duì)新樣本進(jìn)行分類，實(shí)際上在用預(yù)測(cè)的y值與一個(gè)閾值比較。若：

則預(yù)測(cè)為正例

然而，正反例數(shù)目不同時(shí)，觀測(cè)幾率m+/m-，由于我們假設(shè)無(wú)偏采樣，則觀測(cè)幾率就代表真實(shí)幾率，于是若

則預(yù)測(cè)為正例

但是原來(lái)的分類器基于1式進(jìn)行決策，所以需要再縮放操作

但是我們很難保證“訓(xùn)練集是真實(shí)樣本總體的無(wú)偏采樣”?，F(xiàn)有技術(shù)有3種做法：

1.“欠采樣”：直接去除一些反例。

2.“過(guò)采樣”：增加一些正例。

3.閾值移動(dòng)：不增不減，但是預(yù)測(cè)時(shí)采取式2。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

?? 機(jī)器學(xué)習(xí)筆記（西瓜書(shū)）

?? 機(jī)器學(xué)習(xí)筆記（西瓜書(shū)）

機(jī)器學(xué)習(xí)系列文檔持續(xù)更新，求關(guān)注求點(diǎn)贊哦！

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

?? 機(jī)器學(xué)習(xí)筆記（西瓜書(shū)）

機(jī)器學(xué)習(xí)系列文檔持續(xù)更新，求關(guān)注求點(diǎn)贊哦！

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

機(jī)器學(xué)習(xí)系列文檔持續(xù)更新，求關(guān)注求點(diǎn)贊哦！