熟女人妻一区二区在线,久久国产野战视频,久久香蕉国产线观看

姓名：杜敏剛? ? ? 學(xué)號(hào)：17021211253

轉(zhuǎn)載自：http://36kr.com/p/5100199.html

【嵌牛導(dǎo)讀】對(duì)于那些剛剛踏入機(jī)器學(xué)習(xí)領(lǐng)域的人們，本文的作者為你們專(zhuān)門(mén)打造了這樣一篇文章，這是一篇面向初學(xué)者的十大機(jī)器學(xué)習(xí)算法介紹，配有易于理解的圖表和示例，希望能幫助到你。

【嵌牛鼻子】機(jī)器學(xué)習(xí)、算法

【嵌牛提問(wèn)】機(jī)器學(xué)習(xí)算法有哪幾種？每種算法各有什么特點(diǎn)？

【嵌牛正文】

一、介紹

機(jī)器學(xué)習(xí)算法的研究已經(jīng)得到了廣泛的關(guān)注。發(fā)表在《哈佛商業(yè)評(píng)論》上的文章稱(chēng)“數(shù)據(jù)科學(xué)家”是“二十一世紀(jì)最性感的職業(yè)“。所以，對(duì)于那些剛剛踏入機(jī)器學(xué)習(xí)領(lǐng)域的人們，我們決定重寫(xiě)我們非常受歡迎的“金牌”博文《每個(gè)工程師都需要知道的十個(gè)機(jī)器學(xué)習(xí)算法》。簡(jiǎn)而言之，這篇文章是面向初學(xué)者的。

機(jī)器學(xué)習(xí)算法，是一種可以從數(shù)據(jù)中學(xué)習(xí)、從經(jīng)驗(yàn)中提升自己而不需要人類(lèi)干預(yù)的算法。學(xué)習(xí)的內(nèi)容可能是一個(gè)從輸入映射到輸出的函數(shù)、無(wú)標(biāo)記數(shù)據(jù)中的隱含結(jié)構(gòu)或者是“基于實(shí)例的學(xué)習(xí)（instance-based learning）”，這種學(xué)習(xí)通過(guò)把新的實(shí)例與存儲(chǔ)在內(nèi)存中的訓(xùn)練數(shù)據(jù)進(jìn)行比較，給新的實(shí)例賦予一個(gè)類(lèi)別標(biāo)記。“基于實(shí)例的學(xué)習(xí)”不會(huì)在這些具體的實(shí)例上創(chuàng)造一層抽象。

二、機(jī)器學(xué)習(xí)算法的種類(lèi)

機(jī)器學(xué)習(xí)算法分為三種類(lèi)型：

監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)問(wèn)題可以分為兩類(lèi)：

a. 分類(lèi)問(wèn)題：預(yù)測(cè)的輸出變量屬于一系列類(lèi)別。例如，男性和女性、生病和健康。

b. 回歸問(wèn)題：預(yù)測(cè)的輸出變量是實(shí)數(shù)。例如，以實(shí)數(shù)記的瀑布流量大小、人的身高。

這篇文章介紹的前五個(gè)算法：線(xiàn)性回歸、邏輯回歸、CART、樸素貝葉斯、K 近鄰算法均屬于監(jiān)督學(xué)習(xí)。

無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)問(wèn)題只有輸入變量而沒(méi)有輸出變量。這種學(xué)習(xí)問(wèn)題使用無(wú)標(biāo)記的訓(xùn)練數(shù)據(jù)來(lái)對(duì)數(shù)據(jù)中隱含的結(jié)構(gòu)進(jìn)行建模。

無(wú)監(jiān)督學(xué)習(xí)問(wèn)題可以分為三類(lèi)：

a. 關(guān)聯(lián)：為了發(fā)現(xiàn)各種現(xiàn)象同時(shí)出現(xiàn)的概率。這種方法廣泛地運(yùn)用在購(gòu)物籃分析（market-basket analysis）中。例如，如果一個(gè)顧客買(mǎi)了一個(gè)面包，他有 80% 的可能性也會(huì)買(mǎi)雞蛋。

b. 聚類(lèi)：把樣本分堆，使同一堆中的樣本之間很相似，而不同堆之間的樣本就有些差別。

c. 降維：正如它的名字所示，降維意味著減少數(shù)據(jù)集中變量的個(gè)數(shù)，但是仍然保留重要的信息。降維能夠通過(guò)特征提取和特征選擇的方法來(lái)實(shí)現(xiàn)。特征提取把數(shù)據(jù)從高維空間轉(zhuǎn)化到低維空間。例如，主成分分析算法就是一種特征提取的方法。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)是一種讓行動(dòng)主體通過(guò)學(xué)習(xí)那些能夠最大化獎(jiǎng)勵(lì)的行為是什么，然后根據(jù)當(dāng)前狀態(tài)來(lái)決定最優(yōu)的下一步行動(dòng)的機(jī)器學(xué)習(xí)算法。

強(qiáng)化學(xué)習(xí)通常通過(guò)試錯(cuò)的方式來(lái)學(xué)習(xí)最佳的行動(dòng)。這些算法通常用在機(jī)器人學(xué)中。機(jī)器人可以通過(guò)在撞到障礙物后接收到的負(fù)反饋來(lái)學(xué)習(xí)如何避免碰撞。在視頻游戲中，試錯(cuò)能幫助算法發(fā)現(xiàn)那些給予玩家獎(jiǎng)勵(lì)的特定動(dòng)作。行動(dòng)主體就能用這些正向獎(jiǎng)勵(lì)來(lái)理解什么是游戲中的最佳情形，并選擇下一步行動(dòng)。

三、統(tǒng)計(jì)各個(gè)機(jī)器學(xué)習(xí)算法的受歡迎程度

有一些調(diào)查論文（例如這個(gè)）統(tǒng)計(jì)了十大受歡迎數(shù)據(jù)挖掘算法。然而，這樣的列表非常主觀(guān)，并且，正如剛剛提到過(guò)的論文，其參與投票的樣本大小非常小并且只局限于數(shù)據(jù)挖掘的高級(jí)從業(yè)人員。這些投票的人分別是 ACM KDD 創(chuàng)新獎(jiǎng)、IEEE ICDM 研究貢獻(xiàn)獎(jiǎng)的獲得者，KDD-06、ICDM‘06 和 SDM’06 的項(xiàng)目組委會(huì)成員和 145 位 ICDM‘06 的與會(huì)人員。

這篇博文中的十大機(jī)器學(xué)習(xí)算法是專(zhuān)門(mén)寫(xiě)給初學(xué)者的。這些算法大多數(shù)都是我在孟買(mǎi)大學(xué)攻讀計(jì)算機(jī)工程學(xué)士學(xué)位的時(shí)候，在“數(shù)據(jù)存儲(chǔ)和挖掘“課程中學(xué)到的?！皵?shù)據(jù)存儲(chǔ)和挖掘“課程是一個(gè)非常棒的機(jī)器學(xué)習(xí)算法領(lǐng)域的入門(mén)課程。由于最后兩個(gè)算法（集成方法）廣泛運(yùn)用于 Kaggle 比賽中，我專(zhuān)門(mén)把它們也寫(xiě)到了文章中。希望你喜歡這篇文章！

四、監(jiān)督學(xué)習(xí)算法

線(xiàn)性回歸

在機(jī)器學(xué)習(xí)中，我們有一系列輸入變量，它們決定了輸出的變量。在輸入和輸出變量之間存在著一定的關(guān)系。機(jī)器學(xué)習(xí)的目標(biāo)就是把這個(gè)關(guān)系量化。

圖 1：線(xiàn)性回歸被表示為一個(gè) y = ax + b 形式的直線(xiàn)。

在線(xiàn)性回歸中，輸入變量與輸出變量之間的關(guān)系表示為 y=ax+b 等式形式的直線(xiàn)。因此，線(xiàn)性回歸的目標(biāo)就是尋找系數(shù) a 和 b。在這個(gè)例子中，b 是直線(xiàn)的截距，a 是直線(xiàn)的斜率。

圖 1 是繪制出的數(shù)據(jù)集中的 x 和 y 值。該算法的目標(biāo)是擬合這條直線(xiàn)使它與大多數(shù)點(diǎn)最接近。這將會(huì)減少數(shù)據(jù)點(diǎn)的 y 值和直線(xiàn)之間的距離（也就是“誤差”）。

邏輯回歸

線(xiàn)性回歸的預(yù)測(cè)結(jié)果是連續(xù)的值（以厘米為單位的降雨量）。然而，通過(guò)應(yīng)用一個(gè)轉(zhuǎn)換函數(shù)，邏輯回歸預(yù)測(cè)的是一系列離散的值（一個(gè)學(xué)生是否通過(guò)測(cè)驗(yàn)）。

邏輯回歸最適合解決二分類(lèi)問(wèn)題（數(shù)據(jù)集中 y 要么等于 0，要么等于 1，其中 1 表示默認(rèn)類(lèi)別。例如，在預(yù)測(cè)一個(gè)事件是否會(huì)出現(xiàn)時(shí)，事件發(fā)生被分類(lèi)為 1。在預(yù)測(cè)一個(gè)人是否生病時(shí)，生病的樣本會(huì)被記為 1。它以其模型中使用的轉(zhuǎn)換函數(shù)來(lái)命名 --- 邏輯函數(shù)（Logistic function）h(x)=1/(1+e^x)，該函數(shù)是一個(gè) S 形的曲線(xiàn)。

在邏輯回歸中，它的輸出是默認(rèn)類(lèi)別的概率（不像線(xiàn)性回歸中輸出是直接產(chǎn)生的）。由于輸出是概率，它的范圍落在 0 和 1 之間。它的輸出變量（y 值）通過(guò)使用邏輯函數(shù) h(x)=1/(1+e^x)，把 x 值進(jìn)行 log 轉(zhuǎn)換而產(chǎn)生。后續(xù)在使用一個(gè)閾值來(lái)讓概率值轉(zhuǎn)變成二分類(lèi)的結(jié)果。

圖 2: 使用邏輯回歸預(yù)測(cè)一個(gè)腫瘤是惡性的還是良性的。當(dāng) h(x) 大于 0.5 的時(shí)候，腫瘤被分類(lèi)為惡性的。

在圖 2 中，確定腫瘤是否是惡性腫瘤，默認(rèn)值是 y=1（腫瘤是惡性的）；x 變量可以是腫瘤的一個(gè)度量值，例如腫瘤的大小。正如圖片中所示，邏輯函數(shù)把數(shù)據(jù)集中的 x 值轉(zhuǎn)換到 0 至 1 的范圍里。如果概率值超過(guò)了 0.5 的閾值（如圖中的水平線(xiàn)所示），腫瘤就會(huì)被分類(lèi)為惡性的。

邏輯回歸等式 P(x) = e ^ (b0 +b1 * x) / (1 + e^(b0 + b1 * x)) 可以被轉(zhuǎn)換為 ln(p(x) / 1-p(x)) = b0 + b1*x。

邏輯回歸的目標(biāo)是使用訓(xùn)練數(shù)據(jù)去找出能夠最小化預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間誤差的系數(shù) b0 和 b1。這些系數(shù)可以通過(guò)最大似然估計(jì)的方法得出。

CART

分類(lèi)和回歸樹(shù)（Classification and Regression Trees，CART）是一種決策樹(shù)的實(shí)現(xiàn)，除此之外還有其他的實(shí)現(xiàn)，例如，ID3，C4.5。

非終結(jié)節(jié)點(diǎn)是根結(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)。終結(jié)節(jié)點(diǎn)是葉子節(jié)點(diǎn)。每一個(gè)非終結(jié)節(jié)點(diǎn)代表一個(gè)輸入變量（x）并把數(shù)據(jù)點(diǎn)在該變量上分開(kāi)；葉子節(jié)點(diǎn)代表輸出值（y）。該模型是以這樣的方式來(lái)進(jìn)行預(yù)測(cè)的：遍歷樹(shù)中的每一個(gè)分支，達(dá)到葉子結(jié)點(diǎn)并以葉子結(jié)點(diǎn)代表的值為輸出。

圖 3 中的決策樹(shù)可以通過(guò)一個(gè)人的年齡和婚姻狀況來(lái)分類(lèi)一個(gè)人是會(huì)買(mǎi)跑車(chē)還是買(mǎi)面包車(chē)。如果一個(gè)人超過(guò) 30 歲并且沒(méi)有結(jié)婚，我們將會(huì)這樣遍歷這個(gè)樹(shù)：“是否超過(guò) 30 歲？" -> 是 -> "是否已婚？" -> 否。因此，該模型的輸出就是跑車(chē)。

樸素貝葉斯

給定一個(gè)已經(jīng)發(fā)生的事件，要計(jì)算另一個(gè)事件發(fā)生的概率，我們會(huì)使用貝葉斯定理（Bayes’ Theorem）。給定某些變量的值，計(jì)算某一種結(jié)果出現(xiàn)的概率，換句話(huà)說(shuō)就是，根據(jù)給定的先驗(yàn)知識(shí)（d），要計(jì)算假說(shuō)（h）為真的概率，我們這樣來(lái)使用貝葉斯定理：

P(h|d)= (P(d|h) * P(h)) / P(d)

其中

P(h|d) = 后驗(yàn)概率。在給定數(shù)據(jù) d 符合 P(h|d)= P(d1| h)* P(d2| h)*....*P(dn| h)* P(d) 的條件下，假說(shuō) h 為真的概率。

P(d|h) = 可能性。在給定假說(shuō) h 為真的條件下，數(shù)據(jù) d 符合條件的概率。

P(h) = 類(lèi)別先驗(yàn)概率。假說(shuō) h 為真的概率（與數(shù)據(jù)無(wú)關(guān)）。

P(d) = 預(yù)測(cè)者先驗(yàn)概率。數(shù)據(jù)符合條件的概率（與假說(shuō)無(wú)關(guān)）。

該算法叫做“樸素（naive）”貝葉斯是因?yàn)樗僭O(shè)所有的變量是相互獨(dú)立的，這是一個(gè)對(duì)于真實(shí)世界而言非常幼稚的假設(shè)。

圖 4：使用樸素貝葉斯，通過(guò)“天氣（weather）”變量來(lái)預(yù)測(cè)“玩耍（play）”的狀態(tài)。

以圖 4 為例，如果“天氣”為“晴天（sunny）”，那么輸出結(jié)果是什么？

根據(jù)“天氣”變量的值為“晴天”，要想預(yù)測(cè)“玩?！暗妮敵鍪恰笔牵╕es）“還是”否（No）“，我們需要計(jì)算 P(yes|sunny) 和 P(no|sunny) 的值并選擇最高概率的結(jié)果為輸出。

->(yes|sunny)= (P(sunny|yes) * P(yes)) / P(sunny) = (3/9 * 9/14 ) / (5/14) = 0.60

-> P(no|sunny)= (P(sunny|no) * P(no)) / P(sunny) = (2/5 * 5/14 ) / (5/14) = 0.40

因此，如果“天氣”是“晴天”，輸出的“玩?！熬蜑椤笔恰?。

K 近鄰（KNN）

k 近鄰算法使用所有的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集，而不是把數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。

當(dāng)我們需要預(yù)測(cè)一個(gè)新樣本的輸出時(shí)，KNN 算法將會(huì)遍歷整個(gè)數(shù)據(jù)集來(lái)尋找 k 個(gè)最接近的樣本，或者說(shuō)是 k 個(gè)和新樣本最相似的樣本。然后，如果是一個(gè)回歸問(wèn)題，算法將輸出這些樣本結(jié)果的均值；如果是一個(gè)分類(lèi)問(wèn)題，算法將會(huì)輸出出現(xiàn)次數(shù)最多的類(lèi)別。k 的值是用戶(hù)自己選定的。

樣本之間的相似度通過(guò)計(jì)算例如歐幾里得距離（Euclidean distance）或者漢明距離（Hamming distance）得到。

五、無(wú)監(jiān)督學(xué)習(xí)算法

Apriori

Apriori 算法用在事務(wù)性數(shù)據(jù)庫(kù)中發(fā)掘頻繁項(xiàng)集，然后生產(chǎn)關(guān)聯(lián)規(guī)則。該算法廣泛應(yīng)用與購(gòu)物籃分析，用戶(hù)把一些商品組合放入購(gòu)物車(chē)，導(dǎo)致這些條目在數(shù)據(jù)庫(kù)中頻繁地同時(shí)出現(xiàn)。一般來(lái)說(shuō)，我們把這樣的關(guān)聯(lián)規(guī)則，“如果一個(gè)人買(mǎi)了商品 X，然后他又買(mǎi)了商品 Y，寫(xiě)作：X -> Y。

例如：如果一個(gè)人買(mǎi)了牛奶和糖，那么很可能也會(huì)去買(mǎi)咖啡粉。這可以被寫(xiě)成這樣一個(gè)關(guān)聯(lián)規(guī)則：{牛奶，糖} -> 咖啡。當(dāng)支持度（support）和置信度（confidence）超過(guò)閾值之后，關(guān)聯(lián)規(guī)則就會(huì)被建立。

圖 5：對(duì)于關(guān)聯(lián)規(guī)則 X->Y 的支持度、置信度和提升度的計(jì)算公式

在考慮生成高頻項(xiàng)集時(shí)候，支持度能夠幫助削減候選項(xiàng)集的數(shù)量。這個(gè)支持度以 Apriori 原則為指導(dǎo)。Apriori 原則指出，如果一個(gè)項(xiàng)集是頻繁的，那么它的所有子集也必須是頻繁的。

K-means

K-means 是一個(gè)把相似的數(shù)據(jù)分組的迭代算法。它計(jì)算 k 個(gè)聚類(lèi)的重心然后向這個(gè)聚類(lèi)中添加一個(gè)數(shù)據(jù)點(diǎn)，使其與重心的距離最小。

圖 6：K-means 算法的步驟

步驟一：k-means 初始化

a) 選擇一個(gè) k 的值。在這里，我們令 k 等于 3。

b) 隨機(jī)地把數(shù)據(jù)點(diǎn)放到 3 個(gè)聚類(lèi)中。

c) 分別計(jì)算每個(gè)聚類(lèi)的質(zhì)心。圖中紅色、藍(lán)色和綠色星星表示每個(gè)聚類(lèi)的質(zhì)心。

步驟二：把每個(gè)觀(guān)察結(jié)果放入一個(gè)聚類(lèi)中

重新把每個(gè)最靠近質(zhì)心的點(diǎn)放入聚類(lèi)中。在這里，上面的 5 個(gè)點(diǎn)被放入了藍(lán)色的質(zhì)心對(duì)應(yīng)的聚類(lèi)中。按照相同的步驟將點(diǎn)分配給包含紅色和綠色質(zhì)心的聚類(lèi)。

步驟三：重新計(jì)算質(zhì)心

計(jì)算每一個(gè)新聚類(lèi)的質(zhì)心。舊的質(zhì)心以灰色顯示，新的質(zhì)心以紅色、綠色和藍(lán)色星星顯示。

步驟四：迭代直到?jīng)]有新的變化

重復(fù)步驟二和步驟三，直到數(shù)據(jù)點(diǎn)不在聚類(lèi)與聚類(lèi)之間交換。一旦兩次連續(xù)的步驟之間沒(méi)有點(diǎn)的交換，就退出 k-means 算法。

主成分分析

主成分分析（Principal Component Analysis，PCA）通過(guò)減少變量的數(shù)量，使數(shù)據(jù)易于探索與可視化。該算法通過(guò)捕獲數(shù)據(jù)中最大的方差，把數(shù)據(jù)轉(zhuǎn)換到新的坐標(biāo)系統(tǒng)中，其中的坐標(biāo)軸即為“主成分”。每個(gè)成分是原始變量的線(xiàn)性組合并且與其他主成分正交。正交性意味著各個(gè)成分之間的相關(guān)性為零。

第一個(gè)主成分捕獲了數(shù)據(jù)中方差最大的一個(gè)方向。第二個(gè)主成分捕獲的是剩余數(shù)據(jù)中的方差，但是其中的變量與第一個(gè)主成分沒(méi)有任何的相關(guān)性。相似地，所有后續(xù)的主成分（PC3，PC4 等）就捕獲了剩余的方差并且與之前的主成分沒(méi)有任何相關(guān)性。

圖 7：3 個(gè)原始變量減少成了 2 個(gè)稱(chēng)為主成分的新的變量。

六、集成學(xué)習(xí)技法

集成學(xué)習(xí)意味著把多個(gè)學(xué)習(xí)算法（分類(lèi)器）的結(jié)果，通過(guò)投票或者平均的方法結(jié)合起來(lái)，以獲得更好的效果。投票用于分類(lèi)問(wèn)題，平均用于回歸問(wèn)題。這個(gè)主意好在他能夠集成多個(gè)學(xué)習(xí)算法來(lái)獲得比單個(gè)學(xué)習(xí)算法更好的結(jié)果。

現(xiàn)在有三種集成學(xué)習(xí)算法：套袋（Bagging），提升（Boosting）和堆疊（Stacking）。我們這篇文章不會(huì)介紹堆疊，但是如果你想知道關(guān)于它的詳細(xì)介紹，請(qǐng)?jiān)谙路皆u(píng)論區(qū)評(píng)論，那么我會(huì)寫(xiě)另一個(gè)博文來(lái)介紹它。

以隨機(jī)森林來(lái)套袋

隨機(jī)森林（多個(gè)學(xué)習(xí)算法）是一個(gè)在套袋決策樹(shù)（單個(gè)學(xué)習(xí)算法）算法上所進(jìn)行的改進(jìn)。

套袋法（bagging）的第一步是通過(guò) Bootstrap Sampling 方法在數(shù)據(jù)集上創(chuàng)建多個(gè)模型。在 Bootstrap Sampling 中，每一個(gè)生成的訓(xùn)練集由一些原始數(shù)據(jù)集中的隨機(jī)子樣本組成。每一個(gè)這樣的訓(xùn)練集都和原有數(shù)據(jù)集的數(shù)據(jù)量相同，但是一些數(shù)據(jù)記錄可能重復(fù)多次而有些有可能不會(huì)出現(xiàn)。然后，完整的原始數(shù)據(jù)集將會(huì)作為測(cè)試集使用。所以，如果原始數(shù)據(jù)集的大小為 N，那么每一個(gè)生成的訓(xùn)練集大小也是 N，其中獨(dú)一無(wú)二的數(shù)據(jù)大概有（2N／3）個(gè)；測(cè)試數(shù)據(jù)集的大小也為 N。

套袋法的第二步是在不同的訓(xùn)練集上用相同的算法創(chuàng)造出多個(gè)模型。在這種情況下，讓我們討論一下隨機(jī)森林。一般的決策樹(shù)的每個(gè)節(jié)點(diǎn)都會(huì)選取能夠最小化誤差的特征作為分界線(xiàn)。而不同于一般的決策樹(shù)，隨機(jī)森林會(huì)隨機(jī)地選擇一個(gè)特征并構(gòu)造一個(gè)在該特征上最好的分界線(xiàn)。使用隨機(jī)性的理由是：即使通過(guò)套袋，如果決策樹(shù)在分裂時(shí)都選擇最好的特征，這些模型最后都會(huì)有相似的結(jié)構(gòu)和相關(guān)性很強(qiáng)的預(yù)測(cè)結(jié)果。但是，如果在隨機(jī)的子集上創(chuàng)建決策樹(shù)的分裂結(jié)構(gòu)，然后再應(yīng)用套袋，這就意味著我們能在子樹(shù)上獲得相關(guān)性更低的預(yù)測(cè)結(jié)果。

隨機(jī)森林算法的參數(shù)指定了每次分裂時(shí)要搜索的特征數(shù)量。因此，在套袋隨機(jī)森林算法中，每一個(gè)樹(shù)都在一個(gè)隨機(jī)采樣的樣本上訓(xùn)練并且每一個(gè)分裂都通過(guò)隨機(jī)采樣預(yù)測(cè)參數(shù)的方式來(lái)創(chuàng)建。

以 AdaBoost 來(lái)提升

a) 套袋是一種并行的集成，因?yàn)槠涿恳粋€(gè)模型都是獨(dú)立構(gòu)建的。另一方面，提升（boosting）是一個(gè)順序式的集成方法，它的每一個(gè)模型的建立都基于前一個(gè)模型的錯(cuò)誤的修正。

b) 套袋方法主要涉及到的是“簡(jiǎn)單的投票機(jī)制”，每一個(gè)分類(lèi)器通過(guò)投票得出最后的結(jié)果。這樣的結(jié)果由多數(shù)并行模型來(lái)決定；提升方法涉及到“加權(quán)的投票“，每一個(gè)分類(lèi)器仍然是通過(guò)投票得出最后的結(jié)果，但是后構(gòu)建的模型訓(xùn)練時(shí)所使用的數(shù)據(jù)集會(huì)有所不同。這些數(shù)據(jù)集中被之前的模型分類(lèi)錯(cuò)誤的數(shù)據(jù)點(diǎn)會(huì)被賦予更高的權(quán)值。這是為了讓后面的模型能修正前面模型的錯(cuò)誤。

AdaBoost 代表適應(yīng)性提升（Adaptive Boosting）。

圖 9：應(yīng)用于決策樹(shù)算法的 AdaBoost

在圖 9 中，步驟一、二和三涉及一個(gè)稱(chēng)為“決策樹(shù)樁”的弱學(xué)習(xí)算法（一個(gè)單層的決策樹(shù)，它指通過(guò)一個(gè)輸入特征來(lái)進(jìn)行預(yù)測(cè)，該決策樹(shù)的葉子節(jié)點(diǎn)直接與根結(jié)點(diǎn)相連）。創(chuàng)建弱學(xué)習(xí)算法直到創(chuàng)建出足夠多數(shù)量的弱學(xué)習(xí)算法模型，或者直到訓(xùn)練沒(méi)有進(jìn)一步改善。

步驟四結(jié)合了三個(gè)決策樹(shù)樁模型（因此圖中的決策樹(shù)中有三個(gè)分裂規(guī)則）。

步驟一：以一個(gè)決策樹(shù)樁開(kāi)始，只通過(guò)一個(gè)輸入特征進(jìn)行預(yù)測(cè)

數(shù)據(jù)點(diǎn)的大小說(shuō)明我們是通過(guò)應(yīng)用相同的權(quán)值來(lái)分類(lèi)他們是三角形還是圓形。這個(gè)決策樹(shù)樁在圖上展示為一條水平的直線(xiàn)，分類(lèi)出了上半部分的一些數(shù)據(jù)點(diǎn)。我們可以看到，這里有兩個(gè)圓形數(shù)據(jù)點(diǎn)被錯(cuò)誤的分類(lèi)為三角形。因此，我們會(huì)給這兩個(gè)圓形數(shù)據(jù)點(diǎn)賦予更高的權(quán)值然后進(jìn)行下一次決策樹(shù)樁的訓(xùn)練。

步驟二：接著在另一個(gè)輸入變量上訓(xùn)練下一個(gè)決策樹(shù)樁

我們觀(guān)察到 2 個(gè)被錯(cuò)誤分類(lèi)的圓形數(shù)據(jù)點(diǎn)比其他的點(diǎn)要大一點(diǎn)?，F(xiàn)在，第二個(gè)決策樹(shù)樁將會(huì)努力嘗試把這兩個(gè)圓形判斷正確。由于我們給這兩個(gè)點(diǎn)賦予了更高的權(quán)重，左邊垂直的直線(xiàn)正確地分類(lèi)了這兩個(gè)圓形的點(diǎn)。但是，這個(gè)這導(dǎo)致它把上面的 3 個(gè)圓形數(shù)據(jù)點(diǎn)分錯(cuò)了。因此，我們將會(huì)給這三個(gè)圓形數(shù)據(jù)點(diǎn)賦予更高的權(quán)值，然后訓(xùn)練另一個(gè)決策樹(shù)樁模型。

步驟三：繼續(xù)在另一個(gè)輸入變量上訓(xùn)練下一個(gè)決策樹(shù)樁

上一個(gè)步驟中分錯(cuò)了的 3 個(gè)圓形數(shù)據(jù)點(diǎn)現(xiàn)在比其他的數(shù)據(jù)點(diǎn)都要大?，F(xiàn)在，新生成的用來(lái)分類(lèi)的決策樹(shù)樁就是右邊的那條垂直的直線(xiàn)。

步驟四：把決策樹(shù)樁結(jié)合在一起進(jìn)行預(yù)測(cè)

我們把這些從之前幾個(gè)模型中產(chǎn)生的分隔線(xiàn)結(jié)合在一起，然后我們就能看到，與之前的每個(gè)弱學(xué)習(xí)算法相比，這個(gè)模型中的復(fù)雜規(guī)則能夠把這些數(shù)據(jù)點(diǎn)全部分類(lèi)正確。

七、結(jié)論

回顧一下，我們學(xué)了：

五個(gè)監(jiān)督學(xué)習(xí)算法：線(xiàn)性回歸、邏輯回歸、CART、樸素貝葉斯和 KNN

三個(gè)無(wú)監(jiān)督學(xué)習(xí)算法：Apriori、K-means 和主成分分析

兩個(gè)集成學(xué)習(xí)技法：以隨機(jī)森林來(lái)套袋和以 AdaBoost 來(lái)作提升

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

初學(xué)機(jī)器學(xué)習(xí)？推薦從這十大算法入手

初學(xué)機(jī)器學(xué)習(xí)？推薦從這十大算法入手

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

初學(xué)機(jī)器學(xué)習(xí)？推薦從這十大算法入手

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av