區(qū)分識別機(jī)器學(xué)習(xí)中的分類與回歸

姓名:張萌? ? ? ? ? 學(xué)號17021211113

轉(zhuǎn)自:http://mp.weixin.qq.com/s/YQ8l87EPw6EEhNy8MIU6Cg

【嵌牛導(dǎo)讀】:分類問題和回歸問題之間有著很重要的區(qū)別。從根本上來說,分類是預(yù)測一個(gè)標(biāo)簽,回歸是預(yù)測一個(gè)數(shù)量。我經(jīng)??吹竭@樣的問題:如何計(jì)算回歸問題的準(zhǔn)確率?

【嵌牛鼻子】:分類問題? ? 回歸問題

【嵌牛提問】:分類與回歸的區(qū)別是什么?

【嵌牛正文】:

這種問題意味著提問的人并沒有真正理解分類和回歸之間的差別,以及準(zhǔn)確率到底是在評估什么?

你會在這篇文章中發(fā)現(xiàn)分類和回歸之間的區(qū)別。

讀完本文,你會了解以下內(nèi)容:

預(yù)測建模是關(guān)于學(xué)習(xí)從輸入到輸出的函數(shù)映射的問題,這個(gè)映射稱作函數(shù)逼近。

分類是給一個(gè)樣本預(yù)測離散型類別標(biāo)簽的問題。

回歸是給一個(gè)樣本預(yù)測連續(xù)輸出量的問題。

讓我們開始吧。

教程概覽

本教程分為以下 5 個(gè)部分:

1. 函數(shù)逼近

2. 分類

3. 回歸

4. 分類與回歸的對比

5. 分類問題和回歸問題之間的轉(zhuǎn)換

函數(shù)逼近

預(yù)測建模就是使用歷史數(shù)據(jù)建立一個(gè)模型,去給沒有答案的新數(shù)據(jù)做預(yù)測的問題。

關(guān)于預(yù)測建模,可以在下面這篇文章中了解更多信息。

Gentle Introduction to Predictive Modeling:https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/

預(yù)測建模可以被描述成一個(gè)近似求取從輸入變量(X)到輸出變量(y)的映射函數(shù)的數(shù)學(xué)問題。這被稱為函數(shù)逼近問題。

建模算法的任務(wù)就是在給定的可用時(shí)間和資源的限制下,去尋找最佳映射函數(shù)。更多關(guān)于機(jī)器學(xué)習(xí)中應(yīng)用逼近函數(shù)的內(nèi)容,請參閱下面這篇文章:

機(jī)器學(xué)習(xí)是如何運(yùn)行的(how machine learning qork,https://machinelearningmastery.com/how-machine-learning-algorithms-work/)

一般而言,我們可以將函數(shù)逼近任務(wù)劃分為分類任務(wù)和回歸任務(wù)。

分類預(yù)測建模

分類預(yù)測建模是逼近一個(gè)從輸入變量(X)到離散的輸出變量(y)之間的映射函數(shù)(f)。

輸出變量經(jīng)常被稱作標(biāo)簽或者類別。映射函數(shù)會對一個(gè)給定的觀察樣本預(yù)測一個(gè)類別標(biāo)簽。

例如,一個(gè)文本郵件可以被歸為兩類:「垃圾郵件」,和「非垃圾郵件」

分類問題需要把樣本分為兩類或者多類。

分類的輸入可以是實(shí)數(shù)也可以有離散變量。

只有兩個(gè)類別的分類問題經(jīng)常被稱作兩類問題或者二元分類問題。

具有多于兩類的問題經(jīng)常被稱作多分類問題

樣本屬于多個(gè)類別的問題被稱作多標(biāo)簽分類問題。

分類模型經(jīng)常為輸入樣本預(yù)測得到與每一類別對應(yīng)的像概率一樣的連續(xù)值。這些概率可以被解釋為樣本屬于每個(gè)類別的似然度或者置信度。預(yù)測到的概率可以通過選擇概率最高的來別轉(zhuǎn)換成類別標(biāo)簽。

例如,某封郵件可能以 0.1 的概率被分為「垃圾郵件」,以 0.9 的概率被分為「非垃圾郵件」。因?yàn)榉抢]件的標(biāo)簽的概率最大,所以我們可以將概率轉(zhuǎn)換成「非垃圾郵件」的標(biāo)簽。

有很多用來衡量分類預(yù)測模型的性能的指標(biāo),但是分類準(zhǔn)確率可能是最常用的一個(gè)。

分類準(zhǔn)確率就是被正確分類的樣本在所有預(yù)測結(jié)果中所占的百分比。

例如,如果一個(gè)分類預(yù)測模型做了 5 個(gè)預(yù)測,其中有 3 個(gè)是正確的,2 個(gè)這是錯(cuò)誤的,那么這個(gè)模型的準(zhǔn)確率就是 60%:

accuracy =correct predictions /total predictions *100

accuracy =3/5*100

accuracy =60%

能夠?qū)W習(xí)分類模型的算法就叫做分類算法。

回歸預(yù)測模型

回歸預(yù)測建模是逼近一個(gè)從輸入變量(X)到連續(xù)的輸出變量(y)的函數(shù)映射。

連續(xù)輸出變量是一個(gè)實(shí)數(shù),例如一個(gè)整數(shù)或者浮點(diǎn)數(shù)。這些變量通常是數(shù)量或者尺寸大小等等。

例如,一座房子可能被預(yù)測到以 xx 美元出售,也許會在 $100,000 t 到$200,000 的范圍內(nèi)。

回歸問題需要預(yù)測一個(gè)數(shù)量

回歸的輸入變量可以是連續(xù)的也可以是離散的

有多個(gè)輸入變量的通常被稱作多變量回歸

輸入變量是按照時(shí)間順序的回歸稱為時(shí)間序列預(yù)測問題

因?yàn)榛貧w預(yù)測問題預(yù)測的是一個(gè)數(shù)量,所以模型的性能可以用預(yù)測結(jié)果中的錯(cuò)誤來評價(jià)。

有很多評價(jià)回歸預(yù)測模型的方式,但是最常用的一個(gè)可能是計(jì)算誤差值的均方根,即 RMSE。

例如,如果回歸預(yù)測模型做出了兩個(gè)預(yù)測結(jié)果,一個(gè)是 1.5,對應(yīng)的期望結(jié)果是 1.0;另一個(gè)是 3.3 對應(yīng)的期望結(jié)果是 3.0. 那么,這兩個(gè)回歸預(yù)測的 RMSE 如下:

RMSE =sqrt(average(error^2))

RMSE = sqrt(((1.0-1.5)^2+(3.0-3.3)^2)/2)

RMSE =sqrt((0.25+0.09)/2)

RMSE = sqrt(0.17

RMSE =0.412

使用 RMSE 的好處就是錯(cuò)誤評分的單位與預(yù)測結(jié)果是一樣的。

一個(gè)能夠?qū)W習(xí)回歸預(yù)測模型的算法稱作回歸算法。

有些算法的名字也有「regression,回歸」一詞,例如線性回歸和 logistics 回歸,這種情況有時(shí)候會讓人迷惑因?yàn)榫€性回歸確實(shí)是一個(gè)回歸問題,但是 logistics 回歸卻是一個(gè)分類問題。

分類 vs 回歸

分類預(yù)測建模問題與回歸預(yù)測建模問題是不一樣的。

分類是預(yù)測一個(gè)離散標(biāo)簽的任務(wù)

回歸是預(yù)測一個(gè)連續(xù)數(shù)量的任務(wù)

分類和回歸也有一些相同的地方:

分類算法可能預(yù)測到一個(gè)連續(xù)的值,但是這些連續(xù)值對應(yīng)的是一個(gè)類別的概率的形式。

回歸算法可以預(yù)測離散值,但是以整型量的形式預(yù)測離散值的。

有些算法既可以用來分類,也可以稍作修改就用來做回歸問題,例如決策樹和人工神經(jīng)網(wǎng)絡(luò)。但是一些算法就不行了——或者說是不太容易用于這兩種類型的問題,例如線性回歸是用來做回歸預(yù)測建模的,logistics 回歸是用來做分類預(yù)測建模的。

重要的是,我們評價(jià)分類模型和預(yù)測模型的方式是不一樣的,例如:

分類預(yù)測可以使用準(zhǔn)確率來評價(jià),而回歸問題則不能。

回歸預(yù)測可以使用均方根誤差來評價(jià),但是分類問題則不能。

分類問題和回歸問題之間的轉(zhuǎn)換

在一些情況中是可以將回歸問題轉(zhuǎn)換成分類問題的。例如,被預(yù)測的數(shù)量是可以被轉(zhuǎn)換成離散數(shù)值的范圍的。

例如,在$0 到$100 之間的金額可以被分為兩個(gè)區(qū)間:

class 0:$0 到$49

class 1: $50 到$100

這通常被稱作離散化,結(jié)果中的輸出變量是一個(gè)分類,分類的標(biāo)簽是有順序的(稱為敘序數(shù))。

在一些情況中,分類是可以轉(zhuǎn)換成回歸問題的。例如,一個(gè)標(biāo)簽可以被轉(zhuǎn)換成一個(gè)連續(xù)的范圍。

一些算法早已通過為每一個(gè)類別預(yù)測一個(gè)概率,這個(gè)概率反過來又可以被擴(kuò)展到一個(gè)特定的數(shù)值范圍:

quantity = min +probability *range

與此對應(yīng),一個(gè)類別值也可以被序數(shù)化,并且映射到一個(gè)連續(xù)的范圍中:

$0 到$49 是類別 1

$0 到 $49 是類別 2

如果分類問題中的類別標(biāo)簽沒有自然順序的關(guān)系,那么從分類問題到回歸問題的轉(zhuǎn)換也許會導(dǎo)致奇詭的結(jié)果或者很差的性能,因?yàn)槟P涂赡軐W(xué)到一個(gè)并不存在于從輸入到連續(xù)輸出之間的映射函數(shù)。

進(jìn)一步閱讀

如果讀者想更深入地了解,這一部分的內(nèi)容包含了更多的關(guān)于這個(gè)話題的資源。

預(yù)測建模簡介(https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/)

機(jī)器學(xué)習(xí)算法是如何運(yùn)行的(https://machinelearningmastery.com/how-machine-learning-algorithms-work/)

總結(jié)

在這個(gè)教程中,你會發(fā)現(xiàn)分類問題和回歸問題之間的區(qū)別。

尤其是,學(xué)到了以下內(nèi)容:

預(yù)測建模是關(guān)于學(xué)習(xí)從輸入到輸出的函數(shù)映射的問題,這個(gè)映射稱作函數(shù)逼近。

分類是給一個(gè)樣本預(yù)測離散型類別標(biāo)簽的問題。

回歸是給一個(gè)樣本預(yù)測連續(xù)輸出量的問題。

原文鏈接:https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容