天堂岛AV,青青久青青久

姓名：張萌? ? ? ? ? 學(xué)號17021211113

轉(zhuǎn)自:http://mp.weixin.qq.com/s/YQ8l87EPw6EEhNy8MIU6Cg

【嵌牛導(dǎo)讀】:分類問題和回歸問題之間有著很重要的區(qū)別。從根本上來說，分類是預(yù)測一個(gè)標(biāo)簽，回歸是預(yù)測一個(gè)數(shù)量。我經(jīng)?？吹竭@樣的問題：如何計(jì)算回歸問題的準(zhǔn)確率？

【嵌牛鼻子】:分類問題? ? 回歸問題

【嵌牛提問】：分類與回歸的區(qū)別是什么？

【嵌牛正文】：

這種問題意味著提問的人并沒有真正理解分類和回歸之間的差別，以及準(zhǔn)確率到底是在評估什么？

你會在這篇文章中發(fā)現(xiàn)分類和回歸之間的區(qū)別。

讀完本文，你會了解以下內(nèi)容：

預(yù)測建模是關(guān)于學(xué)習(xí)從輸入到輸出的函數(shù)映射的問題，這個(gè)映射稱作函數(shù)逼近。

分類是給一個(gè)樣本預(yù)測離散型類別標(biāo)簽的問題。

回歸是給一個(gè)樣本預(yù)測連續(xù)輸出量的問題。

讓我們開始吧。

教程概覽

本教程分為以下 5 個(gè)部分：

1. 函數(shù)逼近

2. 分類

3. 回歸

4. 分類與回歸的對比

5. 分類問題和回歸問題之間的轉(zhuǎn)換

函數(shù)逼近

預(yù)測建模就是使用歷史數(shù)據(jù)建立一個(gè)模型，去給沒有答案的新數(shù)據(jù)做預(yù)測的問題。

關(guān)于預(yù)測建模，可以在下面這篇文章中了解更多信息。

Gentle Introduction to Predictive Modeling：https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/

預(yù)測建模可以被描述成一個(gè)近似求取從輸入變量（X）到輸出變量（y）的映射函數(shù)的數(shù)學(xué)問題。這被稱為函數(shù)逼近問題。

建模算法的任務(wù)就是在給定的可用時(shí)間和資源的限制下，去尋找最佳映射函數(shù)。更多關(guān)于機(jī)器學(xué)習(xí)中應(yīng)用逼近函數(shù)的內(nèi)容，請參閱下面這篇文章：

機(jī)器學(xué)習(xí)是如何運(yùn)行的（how machine learning qork,https://machinelearningmastery.com/how-machine-learning-algorithms-work/）

一般而言，我們可以將函數(shù)逼近任務(wù)劃分為分類任務(wù)和回歸任務(wù)。

分類預(yù)測建模

分類預(yù)測建模是逼近一個(gè)從輸入變量（X）到離散的輸出變量（y）之間的映射函數(shù)（f）。

輸出變量經(jīng)常被稱作標(biāo)簽或者類別。映射函數(shù)會對一個(gè)給定的觀察樣本預(yù)測一個(gè)類別標(biāo)簽。

例如，一個(gè)文本郵件可以被歸為兩類：「垃圾郵件」，和「非垃圾郵件」

分類問題需要把樣本分為兩類或者多類。

分類的輸入可以是實(shí)數(shù)也可以有離散變量。

只有兩個(gè)類別的分類問題經(jīng)常被稱作兩類問題或者二元分類問題。

具有多于兩類的問題經(jīng)常被稱作多分類問題

樣本屬于多個(gè)類別的問題被稱作多標(biāo)簽分類問題。

分類模型經(jīng)常為輸入樣本預(yù)測得到與每一類別對應(yīng)的像概率一樣的連續(xù)值。這些概率可以被解釋為樣本屬于每個(gè)類別的似然度或者置信度。預(yù)測到的概率可以通過選擇概率最高的來別轉(zhuǎn)換成類別標(biāo)簽。

例如，某封郵件可能以 0.1 的概率被分為「垃圾郵件」，以 0.9 的概率被分為「非垃圾郵件」。因?yàn)榉抢]件的標(biāo)簽的概率最大，所以我們可以將概率轉(zhuǎn)換成「非垃圾郵件」的標(biāo)簽。

有很多用來衡量分類預(yù)測模型的性能的指標(biāo)，但是分類準(zhǔn)確率可能是最常用的一個(gè)。

分類準(zhǔn)確率就是被正確分類的樣本在所有預(yù)測結(jié)果中所占的百分比。

例如，如果一個(gè)分類預(yù)測模型做了 5 個(gè)預(yù)測，其中有 3 個(gè)是正確的，2 個(gè)這是錯(cuò)誤的，那么這個(gè)模型的準(zhǔn)確率就是 60%：

accuracy =correct predictions /total predictions *100

accuracy =3/5*100

accuracy =60%

能夠?qū)W習(xí)分類模型的算法就叫做分類算法。

回歸預(yù)測模型

回歸預(yù)測建模是逼近一個(gè)從輸入變量（X）到連續(xù)的輸出變量（y）的函數(shù)映射。

連續(xù)輸出變量是一個(gè)實(shí)數(shù)，例如一個(gè)整數(shù)或者浮點(diǎn)數(shù)。這些變量通常是數(shù)量或者尺寸大小等等。

例如，一座房子可能被預(yù)測到以 xx 美元出售，也許會在 $100,000 t 到$200,000 的范圍內(nèi)。

回歸問題需要預(yù)測一個(gè)數(shù)量

回歸的輸入變量可以是連續(xù)的也可以是離散的

有多個(gè)輸入變量的通常被稱作多變量回歸

輸入變量是按照時(shí)間順序的回歸稱為時(shí)間序列預(yù)測問題

因?yàn)榛貧w預(yù)測問題預(yù)測的是一個(gè)數(shù)量，所以模型的性能可以用預(yù)測結(jié)果中的錯(cuò)誤來評價(jià)。

有很多評價(jià)回歸預(yù)測模型的方式，但是最常用的一個(gè)可能是計(jì)算誤差值的均方根，即 RMSE。

例如，如果回歸預(yù)測模型做出了兩個(gè)預(yù)測結(jié)果，一個(gè)是 1.5，對應(yīng)的期望結(jié)果是 1.0；另一個(gè)是 3.3 對應(yīng)的期望結(jié)果是 3.0. 那么，這兩個(gè)回歸預(yù)測的 RMSE 如下：

RMSE =sqrt(average(error^2))

RMSE = sqrt(((1.0-1.5)^2+(3.0-3.3)^2)/2)

RMSE =sqrt((0.25+0.09)/2)

RMSE = sqrt(0.17

RMSE =0.412

使用 RMSE 的好處就是錯(cuò)誤評分的單位與預(yù)測結(jié)果是一樣的。

一個(gè)能夠?qū)W習(xí)回歸預(yù)測模型的算法稱作回歸算法。

有些算法的名字也有「regression，回歸」一詞，例如線性回歸和 logistics 回歸，這種情況有時(shí)候會讓人迷惑因?yàn)榫€性回歸確實(shí)是一個(gè)回歸問題，但是 logistics 回歸卻是一個(gè)分類問題。

分類 vs 回歸

分類預(yù)測建模問題與回歸預(yù)測建模問題是不一樣的。

分類是預(yù)測一個(gè)離散標(biāo)簽的任務(wù)

回歸是預(yù)測一個(gè)連續(xù)數(shù)量的任務(wù)

分類和回歸也有一些相同的地方：

分類算法可能預(yù)測到一個(gè)連續(xù)的值，但是這些連續(xù)值對應(yīng)的是一個(gè)類別的概率的形式。

回歸算法可以預(yù)測離散值，但是以整型量的形式預(yù)測離散值的。

有些算法既可以用來分類，也可以稍作修改就用來做回歸問題，例如決策樹和人工神經(jīng)網(wǎng)絡(luò)。但是一些算法就不行了——或者說是不太容易用于這兩種類型的問題，例如線性回歸是用來做回歸預(yù)測建模的，logistics 回歸是用來做分類預(yù)測建模的。

重要的是，我們評價(jià)分類模型和預(yù)測模型的方式是不一樣的，例如：

分類預(yù)測可以使用準(zhǔn)確率來評價(jià)，而回歸問題則不能。

回歸預(yù)測可以使用均方根誤差來評價(jià)，但是分類問題則不能。

分類問題和回歸問題之間的轉(zhuǎn)換

在一些情況中是可以將回歸問題轉(zhuǎn)換成分類問題的。例如，被預(yù)測的數(shù)量是可以被轉(zhuǎn)換成離散數(shù)值的范圍的。

例如，在$0 到$100 之間的金額可以被分為兩個(gè)區(qū)間：

class 0：$0 到$49

class 1: $50 到$100

這通常被稱作離散化，結(jié)果中的輸出變量是一個(gè)分類，分類的標(biāo)簽是有順序的（稱為敘序數(shù)）。

在一些情況中，分類是可以轉(zhuǎn)換成回歸問題的。例如，一個(gè)標(biāo)簽可以被轉(zhuǎn)換成一個(gè)連續(xù)的范圍。

一些算法早已通過為每一個(gè)類別預(yù)測一個(gè)概率，這個(gè)概率反過來又可以被擴(kuò)展到一個(gè)特定的數(shù)值范圍：

quantity = min +probability *range

與此對應(yīng)，一個(gè)類別值也可以被序數(shù)化，并且映射到一個(gè)連續(xù)的范圍中：

$0 到$49 是類別 1

$0 到 $49 是類別 2

如果分類問題中的類別標(biāo)簽沒有自然順序的關(guān)系，那么從分類問題到回歸問題的轉(zhuǎn)換也許會導(dǎo)致奇詭的結(jié)果或者很差的性能，因?yàn)槟Ｐ涂赡軐W(xué)到一個(gè)并不存在于從輸入到連續(xù)輸出之間的映射函數(shù)。

進(jìn)一步閱讀

如果讀者想更深入地了解，這一部分的內(nèi)容包含了更多的關(guān)于這個(gè)話題的資源。

預(yù)測建模簡介（https://machinelearningmastery.com/gentle-introduction-to-predictive-modeling/）

機(jī)器學(xué)習(xí)算法是如何運(yùn)行的（https://machinelearningmastery.com/how-machine-learning-algorithms-work/）

總結(jié)

在這個(gè)教程中，你會發(fā)現(xiàn)分類問題和回歸問題之間的區(qū)別。

尤其是，學(xué)到了以下內(nèi)容:

預(yù)測建模是關(guān)于學(xué)習(xí)從輸入到輸出的函數(shù)映射的問題，這個(gè)映射稱作函數(shù)逼近。

分類是給一個(gè)樣本預(yù)測離散型類別標(biāo)簽的問題。

回歸是給一個(gè)樣本預(yù)測連續(xù)輸出量的問題。

原文鏈接：https://machinelearningmastery.com/classification-versus-regression-in-machine-learning/

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

區(qū)分識別機(jī)器學(xué)習(xí)中的分類與回歸

區(qū)分識別機(jī)器學(xué)習(xí)中的分類與回歸

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

區(qū)分識別機(jī)器學(xué)習(xí)中的分類與回歸

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av