一、數(shù)據(jù)挖掘的定義

指通過從大量數(shù)據(jù)中通過算法搜索隱藏與其中信息的過程。其中機器學(xué)習(xí)是支撐數(shù)據(jù)挖掘的主要手段。

圖數(shù)據(jù)挖掘過程

二、機器學(xué)習(xí)的基礎(chǔ)概念

指讓機器通過某種策略學(xué)習(xí)歷史數(shù)據(jù)后通過建立模型能夠進行一定的預(yù)測或者識別的能力。

1、模型的相關(guān)名詞

1.1、損失

模型中損失是對糟糕預(yù)測的懲罰，損失是一個數(shù)值。如果模型預(yù)測的越準(zhǔn)確，則損失的越低。

1.1、模型訓(xùn)練

訓(xùn)練模型表示通過有標(biāo)簽的樣本學(xué)習(xí)所有的權(quán)重和偏差的理想值，盡可能的減少損失。

1.3、標(biāo)簽

即為模型的y值，函數(shù)x最后對應(yīng)的結(jié)論。

2、損失函數(shù)

能夠以有意義的方式匯總各種損失。

例如MSE（均方誤差）：指的是每個樣本平均平方損失。

MSE函數(shù)

3、數(shù)據(jù)集劃分

使用數(shù)據(jù)集來訓(xùn)練模型時，一部分用來訓(xùn)練，另一部分則用于驗證。

分為訓(xùn)練集、測試集。

通常將數(shù)據(jù)集的70%劃分為訓(xùn)練集，30%為測試集。另外需要注意對于具有時序性的數(shù)據(jù)集，需要按照時間劃分。

4、流程

劃分完數(shù)據(jù)集后，需要在訓(xùn)練集上調(diào)整，測試集上驗證

模型訓(xùn)練流程

借助于這種劃分可以不斷的調(diào)整模型，缺點是由于不斷使用測試集調(diào)整模型，可能造成模型的過擬合。

因此為了解決上述情況，需要引入驗證集。

通常將數(shù)據(jù)集劃分為70%訓(xùn)練集，10%驗證集，20%測試集。

優(yōu)化后訓(xùn)練流程

缺點將浪費10%的數(shù)據(jù)

4、交叉驗證

其基本思想即將訓(xùn)練集和測試集調(diào)換。原先的測試集用來做訓(xùn)練集，原先的訓(xùn)練集用來做測試集。

其中k折交叉驗證，這種動態(tài)驗證方式可以降低數(shù)據(jù)劃分帶來的影響。

通過將數(shù)據(jù)集均勻的分成5份

不重復(fù)的取其中一份作為測試集，用其他四份作為訓(xùn)練集，之后計算該模型在測試集上的MSE

將5次的MSE平均得到最后的MSE

5、泛化能力和過擬合

當(dāng)模型建立好后模型的試用情況，泛化能力可以理解為模型對未知數(shù)據(jù)的預(yù)測情況。

過擬合指數(shù)據(jù)在訓(xùn)練集表現(xiàn)很好，但是在交叉驗證和集和測試集上表現(xiàn)一般，即泛化能力較弱。

產(chǎn)生過擬合的條件包括：訓(xùn)練集數(shù)據(jù)較少，訓(xùn)練數(shù)據(jù)中噪聲干擾大；模型過于復(fù)雜。

如何降低過擬合：1、獲取更多的數(shù)據(jù)

2、選擇合適的模型：根據(jù)奧卡姆剃刀法則：對于能夠解釋已知觀測現(xiàn)象的假設(shè)中，我們應(yīng)該挑選最簡單的。

過擬合與泛化誤差間關(guān)系

6、模型類別

模型主要分為兩大類：監(jiān)督模型——分類模型、回歸模型；無監(jiān)督學(xué)習(xí)——從一堆數(shù)據(jù)中學(xué)習(xí)其中的統(tǒng)計規(guī)律，可以是類別、轉(zhuǎn)化或者概率。

監(jiān)督學(xué)習(xí)：指從對應(yīng)的x、y關(guān)系中學(xué)習(xí)統(tǒng)計規(guī)律，然后預(yù)測新給出的x對應(yīng)的y值

常見的監(jiān)督學(xué)習(xí)：K—近鄰（KNN)、線性回歸（回歸）、邏輯回歸（分類模型）、支持向量機、決策樹和隨機森林、神經(jīng)網(wǎng)絡(luò)

常見的無監(jiān)督學(xué)習(xí)：1、聚類算法：k-平均算法（k—means）、密度聚類算法、最大期望值算法；2、降維：主成分分析（PCA),關(guān)聯(lián)規(guī)則學(xué)習(xí)——Apriori

7、模型的評估

1、一級指標(biāo)

a、混淆矩陣：混淆矩陣是分別統(tǒng)計分類模型歸錯類、歸對類的觀測值個數(shù)，然后把結(jié)果放置一個表中展示。

混淆矩陣

模型預(yù)測和實際結(jié)果一致為TP，即為真陽性；模型預(yù)測為是，實際為否為假陽性，其次為假陰性，真陰性。

模型中TP與TN數(shù)量越大越好。

2、二級指標(biāo)

面對大量數(shù)據(jù)時，混淆矩陣往往不夠用?？梢圆扇∫韵轮笜?biāo)

準(zhǔn)確率：（TP+TN)/(TP+TN+FP+FN)。分類模型中判斷正確的結(jié)果占總觀測值的比重。

精確率：TP/（TP+TN)表示預(yù)測為正的樣本中有多少是對的

查全率：TPR=TP/（TP+FN）表示樣本中有多少正例被正確預(yù)測

假正率：FPR=FP/(FP+FN)

表示被錯誤分到正樣本中的真實負(fù)樣本。

2、回歸模型評估指標(biāo)

1、平均絕對誤差MAE

2、均方誤差MSE

3、均方根誤差RMSE

4、中位絕對誤差

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

加絨褲

一、數(shù)據(jù)挖掘的定義

二、機器學(xué)習(xí)的基礎(chǔ)概念

1、模型的相關(guān)名詞

1.1、損失

1.1、模型訓(xùn)練

1.3、標(biāo)簽

2、損失函數(shù)

3、數(shù)據(jù)集劃分

4、流程

4、交叉驗證

5、泛化能力和過擬合

6、模型類別

7、模型的評估

2、二級指標(biāo)

2、回歸模型評估指標(biāo)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

一、數(shù)據(jù)挖掘的定義

二、機器學(xué)習(xí)的基礎(chǔ)概念

1、模型的相關(guān)名詞

1.1、損失

1.1、模型訓(xùn)練

1.3、 標(biāo)簽

2、損失函數(shù)

3、數(shù)據(jù)集劃分

4、流程

4、交叉驗證

5、泛化能力和過擬合

6、模型類別

7、模型的評估

2、二級指標(biāo)

2、回歸模型評估指標(biāo)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

二、機器學(xué)習(xí)的基礎(chǔ)概念

1、模型的相關(guān)名詞

1.1、損失

1.1、模型訓(xùn)練

1.3、標(biāo)簽

2、損失函數(shù)

3、數(shù)據(jù)集劃分

4、流程

5、泛化能力和過擬合

7、模型的評估

2、二級指標(biāo)

2、回歸模型評估指標(biāo)