一、數(shù)據(jù)挖掘的定義
指通過從大量數(shù)據(jù)中通過算法搜索隱藏與其中信息的過程。其中機器學(xué)習(xí)是支撐數(shù)據(jù)挖掘的主要手段。

二、機器學(xué)習(xí)的基礎(chǔ)概念
指讓機器通過某種策略學(xué)習(xí)歷史數(shù)據(jù)后通過建立模型能夠進行一定的預(yù)測或者識別的能力。
1、模型的相關(guān)名詞
1.1、損失
模型中損失是對糟糕預(yù)測的懲罰,損失是一個數(shù)值。如果模型預(yù)測的越準(zhǔn)確,則損失的越低。
1.1、模型訓(xùn)練
訓(xùn)練模型表示通過有標(biāo)簽的樣本學(xué)習(xí)所有的權(quán)重和偏差的理想值,盡可能的減少損失。
1.3、 標(biāo)簽
即為模型的y值,函數(shù)x最后對應(yīng)的結(jié)論。
2、損失函數(shù)
能夠以有意義的方式匯總各種損失。
例如MSE(均方誤差):指的是每個樣本平均平方損失。

3、數(shù)據(jù)集劃分
使用數(shù)據(jù)集來訓(xùn)練模型時,一部分用來訓(xùn)練,另一部分則用于驗證。
分為訓(xùn)練集、測試集。
通常將數(shù)據(jù)集的70%劃分為訓(xùn)練集,30%為測試集。另外需要注意對于具有時序性的數(shù)據(jù)集,需要按照時間劃分。
4、流程
劃分完數(shù)據(jù)集后,需要在訓(xùn)練集上調(diào)整,測試集上驗證

借助于這種劃分可以不斷的調(diào)整模型,缺點是由于不斷使用測試集調(diào)整模型,可能造成模型的過擬合。
因此為了解決上述情況,需要引入驗證集。
通常將數(shù)據(jù)集劃分為70%訓(xùn)練集,10%驗證集,20%測試集。

缺點將浪費10%的數(shù)據(jù)
4、交叉驗證
其基本思想即將訓(xùn)練集和 測試集調(diào)換。原先的測試集用來做訓(xùn)練集,原先的訓(xùn)練集用來做測試集。
其中k折交叉驗證,這種動態(tài)驗證方式可以降低數(shù)據(jù)劃分帶來的影響。

通過將數(shù)據(jù)集均勻的分成5份
不重復(fù)的取其中一份作為測試集,用其他四份作為訓(xùn)練集,之后計算該模型在測試集上的MSE
將5次的MSE平均得到最后的MSE
5、泛化能力和過擬合
當(dāng)模型建立好后模型的試用情況,泛化能力可以理解為模型對未知數(shù)據(jù)的預(yù)測情況。
過擬合指數(shù)據(jù)在訓(xùn)練集表現(xiàn)很好,但是在交叉驗證和集和測試集上表現(xiàn)一般,即泛化能力較弱。
產(chǎn)生過擬合的條件包括:訓(xùn)練集數(shù)據(jù)較少,訓(xùn)練數(shù)據(jù)中噪聲干擾大;模型過于復(fù)雜。
如何降低過擬合:1、獲取更多的數(shù)據(jù)
2、選擇合適的模型:根據(jù)奧卡姆剃刀法則:對于能夠解釋已知觀測現(xiàn)象的假設(shè)中,我們應(yīng)該挑選最簡單的。

6、模型類別
模型主要分為兩大類:監(jiān)督模型——分類模型、回歸模型;無監(jiān)督學(xué)習(xí)——從一堆數(shù)據(jù)中學(xué)習(xí)其中的統(tǒng)計規(guī)律,可以是類別、轉(zhuǎn)化或者概率。
監(jiān)督學(xué)習(xí):指從對應(yīng)的x、y關(guān)系中學(xué)習(xí)統(tǒng)計規(guī)律,然后預(yù)測新給出的x對應(yīng)的y值
常見的監(jiān)督學(xué)習(xí):K—近鄰(KNN)、線性回歸(回歸)、邏輯回歸(分類模型)、支持向量機、決策樹和隨機森林、神經(jīng)網(wǎng)絡(luò)
常見的無監(jiān)督學(xué)習(xí):1、聚類算法:k-平均算法(k—means)、密度聚類算法、最大期望值算法;2、降維:主成分分析(PCA),關(guān)聯(lián)規(guī)則學(xué)習(xí)——Apriori
7、模型的評估
1、一級指標(biāo)
a、混淆矩陣:混淆矩陣是分別統(tǒng)計分類模型歸錯類、歸對類的觀測值個數(shù),然后把結(jié)果放置一個表中展示。

模型預(yù)測和實際結(jié)果一致為TP,即為真陽性;模型預(yù)測為是,實際為否為假陽性,其次為假陰性,真陰性。
模型中TP與TN數(shù)量越大越好。
2、二級指標(biāo)
面對大量數(shù)據(jù)時,混淆矩陣往往不夠用??梢圆扇∫韵轮笜?biāo)
準(zhǔn)確率:(TP+TN)/(TP+TN+FP+FN)。分類模型中判斷正確的結(jié)果占總觀測值的比重。
精確率:TP/(TP+TN)表示預(yù)測為正的樣本中有多少是對的
查全率:TPR=TP/(TP+FN)表示樣本中有多少正例被正確預(yù)測
假正率:FPR=FP/(FP+FN)
表示被錯誤分到正樣本中的真實負(fù)樣本。
2、回歸模型評估指標(biāo)
1、平均絕對誤差MAE

2、均方誤差MSE

3、均方根誤差RMSE

4、中位絕對誤差
