1.訓(xùn)練集測(cè)試集劃分方案
a)留出法hold-out
直接將原始數(shù)據(jù)集D劃分為兩個(gè)互斥集合,其中一個(gè)作為訓(xùn)練集S,另外一個(gè)作為測(cè)試集T,其中D=S并T,S交T=空。在劃分的過(guò)程中應(yīng)該盡量保持?jǐn)?shù)據(jù)分布一致,即S,T的分布要和原始數(shù)據(jù)集一致,如原始數(shù)據(jù)集中正負(fù)樣本比例為1:5,那么在S和T中正負(fù)樣本比也應(yīng)該為1:5。一般采用分層抽樣的方案,即從正樣本中抽取1份做訓(xùn)練集的正樣本,從負(fù)樣本中抽取1份做訓(xùn)練集的負(fù)樣本。
b)交叉驗(yàn)證法cross-validation
將原始數(shù)據(jù)集通過(guò)分層抽樣劃分為k個(gè)大小一致的互斥子集。然后,每次利用k-1各子集合的并集作為訓(xùn)練集,剩下的那個(gè)做測(cè)試集。這樣就可以得到k個(gè)訓(xùn)練集/測(cè)試集的組合,從而可以進(jìn)行k次訓(xùn)練和測(cè)試,最終返回的結(jié)果為k次測(cè)試結(jié)果的均值。

c)自助法bootstrapping
原始數(shù)據(jù)集包含m個(gè)樣本,則有放回的抽樣m次,組成一個(gè)包含m個(gè)樣本的訓(xùn)練集D`,一個(gè)樣本經(jīng)過(guò)m次抽樣任然沒(méi)有被抽取到的概率為(1-1/m)**m=0.368,我們將D`作為訓(xùn)練集D-D`作為測(cè)試集,這樣我們訓(xùn)練集和原始數(shù)據(jù)集一樣有m個(gè)樣本,同時(shí)測(cè)試集約有1/3的樣本是訓(xùn)練集中沒(méi)有出現(xiàn)過(guò)的。自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練集/測(cè)試集時(shí)很有效;自助法能產(chǎn)生多個(gè)不同的訓(xùn)練集這對(duì)集成學(xué)習(xí)算法很有幫助;自助法改變了原始數(shù)據(jù)集的分布,因此在數(shù)據(jù)量足夠的情況下,我們一般采用留出法和交叉驗(yàn)證法。
d)時(shí)間窗口劃分法
在實(shí)際問(wèn)題中,我們的做法一般是根據(jù)歷史數(shù)據(jù)去預(yù)測(cè)未來(lái)某段時(shí)間發(fā)生的事情,在這種情況下,基于時(shí)間窗口的訓(xùn)練集測(cè)試集劃分方案就很有用。我們根據(jù)線上線下一致性原則,將用戶的歷史數(shù)據(jù)按照時(shí)間窗口劃分,例如選取4月到5月的數(shù)據(jù)為訓(xùn)練集,5月到6月的數(shù)據(jù)為測(cè)試集。一般在劃分時(shí)分為標(biāo)簽窗口用于對(duì)待考察樣本打標(biāo)簽,特征提取窗口用于對(duì)待考察樣本提取特征。時(shí)間窗口劃分法中的兩個(gè)主要概念為窗口時(shí)間粒度的大小和窗口滑動(dòng)的范圍,粒度大小指包含了多少天,滑動(dòng)的范圍指從哪一天到哪一天。

2.偏差bias與方差variance
我們前面說(shuō)過(guò)模型其實(shí)就是一個(gè)有x到y(tǒng)的函數(shù)映射f,我們通過(guò)已有數(shù)據(jù)訓(xùn)練得到這個(gè)映射f。偏差用于表征模型準(zhǔn)不準(zhǔn),高偏差意味著模型精度較低;方差用于描述模型穩(wěn)不穩(wěn),高方差意味著模型過(guò)擬合了。
偏差:描述的是預(yù)測(cè)值(估計(jì)值)的期望與真實(shí)值之間的差距。偏差越大,越偏離真實(shí)數(shù)據(jù),如左圖第二行所示。

方差:描述的是預(yù)測(cè)值的變化范圍,離散程度,也就是離其期望值的距離。方差越大,數(shù)據(jù)的分布越分散,如左圖右列所示。
3.評(píng)估指標(biāo)
a)分類問(wèn)題
i.混淆矩陣

ii.準(zhǔn)確率、精確度、召回率
準(zhǔn)確率accuracy =預(yù)測(cè)正確的樣本數(shù)目(包括正負(fù)樣本)/提交樣本數(shù)目
?精確度precision =提交結(jié)果中正確的正樣本數(shù)目/提交結(jié)果總數(shù)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TP/(TP+FP)
召回率recall =提交結(jié)果中正確正樣本數(shù)據(jù)/實(shí)際數(shù)目
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? TP/(TP+FN)
iii.F1-SCORE
F1-SCORE主要用于不平衡分類,若是正負(fù)樣本比例懸殊,如正樣本占了90%,這個(gè)時(shí)候若你的模型將所有樣本全預(yù)測(cè)為正樣本,模型的精確度任然有0.9,但顯然你的模型是一個(gè)很差的模型(一個(gè)負(fù)樣本都沒(méi)有預(yù)測(cè)出來(lái)),反之召回率在正負(fù)樣本不均衡時(shí)也會(huì)存在這個(gè)問(wèn)題,此時(shí)我們利用F1-SCORE來(lái)均衡的表征模型精度。
? ? ? ? ? ? ? ? ? ? ? ? ? ? F1-SCORE = precision*recall*2/(precision+recall)
iv.ROC、AUC
ROC曲線

橫坐標(biāo):FPR =實(shí)際為0預(yù)測(cè)為1/實(shí)際為0
縱坐標(biāo):TPR =實(shí)際為1預(yù)測(cè)為1/實(shí)際為1
其計(jì)算方法為將預(yù)測(cè)結(jié)果按照概率由小到大排序,然后依次往后移動(dòng)下標(biāo),當(dāng)出現(xiàn)一個(gè)正樣本往y軸走1/正樣本個(gè)數(shù),出現(xiàn)一個(gè)負(fù)樣本往x軸走1/負(fù)樣本個(gè)數(shù)。
所以ROC曲線必過(guò)(0 , 0)和(1 , 1)。
AUC為ROC曲線下面積,AUC就是從所有1樣本中隨機(jī)選取一個(gè)樣本,從所有0樣本中隨機(jī)選取一個(gè)樣本,然后根據(jù)你的分類器對(duì)兩個(gè)隨機(jī)樣本進(jìn)行預(yù)測(cè),把1樣本預(yù)測(cè)為1的概率為p1,把0樣本預(yù)測(cè)為1的概率為p0,p1>p0的概率就等于AUC。所以AUC反應(yīng)的是分類器對(duì)樣本的排序能力。根據(jù)這個(gè)解釋,如果我們完全隨機(jī)的對(duì)樣本分類,那么AUC應(yīng)該接近0.5。另外值得注意的是,AUC對(duì)樣本類別是否均衡并不敏感,這也是不均衡樣本通常用AUC評(píng)價(jià)分類器性能的一個(gè)原因。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?AUC=((所有的正樣本rank相加)-T*(T+1)/2)/(T*F)
T表示正樣本數(shù)目,F(xiàn)表示負(fù)樣本數(shù)目,對(duì)于概率一樣的樣本需均分排名

根據(jù)返回的AUC計(jì)算正樣本個(gè)數(shù):
1.將分類器分類結(jié)果由小按大排序,可完全確定為正樣本的賦值為0.9,其余賦值為0.1。
2.假設(shè)0.9的樣本個(gè)數(shù)為m個(gè),則這一部分排名和為n+(n-1)+...+(n-m+1)
3.為0.1這一部分中正樣本的排名和為[1+2+...+(n-m)]/(n-m)*(T-m)
4.根據(jù)AUC計(jì)算公式可得T
b)回歸問(wèn)題
i.平方根誤差RMSE:預(yù)測(cè)值與真實(shí)值插值平方和的均值開(kāi)方

ii.平均絕對(duì)誤差MAE:預(yù)測(cè)值與真實(shí)值誤差絕對(duì)值的均值

iii.平均平方誤差MSE:預(yù)測(cè)值與真實(shí)值插值平方和的均值

c)聚類問(wèn)題
i.蘭德系數(shù):需要給定實(shí)際類別信息C,假設(shè)K是聚類結(jié)果,a表示在C與K中都是同類別的元素對(duì)數(shù),b表示在C與K中都是不同類別的元素對(duì)數(shù),取值為[0 , 1]值越大越好


ii.互信息:是用來(lái)衡量?jī)蓚€(gè)數(shù)據(jù)分布的吻合程度。也是一有用的信息度量,它是指兩個(gè)事件集合之間的相關(guān)性,取值為[0 , 1]越大越好


iii.輪廓系數(shù)(類內(nèi)距離/類間距離):適用于實(shí)際類別信息未知的情況。對(duì)于單個(gè)樣本,設(shè)a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓系數(shù)為,取值為[-1 , 1],同類別樣本距離越相近且不同類別樣本距離越遠(yuǎn)得分越高

