
期望迭代法則可以提供一種計算非條件期望的方法。比如這個很經(jīng)典的計量經(jīng)濟學(xué)的例子:員工的性別與平均工資。用虛擬變量X代表員工的性別,其中0代表女性,1代表男性。用Y代表員工的工資水平。那么

2 幸存者偏差(Survivorship bias),另譯為“生存者偏差”或“存活者偏差”,駁斥的是一種常見的邏輯謬誤(“謬誤”而不是“偏差”),這個被駁斥的邏輯謬誤指的是只能看到經(jīng)過某種篩選而產(chǎn)生的結(jié)果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息。這東西的別名有很多,比如“沉默的數(shù)據(jù)”、“死人不會說話”等等。
3交叉驗證(Cross Validation),有的時候也稱作循環(huán)估計(Rotation Estimation),是一種統(tǒng)計學(xué)上將數(shù)據(jù)樣本切割成較小子集的實用方法,該理論是由Seymour Geisser提出的。
在給定的建模樣本中,拿出大部分樣本進(jìn)行建模型,留小部分樣本用剛建立的模型進(jìn)行預(yù)報,并求這小部分樣本的預(yù)報誤差,記錄它們的平方加和。這個過程一直進(jìn)行,直到所有的樣本都被預(yù)報了一次而且僅被預(yù)報一次。把每個樣本的預(yù)報誤差平方加和,稱為PRESS(predicted Error Sum of Squares)。
交叉驗證的基本思想是把在某種意義下將原始數(shù)據(jù)(dataset)進(jìn)行分組,一部分做為訓(xùn)練集(train set),另一部分做為驗證集(validation set or test set),首先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,再利用驗證集來測試訓(xùn)練得到的模型(model),以此來做為評價分類器的性能指標(biāo)。
用交叉驗證的目的是為了得到可靠穩(wěn)定的模型。
常用的精度測試方法主要是交叉驗證,例如10折交叉驗證(10-fold cross validation),將數(shù)據(jù)集分成十份,輪流將其中9份做訓(xùn)練1份做驗證,10次的結(jié)果的均值作為對算法精度的估計,一般還需要進(jìn)行多次10折交叉驗證求均值,例如:10次10折交叉驗證,以求更精確一點。
Holdout 驗證
常識來說,Holdout 驗證并非一種交叉驗證,因為數(shù)據(jù)并沒有交叉使用。 隨機從最初的樣本中選出部分,形成交叉驗證數(shù)據(jù),而剩余的就當(dāng)做訓(xùn)練數(shù)據(jù)。 一般來說,少于原本樣本三分之一的數(shù)據(jù)被選做驗證數(shù)據(jù)。
K-fold cross-validation
K折交叉驗證,初始采樣分割成K個子樣本,一個單獨的子樣本被保留作為驗證模型的數(shù)據(jù),其他K-1個樣本用來訓(xùn)練。交叉驗證重復(fù)K次,每個子樣本驗證一次,平均K次的結(jié)果或者使用其它結(jié)合方式,最終得到一個單一估測。這個方法的優(yōu)勢在于,同時重復(fù)運用隨機產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗證,每次的結(jié)果驗證一次,10折交叉驗證是最常用的 [3] 。
留一驗證
正如名稱所建議, 留一驗證(LOOCV)意指只使用原本樣本中的一項來當(dāng)做驗證資料, 而剩余的則留下來當(dāng)做訓(xùn)練資料。 這個步驟一直持續(xù)到每個樣本都被當(dāng)做一次驗證資料。 事實上,這等同于和K-fold 交叉驗證是一樣的,其中K為原本樣本個數(shù)。 在某些情況下是存在有效率的演算法,如使用kernel
regression 和Tikhonov regularization。
4 聚類錯覺 是心理學(xué)中的一個概念,指人們更傾向于將隨機小樣本中不可避免的“條紋”或“聚簇”狀的隨機分布考慮為某種有統(tǒng)計意義的“規(guī)律”

圖中可以看到隨機分布的點,但你是否更傾向于注意圖中聚攏在一起或者大片沒有點的空白區(qū)域?這些點的“不正常分布”的區(qū)域會吸引你的注意力,甚至讓產(chǎn)生原本的隨機分布并非隨機的錯覺。

5 維數(shù)災(zāi)難:通常是指在涉及到向量的計算的問題中,隨著維數(shù)的增加,計算量呈指數(shù)倍增長的一種現(xiàn)象。維數(shù)災(zāi)難涉及數(shù)字分析、抽樣、組合、機器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)庫等諸多領(lǐng)域。
當(dāng)維度增加時,空間的體積增加得很快,使得可用的數(shù)據(jù)變得稀疏。稀疏性對于任何要求有統(tǒng)計學(xué)意義的方法而言都是一個問題,為了獲得在統(tǒng)計學(xué)上正確并且有可靠的結(jié)果,用來支撐這一結(jié)果所需要的數(shù)據(jù)量通常隨著維數(shù)的提高而呈指數(shù)級增長。
6 過度擬合:過擬合是指為了得到一致假設(shè)而使假設(shè)變得過度嚴(yán)格。避免過擬合是分類器設(shè)計中的一個核心任務(wù)。通常采用增大數(shù)據(jù)量和測試樣本集的方法對分類器性能進(jìn)行評價。
定義:給定一個假設(shè)空間H,一個假設(shè)h屬于H,如果存在其他的假設(shè)h’屬于H,使得在訓(xùn)練樣例上h的錯誤率比h’小,但在整個實例分布上h’比h的錯誤率小,那么就說假設(shè)h過度擬合訓(xùn)練數(shù)據(jù)。[1]
(1)建模樣本選取有誤,如樣本數(shù)量太少,選樣方法錯誤,樣本標(biāo)簽錯誤等,導(dǎo)致選取的樣本數(shù)據(jù)不足以代表預(yù)定的分類規(guī)則;
(2)樣本噪音干擾過大,使得機器將部分噪音認(rèn)為是特征從而擾亂了預(yù)設(shè)的分類規(guī)則;
(3)假設(shè)的模型無法合理存在,或者說是假設(shè)成立的條件實際并不成立;
(4)參數(shù)太多,模型復(fù)雜度過高;
(5)對于決策樹模型,如果我們對于其生長沒有合理的限制,其自由生長有可能使節(jié)點只包含單純的事件數(shù)據(jù)(event)或非事件數(shù)據(jù)(no event),使其雖然可以完美匹配(擬合)訓(xùn)練數(shù)據(jù),但是無法適應(yīng)其他數(shù)據(jù)集。
解決方法
(2)選取合適的停止訓(xùn)練標(biāo)準(zhǔn),使對機器的訓(xùn)練在合適的程度;
(3)保留驗證數(shù)據(jù)集,對訓(xùn)練成果進(jìn)行驗證;
(4)獲取額外數(shù)據(jù)進(jìn)行交叉驗證;
(5)正則化,即在進(jìn)行目標(biāo)函數(shù)或代價函數(shù)優(yōu)化時,在目標(biāo)函數(shù)或代價函數(shù)后面加上一個正則項,一般有L1正則與L2正則等。