在真實數(shù)據(jù)中,錯誤與噪音是不可避免的,對于這些問題的處理也同樣非常重要。
錯誤評估
為了衡量模型的總體效果,我們統(tǒng)計總體錯誤,而總體誤差的評估依據(jù)是每個數(shù)據(jù)點處所得到的誤差情況。

image.png
選擇誤差函數(shù)
以指紋識別為例進行說明:

| f | f | ||
|---|---|---|---|
| +1 | -1 | ||
| h | +1 | no error | 錯誤接受 |
| h | -1 | 錯誤拒絕 | no error |
誤差在不同的應(yīng)用領(lǐng)域會帶來不同的代價。
- 例如超市優(yōu)惠權(quán)限驗證
本應(yīng)享受優(yōu)惠的VIP受到拒絕時,可能會使得超市失去大客戶。
而本不應(yīng)該享受優(yōu)惠的客戶錯誤的給予優(yōu)惠,并沒有什么損失。
那么此時誤差懲罰的權(quán)重應(yīng)該對拒絕誤差加重。
| +1 | -1 | |
|---|---|---|
| +1 | 0 | 1 |
| -1 | 10 | 0 |
- 例如中情局權(quán)限驗證
本應(yīng)享受優(yōu)惠的VIP受到拒絕時,可能會使得超市失去大客戶。
而本不應(yīng)該享受優(yōu)惠的客戶錯誤的給予優(yōu)惠,并沒有什么損失。
讓沒有權(quán)限的人進入會產(chǎn)生嚴(yán)重后果。
而讓雇員多次嘗試后才進入并沒有什么影響。
那么此時誤差懲罰的權(quán)重應(yīng)該對接受誤差加重。
| +1 | -1 | |
|---|---|---|
| +1 | 0 | 1000 |
| -1 | 1 | 0 |
噪音數(shù)據(jù)
因為種種原因,我們所獲得的數(shù)據(jù)不可能是純凈的,比如:
x1 = x2 但 y1 != y2
所以很多時候我們不直接使用 y = f(x) 而是使用p(y|x)
學(xué)習(xí)總結(jié)
學(xué)習(xí)過程中,下圖中的上式是我們所知道的,下式是我們所需要求解出的。上式給了我們的模型泛化的能力,當(dāng)我們所最終確定的函數(shù)g在樣本中的誤差Ein較小時,因為Eout≈Ein,那么就可以得到一個Eout ≈ 0的結(jié)果。

所以,學(xué)習(xí)問題被分為了兩個部分:

image.png
以上兩點無法同時滿足,需要一些調(diào)和。

image.png