統(tǒng)計(jì)學(xué)習(xí)方法筆記(第一章個人筆記)
標(biāo)簽:機(jī)器學(xué)習(xí)深度學(xué)習(xí)
P15 泛化能力
- 1.6.1 泛化誤差定義
如果學(xué)到的模型是$f$,則用這個模型對未知數(shù)據(jù)預(yù)測的誤差即為泛化誤差
$$R_exp(f)=E_p[L(Y,f(X))]=∫_{x*y}L(y,f(x))P(x,y)dxdy$$ - 1.6.2泛化誤差上界
通過比較兩種學(xué)習(xí)方法的泛化誤差上界來比較它們的優(yōu)劣。泛化誤差上界是樣本容量的函數(shù),當(dāng)樣本容量增加時,泛化上界趨于0;它是假設(shè)空間容量的函數(shù),假設(shè)空間容量越大,模型就越難學(xué),泛化誤差上界就越大。
P19分類問題
- 這里結(jié)合吳恩達(dá)機(jī)器學(xué)習(xí)里的偏斜率談一談分類問題:
對于而非類問題,常用的評價指標(biāo)是精確率(查準(zhǔn)率)與召回率,對于分類器的預(yù)測,有四種情況:
TP——將正類預(yù)測為正類的數(shù)目;
FN——將正類預(yù)測為負(fù)類的數(shù)目;
FP——將負(fù)類預(yù)測為正類的數(shù)目;
TN——將負(fù)類預(yù)測為負(fù)類的數(shù)目;
精確率(查準(zhǔn)率)定義為:
$$P=\frac{TP}{TP+FP}$$
召回率定義為:
$$R=\frac{TP}{TP+FN}$$
另外對于查準(zhǔn)率和召回率的調(diào)和均值(由于在訓(xùn)練中,這兩個值會此消彼長,需要一個值來結(jié)合它們衡量算法好壞)
$$\frac2F_1=\frac1P+\frac1R$$
$$F_1=\frac{2TP}{2TP+FP+FN}$$