ERM
真實(shí)損失
定義為總體分布,
為真實(shí)標(biāo)簽函數(shù),
為標(biāo)簽函數(shù),也叫模型或分類器。
為在總體分布和真實(shí)標(biāo)簽函數(shù)分別為D和f時h所對應(yīng)的誤差,也叫做真實(shí)損失。其公式為
經(jīng)驗(yàn)損失
抽取個獨(dú)立同分布樣本,組成一個m-tuples的樣本組
,將
的集合定義為樣本集
。
以[m]表示數(shù)據(jù)集{1,2,...,m},表示形式上的經(jīng)驗(yàn)損失函數(shù)。
則有如下經(jīng)驗(yàn)損失的定義公式
當(dāng)時,可訓(xùn)練得到模型
。
過擬合
定義為誤差精度,過擬合是指經(jīng)驗(yàn)損失可訓(xùn)練而真實(shí)損失超過了誤差精度,表達(dá)式為
為消除過擬合,我們主要手段是限制合理模型范圍。經(jīng)驗(yàn)風(fēng)險最小化(ERM)
定義模型的有限假設(shè)類,則令
置信度
誤導(dǎo)集
定義模型的有限假設(shè)類,則無效的模型集合為
定義表示樣本集
中的一個樣本組,則樣本組的誤導(dǎo)集可表示為
置信度
定義為抽取到無效樣本組的概率,
為置信度。其定義式為
如下推導(dǎo)
得到
樣本量
舉例:性別估計是個二分類,假設(shè)使用1000個0-1特征,則,根據(jù)經(jīng)驗(yàn)
,希望的精度
,則樣本量
設(shè)模型參數(shù)數(shù)量為N,參數(shù)取值范圍為R,則
可見樣本數(shù)量應(yīng)與參數(shù)數(shù)量N成正比例關(guān)系。