精品人妻一區,日韩成人精品久久

概念 $c$ =未知目標函數(shù) $f$

樣本集大小 $m=N$

“不可知PLA可學習” $f \notin \mathcal{H}$

二分類問題，0-1損失函數(shù)（0-1 loss function） $\ell_{h}(x,y)\ =\ I(y\neq h(x))$

泛化誤差（generalization error）也稱期望損失（expected loss） $E_{out}(h)=E(h)=\mathbb{E}_{\mathcal{P}}[\ell_{h}(x,y)]$

經(jīng)驗誤差（empirical error）也稱經(jīng)驗損失（empirical?loss） $E_{in}(h)=\hat{E}(h)=\frac{1}{N}\sum_{i=1}^{N}\ell_{h} (x_{i},y_{i})$

由于數(shù)據(jù)集D是 $\mathcal{P}$ 獨立同分布的采樣，因此 $h$ 的經(jīng)驗誤差期望等于其泛化誤差，帶入霍夫丁不等式（Hoeffding Inequality）

上面說到期望就是平均數(shù)隨樣本趨于無窮的極限，那么這句話是什么意思呢？

我們還是以上面的擲骰子為例子：

如果我們擲了無數(shù)次的骰子，然后將其中的點數(shù)進行相加，然后除以他們擲骰子的次數(shù)得到均值，這個有無數(shù)次樣本得出的均值就趨向于期望。

個人理解：均值為多個隨機變量的和再除以個數(shù)，相當于還是一個隨機變量，當數(shù)量足夠多的時候，這個隨機變量會收斂，這個收斂的值為期望

$\delta=2\exp(-2N\epsilon^2)$ ， $\epsilon =\sqrt{\frac{\ln\frac{2}{\delta}}{2N}}$

$P(|E_{in}-E_{out} |\geq \epsilon )\leq \delta$

$P(|E_{in}-E_{out} |\leq \epsilon )\geq 1-\delta$

$=P\Big( (E_{in}-\epsilon) \leq E_{out}\leq (E_{in}+\epsilon) \Big)\geq 1-\delta$

$=P\Big( (E_{in}-\sqrt{\frac{\ln\frac{2}{\delta}}{2N}}) \leq E_{out}\leq (E_{in}+\sqrt{\frac{\ln\frac{2}{\delta}}{2N}}) \Big)\geq 1-\delta$

泛化誤差上界（generalization error bound） $E_{out}\leq (E_{in}+\epsilon)$

聯(lián)合約束（Union Bound）

$P(\exists h\in \mathcal{H}:|E_{in}-E_{out} |\geq \epsilon )$

$=P\Big(\ |E_{in}(h_{1})-E_{out}(h_{1}) |\geq \epsilon \quad \mathbf{or} \ ...\ \mathbf{or} \quad |E_{in}(h_{|\mathcal{H}|})-E_{out}(h_{|\mathcal{H}|}) |\geq \epsilon \ \Big)$

$\leq \sum_{h\in \mathcal{H}}^{} P(|E_{in}-E_{out} |\geq \epsilon )$

$\leq \sum_{h\in \mathcal{H}}^{} 2\exp(-2N\epsilon^2)=2|\mathcal{H}|\exp(-2N\epsilon^2)=\delta$ ， $\epsilon=\sqrt{\frac{\ln|\mathcal{H}|+\ln\frac{2}{\delta}}{2N}}$

$P(|E_{in}-E_{out} |\geq \epsilon )\leq \delta$

$=P\Big( (E_{in}-\sqrt{\frac{\ln|\mathcal{H}|+\ln\frac{2}{\delta}}{2N}}) \leq E_{out}\leq (E_{in}+\sqrt{\frac{\ln|\mathcal{H}|+\ln\frac{2}{\delta}}{2N}}) \Big)\geq 1-\delta$

對分（dichotomy） $h_{|D}=\{(h(x_1),...,h(x_{N}))\ |\ h\in \mathcal{H}\}$

增長函數(shù)（growth function） $\Pi_ \mathcal{H}(N)=\max |h_{|D}| \leq 2^N$ ，max表示最大

打散（shattering） $\Pi_ \mathcal{H}(N)= 2^N$ ，N個樣本點的集合能被H給打碎，或者說H 能打碎N個樣本點的集合

突破點（break point） $k=\min\ |\Pi_ \mathcal{H}(N)< 2^N|$ ，N個樣本點的集合不能被H給打碎

vc維（VC?Dimension） $d=k-1=\max\{ N\ |\ \Pi_ \mathcal{H}(N)= 2^N\}$ ，max表示最大

一個數(shù)據(jù)點呈圓形分布的凸集，這時找不到任何突破點（break point），此時vc維趨于無窮。

Sauer 引理

$Q=\{x_{1}, x_{2},x_{3},x_{4}\}$

$S=Q ∪\{x_5\} =\{x_{1}, x_{2},x_{3},x_{4},x_{5}\}$

如果一個集合 $Q$ 被 $\mathcal{H}_{|D^1}$ 打碎，那么它也能被 $\mathcal{H}_{|D}$ 打碎，因為 $\mathcal{H}_{|D^1}$ 中包含 $\mathcal{H}_{|D}$ 所有在 $Q$ 上不重復(fù)的函數(shù)。

此外，如果一個集合 $Q$ 被 $\mathcal{H}_{|D^1|D}$ 打碎，集合 $S$ 也將被 $\mathcal{H}_{|D}$ 打碎，因為對 $\mathcal{H}_{|D^1|D}$ 中的所有函數(shù)， $\mathcal{H}_{|D}$ 都包含另外一個函數(shù)，它僅在 $x_5$ 上的輸出和前一個函數(shù)不同。

遞歸

遞歸：大雄在房里，用時光電視看著未來的情況。電視畫面中的那個時候，他正在用時光電視，看著未來的情況。電視畫面中的那個時候，他正在用時光電視，看著未來的情況……

當 $N \geq 2, d \geq 2$ 的時候， $\Pi_ \mathcal{H}(N) \leq \sum_{i=0}^u0z1t8os\binom{N}{i} \leq N^d \cdot (\frac{e}u0z1t8os)^d$

$P(|E_{in}-E_{out} |> \epsilon )\ \leq\ 4 N^d \cdot (\frac{e}u0z1t8os)^d\exp(-\frac{N\epsilon^2}{8})$

基于vc維得到的泛化邊界（model complexity） $\epsilon =\sqrt{\frac{8d\ln\frac{2Ne}u0z1t8os+8\ln\frac{4}{\delta}}{N}}$

不是一味的追求經(jīng)驗誤差最小化

未知目標分布 P(y|x) 包含 f(x)+noise

對于不同的學習任務(wù)（分類，回歸，..）使用不同的損失函數(shù)（loss function）才能正確的解答。

X的樣本數(shù)量為N

$h(X)=(Xw)=y$

$(Xw)=y \overset{X \ \mathrm{invertible}}{\Leftrightarrow} w=X^{-1}y$

打散（shattering）就是我們給它任何一種ooxx組合 $y$ ，都要能夠做到 $(Xw)=y$ 也就是一條直線正確分類。

只要 $X$ 可以求逆就能求出與之相對應(yīng)的 $w$ ，全部的 $2^{N}$ 種組合都可以使用這種做法。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

西瓜書擴展_學習理論

西瓜書擴展_學習理論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

西瓜書擴展_學習理論

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av