日日操男人天堂aV,丝袜诱惑在线播放一区

1?幾點(diǎn)收獲與思考

在監(jiān)督學(xué)習(xí)中，訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)被看作是依聯(lián)合概率密度分布 $P(X,Y)$ 獨(dú)立同分布產(chǎn)生的。
監(jiān)督學(xué)習(xí)中，概率模型是生成模型，非概率模型是判別模型。而條件概率分布和與函數(shù)可以相互轉(zhuǎn)化。所以，概率模型和非概率模型的區(qū)別在于模型的內(nèi)在結(jié)構(gòu)。這里 “模型的內(nèi)在結(jié)構(gòu)” 應(yīng)該指的是能否還原出聯(lián)合概率分布。
核方法是用通過(guò)定義核函數(shù)直接計(jì)算映射之后再特征空間的內(nèi)積。
極大似然估計(jì)等價(jià)于當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化策略。貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)是當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略。
結(jié)構(gòu)風(fēng)險(xiǎn)最小化是在經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的基礎(chǔ)上增加表示模型復(fù)雜度的正則化項(xiàng)以防止過(guò)擬合。
學(xué)習(xí)方法的泛化能力分析是通過(guò)理論研究泛化誤差的概率上界進(jìn)行的，往往比較復(fù)雜。在現(xiàn)實(shí)中一般使用測(cè)試誤差來(lái)評(píng)價(jià)，但是結(jié)果有可能不可靠。
生成方法的學(xué)習(xí)收斂速度更快，而判別方法的學(xué)習(xí)準(zhǔn)確率更高。
（why？希望能在后續(xù)的學(xué)習(xí)中逐漸理解）

2?習(xí)題

習(xí)題1.1?說(shuō)明伯努利模型的極大似然估計(jì)以及貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素。伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。假設(shè)觀測(cè)到伯努利模型 $n$ 次獨(dú)立的數(shù)據(jù)生成結(jié)果，其中 $k$ 次的結(jié)果為 1，這時(shí)可以使用極大似然估計(jì)或貝葉斯估計(jì)來(lái)估計(jì)結(jié)果為 1 的概率。

解：
（1）伯努利模型
??伯努利模型是定義在取值為 0 與 1 的隨機(jī)變量上的概率分布。對(duì)于隨機(jī)變量 $X$ 有，參數(shù)為 $p(0<p<1)$ ，它分別以概率 $p$ 和 $1-p$ 取 1 和 0 為值。隨機(jī)變量 $X$ 的概率分布函數(shù)即模型可以寫為 $P(X=x|p)=\left\{\begin{align} & p^x(1-p)^{1-x},\ x=0,1;\\ & 0 \qquad\qquad\quad,\ \text{else}. \\ \end{align} \right.$ ??伯努利模型的假設(shè)空間為 $\mathcal{F}=\{P|P(X=x|p), p\in [0,1]\}$ （2）伯努利模型的極大似然估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型：伯努利模型
??策略：經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化就等價(jià)于極大似然估計(jì)。
??算法：極大似然估計(jì)： $\hat{p}=\arg\max\limits_p L(p|X)$ ??其中 $L(p|X)$ 為樣本的似然函數(shù)。
（3）伯努利模型的貝葉斯估計(jì)中的統(tǒng)計(jì)學(xué)習(xí)方法三要素
??模型：伯努利模型
??策略：結(jié)構(gòu)風(fēng)險(xiǎn)最小化。當(dāng)模型是條件概率分布、損失函數(shù)是對(duì)數(shù)損失函數(shù)、模型復(fù)雜度由模型的先驗(yàn)概率表示時(shí)的結(jié)構(gòu)風(fēng)險(xiǎn)最小化等價(jià)于貝葉斯估計(jì)中的最大后驗(yàn)概率估計(jì)。
??算法：最大后驗(yàn)概率估計(jì)： $\hat{p}=\arg\max\limits_p \hat P(p|X)$ ??其中 $\hat P(p|X)$ 為后驗(yàn)概率分布。

習(xí)題1.2?通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化推導(dǎo)極大似然估計(jì)。證明模型是條件概率分布，當(dāng)損失函數(shù)是對(duì)數(shù)損失函數(shù)時(shí)，經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)。

（參考了給出的解答思路）

解答思路

根據(jù)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化定義，寫出目標(biāo)函數(shù)；
根據(jù)對(duì)數(shù)損失函數(shù)，對(duì)目標(biāo)函數(shù)進(jìn)行整理；
根據(jù)似然函數(shù)定義和極大似然估計(jì)的一般步驟，得到結(jié)論。

解：
??已知模型是條件概率分布，損失函數(shù)為對(duì)數(shù)損失函數(shù)。設(shè)條件概率分布為 $P_\theta(Y|X)$ （離散為概率分布列 $p(x;\theta)$ ，連續(xù)為概率密度函數(shù) $f(x;\theta)$ ），樣本集 $D=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}$ ， $N$ 為樣本數(shù)，對(duì)數(shù)損失函數(shù)為： $L(Y,P(Y|X))=-\log P(Y|X)$ ??經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化求解最優(yōu)模型就是求解最優(yōu)化問(wèn)題： $\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i))$ 其中， $\mathcal{F}$ 是假設(shè)空間。
??結(jié)合上述兩個(gè)式子，可以得到 $\begin{align} \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = & \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} \big(-\log P(y_i|x_i)\big) \\ = & \ \frac{1}{N} \max_\limits{f\in\mathcal{F}} \big(\log \prod\limits_{i=1}^{N} P(y_i|x_i)\big)\\ \end{align}$ ??根據(jù)似然函數(shù)的定義有 $L(\theta)=L(x_1,x_2,\dots ,x_N;\theta)=\prod\limits_{i=1}^{N} P_{\theta} (y_i|x_i)$ ，再結(jié)合最大似然估計(jì)的一般過(guò)程，不難發(fā)現(xiàn) $\arg\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = \frac{1}{N} \arg \max_\limits{f\in\mathcal{F}} \big(\log L(\theta)\big)$ 即經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化等價(jià)于極大似然估計(jì)，Q.E.D