182大香蕉,女同AV一区二区三区

????????正如本書(shū)其他章節(jié)所描述的那樣，經(jīng)驗(yàn)和理論的結(jié)果通常對(duì)生成分類(lèi)器的半監(jiān)督學(xué)習(xí)有利。然而，文獻(xiàn)也顯示存在半監(jiān)督學(xué)習(xí)不能產(chǎn)生好的生成式分類(lèi)器的情況。我們并不是簡(jiǎn)單地關(guān)注那些產(chǎn)生高分類(lèi)誤差的分類(lèi)器——這在監(jiān)督學(xué)習(xí)中也是可能發(fā)生的。我們關(guān)注的是：通常情況下，我們最好只丟棄未標(biāo)記的數(shù)據(jù)并使用監(jiān)督方法，而不是采用半監(jiān)督方法。因此我們擔(dān)心額外的非標(biāo)記數(shù)據(jù)反而降低了分類(lèi)器表現(xiàn)的尷尬情況。

????????這怎么可能呢？一般我們不會(huì)認(rèn)為丟棄數(shù)據(jù)更好；我們?cè)趺茨芾斫獍氡O(jiān)督學(xué)習(xí)的這一面呢？本章我們聚焦于半監(jiān)督學(xué)習(xí)中模型擬合誤差的影響，同時(shí)展示模型誤差是怎么導(dǎo)致性能下降的。

4.1?非標(biāo)記數(shù)據(jù)提高還是降低分類(lèi)器性能？

????????也許我們有理由相信任何樣本數(shù)量的增加大體上都會(huì)提高分類(lèi)器的性能（標(biāo)記的或非標(biāo)記的）：數(shù)據(jù)越多，越好。事實(shí)上，現(xiàn)有文獻(xiàn)提出了將正值歸因于未標(biāo)記數(shù)據(jù)的實(shí)證結(jié)果；其他章節(jié)則給出了其中一些結(jié)果。O’Neill?宣稱(chēng) “未分類(lèi)觀測(cè)肯定不應(yīng)被拋棄”（O’Neill, 1978）似乎被理論研究證實(shí)了，最著名的是Castelli（1994）、Castelli 和Cover（1995、1996）以及 Ratsaby 和 Venkatesh（1995）。

????????這些先前的理論研究的要點(diǎn)就是這一點(diǎn)。假設(shè)樣本 $(x_i,y_i)$ 是根據(jù)分布 $p(X_v,Y_v)$ 分布的隨機(jī)化變量 $X_v$ 和 $Y_v$ 的實(shí)例。假設(shè)我們學(xué)習(xí)一個(gè)參數(shù)模型 $p(X_v,Y_v|\theta)$ ，對(duì)于 $\theta$ 的某個(gè)值使得 $p(X_v,Y_v|\theta)$ 等于 $p(X_v,Y_v)$ ——也就是說(shuō)，“模型是正確的”，在這個(gè)意義上它可以精確地表示 $p(X_v,Y_v)$ 。然后，隨著越來(lái)越多的數(shù)據(jù)被收集（標(biāo)記或未標(biāo)記），可以確保一個(gè)分類(lèi)錯(cuò)誤的預(yù)期減少。此外，標(biāo)記數(shù)據(jù)在減少分類(lèi)誤差方面比未標(biāo)記數(shù)據(jù)更有效。在這些樂(lè)觀的結(jié)果中，只要有可能，就可以使用未標(biāo)記的數(shù)據(jù)。然而，對(duì)當(dāng)前經(jīng)驗(yàn)結(jié)果的更詳細(xì)分析確實(shí)揭示了未標(biāo)記數(shù)據(jù)的一些令人費(fèi)解的方面。例如，Shahshahani和Landgrebe（1994）報(bào)告了一些實(shí)驗(yàn)，其中未標(biāo)記的數(shù)據(jù)降低了帶有高斯變量的樸素貝葉斯分類(lèi)器的性能。他們將這種情況歸因于與建模假設(shè)的偏差，例如離群值和“未知類(lèi)的樣本”——他們甚至建議應(yīng)小心使用未標(biāo)記的樣本，并且僅當(dāng)標(biāo)記的數(shù)據(jù)單獨(dú)產(chǎn)生較差的分類(lèi)器時(shí)使用。另一個(gè)代表性的例子是 Nigam 等人的工作（2000）關(guān)于文本分類(lèi)，分類(lèi)程序有時(shí)顯示性能下降。他們提出了幾個(gè)可能的困難來(lái)源：學(xué)習(xí)算法中的數(shù)值問(wèn)題，特征空間中的自然簇與實(shí)際標(biāo)簽之間的不匹配。其他例子很容易找到。Baluja（1999）使用樸素貝葉斯和樹(shù)增強(qiáng)樸素貝葉斯（TAN）分類(lèi)器（Friedman et al.，1997）檢測(cè)圖像中的面，但也存在未標(biāo)記數(shù)據(jù)降低性能的情況。Bruce（2001）使用標(biāo)記和未標(biāo)記的數(shù)據(jù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類(lèi)器，從樸素貝葉斯分類(lèi)器到完全連接的網(wǎng)絡(luò)；樸素貝葉斯分類(lèi)器顯示出較差的分類(lèi)性能，事實(shí)上，隨著使用更多未標(biāo)記的數(shù)據(jù)性能降低了（更復(fù)雜的網(wǎng)絡(luò)也顯示性能下降，因?yàn)樘砑恿宋礃?biāo)記的樣本）。最后一個(gè)例子：Grandvalet和Bengio（2004）描述了將異常值添加到高斯模型中的實(shí)驗(yàn)，導(dǎo)致生成分類(lèi)器在未標(biāo)記數(shù)據(jù)的情況下性能下降。

????????圖 4.1 顯示了許多實(shí)驗(yàn)，證實(shí)了這一有趣證據(jù)。它們都涉及分類(lèi)變量的二元分類(lèi)；在所有這些屬性中， $X_v$ 實(shí)際上是一個(gè)包含多個(gè)屬性 $\text{[math]}$ $X_{vi}$ 的向量。在所有的試驗(yàn)中生成式分類(lèi)器均是利用?EM?算法的最大似然學(xué)習(xí)的（第 2,3?章）。圖 4.1（a）?顯示隨著未標(biāo)記數(shù)據(jù)量的增加而學(xué)習(xí)的樸素貝葉斯分類(lèi)器的性能（對(duì)于固定數(shù)量的標(biāo)記數(shù)據(jù)），其中數(shù)據(jù)分布遵守樸素貝葉斯假設(shè)。也就是說(shuō)，這些數(shù)據(jù)是由隨機(jī)生成的統(tǒng)計(jì)模型生成的，這些模型符合樸素貝葉斯分類(lèi)器的獨(dú)立性假設(shè)。在樸素貝葉斯模型中，所有特征? $X_v$ 在給定類(lèi)別? $Y_v$ 時(shí)相互獨(dú)立： $p(X_v,Y_v)=p(Y_v)\prod p(X_{vi})$ 。結(jié)果簡(jiǎn)單：數(shù)據(jù)越多，模型性能越好。圖 4.1（b）展示了一幅完全不同的畫(huà)面。這里學(xué)習(xí)了一系列的樸素貝葉斯分類(lèi)器，數(shù)據(jù)根據(jù) TAN 假設(shè)分布：每個(gè)屬性直接依賴(lài)于類(lèi)，最多依賴(lài)于另一個(gè)屬性-這些屬性形成依賴(lài)關(guān)系的“樹(shù)”，因此名稱(chēng)樹(shù)增強(qiáng)樸素貝葉斯（Friedman et al.，1997）。也就是說(shuō)，在圖4.1（b）中，“模型不正確”。圖4.1（b）中的圖表表明，隨著未標(biāo)記數(shù)據(jù)數(shù)量的增加，性能下降。

圖4.1（c）描述了一個(gè)更復(fù)雜的場(chǎng)景。再次，根據(jù) $TAN$ （樹(shù)增強(qiáng)樸素貝葉斯）假設(shè)，利用分布的數(shù)據(jù)學(xué)習(xí)了一系列樸素貝葉斯分類(lèi)器，因此“模型是錯(cuò)誤的”。請(qǐng)注意，其中兩個(gè)圖顯示錯(cuò)誤減少的趨勢(shì)（隨著未標(biāo)記樣本的數(shù)量增加），而另一個(gè)圖顯示錯(cuò)誤增加的趨勢(shì)。在這里，未標(biāo)記的數(shù)據(jù)可以在存在一些標(biāo)記的樣本時(shí)提高性能，但在添加到更多標(biāo)記的樣本時(shí)，未標(biāo)記的數(shù)據(jù)會(huì)降低性能。Cozman和Cohen（2002）描述了一組更大的人工數(shù)據(jù)實(shí)驗(yàn)。

????????圖4.1（d）顯示了使用成人分類(lèi)問(wèn)題的不同標(biāo)記和未標(biāo)記數(shù)據(jù)集組合學(xué)習(xí)樸素貝葉斯分類(lèi)器的結(jié)果（使用UCI存儲(chǔ)庫(kù)2中提供的培訓(xùn)和測(cè)試數(shù)據(jù)集）。我們發(fā)現(xiàn)，當(dāng)標(biāo)記的數(shù)據(jù)集很小（30個(gè)標(biāo)記的數(shù)據(jù)）時(shí)，添加未標(biāo)記的數(shù)據(jù)可以改善分類(lèi)，但隨著標(biāo)記的數(shù)據(jù)集變大，性能會(huì)降低。因此，這個(gè)實(shí)際數(shù)據(jù)集的屬性導(dǎo)致類(lèi)似于圖4.1（c）的行為。

????????最后，圖4.1（e）和4.1（f）顯示了使用基準(zhǔn)數(shù)據(jù)中的數(shù)據(jù)集8學(xué)習(xí)樸素貝葉斯和 $TAN$ （樹(shù)增強(qiáng)樸素貝葉斯）分類(lèi)器的結(jié)果（第21章）。這兩個(gè)圖顯示的趨勢(shì)與前一個(gè)圖中顯示的趨勢(shì)相似。

圖4.1（a）naive bayes分類(lèi)器從根據(jù)樸素貝葉斯假設(shè)分布的數(shù)據(jù)中學(xué)習(xí)，具有10個(gè)屬性；具有2到4個(gè)值的屬性。（b）樸素貝葉斯分類(lèi)器從根據(jù)具有10個(gè)屬性的tan假設(shè)分布的數(shù)據(jù)中學(xué)習(xí)。（c）樸素貝葉斯分類(lèi)器從根據(jù)具有49個(gè)屬性的tan假設(shè)分布的數(shù)據(jù)中學(xué)習(xí)。（d）從成人數(shù)據(jù)庫(kù)生成的樸素貝葉斯分類(lèi)器。（e）從數(shù)據(jù)集secstr生成的樸素貝葉斯分類(lèi)器，基準(zhǔn)數(shù)據(jù)（第21章）。（f）數(shù)據(jù)集secstr生成的 TAN 分類(lèi)器，基準(zhǔn)數(shù)據(jù)（第21章）。在所有的圖中，點(diǎn)匯總了每個(gè)分類(lèi)器對(duì)測(cè)試數(shù)據(jù)的十次運(yùn)行（條形圖覆蓋了30%到70%的數(shù)據(jù)）。

4.2?理解非標(biāo)記數(shù)據(jù)：漸近偏差

????????我們可以將前一節(jié)總結(jié)如下。首先，當(dāng)所學(xué)的生成分類(lèi)器基于“正確”模型時(shí)，可以保證從未標(biāo)記的數(shù)據(jù)中獲益。第二，有強(qiáng)有力的經(jīng)驗(yàn)證據(jù)表明，未標(biāo)記的數(shù)據(jù)可能會(huì)降低分類(lèi)器的性能。當(dāng)為特定分類(lèi)器采用的建模假設(shè)與生成數(shù)據(jù)的分布特征不匹配時(shí)，可能會(huì)出現(xiàn)性能下降。這是令人不安的，因?yàn)橥ǔ：茈y（如果不是不可能的話(huà)）事先保證某個(gè)特定的統(tǒng)計(jì)模型是“正確的”模型。

????????了解半監(jiān)督學(xué)習(xí)的變數(shù)的關(guān)鍵是研究漸近偏差。在本節(jié)中，我們提出了一個(gè)直觀的討論，將更正式的分析留給第4.3節(jié)。我們?cè)谶@里和本章的其余部分的論點(diǎn)集中在通過(guò)最大似然方法學(xué)習(xí)的生成分類(lèi)器上。由于我們的大多數(shù)論點(diǎn)是漸進(jìn)的，同樣的原理也適用于最大后驗(yàn)估計(jì)和其他貝葉斯估計(jì)，因?yàn)樗鼈兊臐u進(jìn)行為由似然函數(shù)控制（Degroot，1970）。

????????爭(zhēng)論的要點(diǎn)如下。正如我們?cè)诘?.3節(jié)中正式展示的，對(duì)于同一分類(lèi)器用標(biāo)記數(shù)據(jù)產(chǎn)生的最大似然估計(jì)量的漸近偏差可以不同于用未標(biāo)記數(shù)據(jù)產(chǎn)生的最大似然估計(jì)量的漸近偏差。然后假設(shè)一個(gè)人學(xué)習(xí)了一個(gè)帶有合理數(shù)量標(biāo)記數(shù)據(jù)的分類(lèi)器。所得到的分類(lèi)器可能相對(duì)接近其漸近極限，從而產(chǎn)生一些分類(lèi)誤差。現(xiàn)在假設(shè)一個(gè)人獲取了大量未標(biāo)記的數(shù)據(jù)，并用所有可用的數(shù)據(jù)學(xué)習(xí)相同的分類(lèi)器?，F(xiàn)在，分類(lèi)器可能趨向于非標(biāo)記數(shù)據(jù)的漸近極限，并且這個(gè)限制分類(lèi)器的性能可能比第一個(gè)“標(biāo)記”限制分類(lèi)器的性能更差。最終的結(jié)果是，通過(guò)添加大量未標(biāo)記的樣本，可以生成一個(gè)更差的分類(lèi)器。

????????無(wú)論多么令人費(fèi)解，這種情況甚至可以在看似無(wú)辜的情況下找到，并且不需要復(fù)雜的建模錯(cuò)誤。我們現(xiàn)在討論一個(gè)簡(jiǎn)單的示例，其中未標(biāo)記的數(shù)據(jù)會(huì)降低生成分類(lèi)器的性能；這個(gè)（虛構(gòu)的）示例可能有助于讀者理解未標(biāo)記數(shù)據(jù)有時(shí)產(chǎn)生的意外影響。

????????考慮下面的分類(lèi)問(wèn)題。我們有興趣根據(jù)兩個(gè)特征預(yù)測(cè)嬰兒在懷孕20周時(shí)的性別（G =?Boy 或?G = Girl）：母親在懷孕前三個(gè)月是否想吃巧克力（Ch = Yes 或Ch = No），以及母親體重增加是否大于或小于15磅（W = More 或 W = Less）。假設(shè) W 和 G 在 Ch 上是獨(dú)立的，也就是說(shuō)，域中的直接依賴(lài)關(guān)系用圖 $G\rightarrow Ch \rightarrow W$ 表示，從而導(dǎo)致聯(lián)合分布的分解： $P(G,Ch,W)=P(G)P(Ch|G)P(W|Ch)$ 。同時(shí)假設(shè)數(shù)據(jù)是根據(jù)

$P(G=boy) = 0.5$ ,

$P(Ch=No|G=Boy)=0.1$ ,

$P(Ch=No|G=Girl)=0.8$ ,

$P(W=Less|Ch=No)=0.7$ ,

$P(W=Less|Ch=Yes)=0.2$ .

注意，根據(jù)上述分布，我們可以計(jì)算 W 給定 G 的概率，得到

$P(W=Less|G=Boy)=0.25$ ,

$P(W=Less|G=Girl)=0.6$ .

為了在給定體重增加和巧克力渴望將嬰兒的性別分為兩類(lèi)，我們計(jì)算了g給定w和ch的后驗(yàn)概率（根據(jù)上述獨(dú)立性，僅取決于ch）：

$P(G=Girl|Ch=No)=0.89$ ,

$P(G=Boy|Ch=No)=0.11$ ,

$P(G=Girl|Ch=Yes)=0.18$ ,

$P(G=Boy|Ch=Yes)=0.82$ .

根據(jù)后驗(yàn)概率，最優(yōu)分類(lèi)規(guī)則（下一節(jié)討論的貝葉斯規(guī)則）是

if Ch = No, choose G = Girl; if Ch = Yes, choose G = Boy。

這個(gè)問(wèn)題的Bayes錯(cuò)誤率（即Bayes規(guī)則下的錯(cuò)誤概率）可以很容易地計(jì)算出來(lái)，并且發(fā)現(xiàn)大約為15%。

????????假設(shè)我們錯(cuò)誤地為這個(gè)問(wèn)題假設(shè)了一個(gè)樸素的貝葉斯模型；也就是說(shuō)，我們假設(shè)依賴(lài)關(guān)系是由圖 $Ch\leftarrow G\rightarrow W$ 表示的。因此，我們錯(cuò)誤地假設(shè)，給定性別，體重增加與巧克力渴求無(wú)關(guān)；因此，我們錯(cuò)誤地假設(shè)，聯(lián)合概率分布的因式分解可以寫(xiě)成 $P(G,Ch,W)=P(G)P(Ch|G)P(W|G)$ 。假設(shè)一個(gè)朋友給了我們 $P(Ch|G)$ 的“真”值，所以我們不需要估計(jì)這些量。我們希望使用最大似然技術(shù)估計(jì) $P(G)$ 和 $P(W|G)$ 。

????????在只有標(biāo)簽數(shù)據(jù)可用的情況下，估計(jì)量是通過(guò)相對(duì)頻率獲得的，零偏差和方差與數(shù)據(jù)庫(kù)的大小成反比。因此，即使是一個(gè)相對(duì)較小的數(shù)據(jù)庫(kù)也會(huì)產(chǎn)生對(duì)概率值的極好估計(jì)。 $P(G)$ 的估計(jì)值很可能接近0.5；同樣， $P(W=Less|G=Girl)$ 的估計(jì)值將接近0.6， $P(W=Less|G=Boy)$ 的估計(jì)值將接近0.25。利用這些估計(jì)參數(shù)和假設(shè)的聯(lián)合概率分布分解，G的后驗(yàn)概率可能接近

表 4.1

????????假設(shè)我們采用這些估計(jì)值，并使用G的最大后驗(yàn)概率值對(duì)輸入的觀測(cè)值進(jìn)行分類(lèi)。即使來(lái)自“真”后驗(yàn)概率的偏差不為零，這將產(chǎn)生相同的最佳貝葉斯規(guī)則4.1；也就是說(shuō)，“標(biāo)記”分類(lèi)器很可能產(chǎn)生最小分類(lèi)誤差。

????????現(xiàn)在假設(shè)沒(méi)有標(biāo)記的數(shù)據(jù)是可用的。隨著越來(lái)越多的未標(biāo)記樣本的收集，標(biāo)記樣本的數(shù)量與樣本總數(shù)之間的比率變?yōu)榱?。在?.3節(jié)中，我們展示了如何計(jì)算這種情況下的漸近估計(jì)。在這種情況下，以閉合形式進(jìn)行的計(jì)算得出以下漸近估計(jì)： $P(G=Boy)=0.5,P(W=Less|G=Girl)=0.78,P(W=Less|G=boy)=0.07$ 。因此，G的一個(gè)后驗(yàn)概率趨向于

表 4.2?

在這里，我們看到，在這種情況下，預(yù)測(cè)已經(jīng)從最佳狀態(tài){Ch =Yes,W = Less}改變了；我們預(yù)測(cè) $\{G=Girl \}$ ?而不是? $\{G=Boy \}$ 。我們可以輕松地獲得期望誤差率為 22%，增加了 7%。

????????發(fā)生什么事了？標(biāo)記的數(shù)據(jù)將我們帶到一個(gè)特定的漸近極限，而未標(biāo)記的數(shù)據(jù)將我們帶到一個(gè)明顯的極限。在第4.3節(jié)中，我們將看到，在收集未標(biāo)記的樣本時(shí)，這種轉(zhuǎn)換是平滑的。由于后一個(gè)限值（從分類(lèi)的角度來(lái)看）比前一個(gè)限值更差，因此逐漸添加未標(biāo)記樣本會(huì)降低性能。

????????再次考慮圖4.1（a）。這里的圖表說(shuō)明了“模型正確”的情況：標(biāo)記和未標(biāo)記的數(shù)據(jù)導(dǎo)致相同的漸近估計(jì)。圖4.1中的其他圖說(shuō)明了“模型不正確”的情況。在這些情況下，隨著越來(lái)越多的未標(biāo)記數(shù)據(jù)可用，漸進(jìn)估計(jì)傾向于“未標(biāo)記”分類(lèi)器-根據(jù)標(biāo)記數(shù)據(jù)的數(shù)量，圖從高于或低于此“未標(biāo)記”限值開(kāi)始。

4.3?生成半監(jiān)督學(xué)習(xí)的漸近分析

????????我們首先在本節(jié)中收集一些假設(shè)，以重復(fù)前面章節(jié)中已經(jīng)提到的定義為代價(jià)。這里的目標(biāo)是對(duì)特征? $X_v$ ?的向量進(jìn)行分類(lèi)。 $X_v$ 的每個(gè)實(shí)例? $x$ ?是一個(gè)樣本。存在一個(gè)類(lèi)變量 $Y_v$ ，它在一組標(biāo)簽中取值。為了簡(jiǎn)化討論，我們假設(shè)? $Y_v$ 是一個(gè)取值為 -1?和 +1?的二值變量。如果我們確切地知道聯(lián)合分布? $p(X_v,Y_v)$ ，優(yōu)化規(guī)則會(huì)是選擇一個(gè)有最大后驗(yàn)概率的標(biāo)簽；這就是?貝葉斯?規(guī)則，它產(chǎn)生的分類(lèi)誤差最小，稱(chēng)為貝葉斯誤差（Devroye等人，1996年）。使用數(shù)據(jù)庫(kù)中的 $n$ 個(gè)獨(dú)立樣本學(xué)習(xí)分類(lèi)器；有? $l$ ?個(gè)標(biāo)記樣本和 $u$ ?個(gè)非標(biāo)記樣本（ $n = l+u$ ），在不喪失一般性的情況下，我們假設(shè)樣品是按序先來(lái)先標(biāo)記的。我們假設(shè)一個(gè)樣本有隱藏其標(biāo)簽的概率（ $1 - \lambda$ ）（相同的分布 $p(X_v|Y_v)$ 生成標(biāo)記的樣本和未標(biāo)記的樣本）。

????????考慮采用生成模型作為聯(lián)合分布 $p(X_v,Y_v)$ 的表示。假設(shè)一個(gè)使用參數(shù) $\theta$ 的參數(shù)化表示 $p(X_v,Y_v|\theta)$ ，以及一個(gè)包含可以產(chǎn)生估計(jì)? $\hat\theta$ ?的訓(xùn)練樣本的數(shù)據(jù)庫(kù)。所有樣本 $x_i$ 都被收集在由 $X$ 表示的數(shù)據(jù)庫(kù)中，所有樣本? $y_i$ 都被收集在由? $Y$ 表示的數(shù)據(jù)庫(kù)中。我們思考 "插件“?分類(lèi)：假設(shè) $p(Y_v|X_v,\hat\theta)$ 是 $Y_v$ 的正確后驗(yàn)密度，計(jì)算最優(yōu)規(guī)則。

????????在本章中，我們用 $p(\cdot)$ 表示生成數(shù)據(jù)的分布/密度，以及用 $P(\cdot|\theta)$ 學(xué)習(xí)分布的統(tǒng)計(jì)模型。對(duì)這些分布/密度進(jìn)行漸進(jìn)分析需要幾個(gè)平滑度和可測(cè)度性假設(shè)，并貫穿始終。通常用于生成估計(jì)的兩個(gè)原則是最大似然性和最大化后驗(yàn)損失（Degroot，1970年）；使用這些原則計(jì)算估計(jì)值通常需要迭代方法，其中最流行的是EM算法（Dempster等人，1977）。生成模型非常適合最大似然法的半監(jiān)督學(xué)習(xí)，因?yàn)樗迫环ㄖ苯邮芪礃?biāo)記數(shù)據(jù)的影響，而判別模型相反，其中相關(guān)似然法不受未標(biāo)記數(shù)據(jù)的影響（Zhang和Oles，2000年）。

????????我們認(rèn)為，估計(jì) $\hat\theta$ 是通過(guò)最大化似然 $L(\theta)=\prod\nolimits_{i=1}^l p(x_i,y_i|\theta)\prod\nolimits_{j=l+1}^n p(x_j|\theta)$ 產(chǎn)生的。當(dāng)樣本是未標(biāo)記的時(shí)候，似然函數(shù)記為一個(gè)混合? $p(X_v|Y_v=+1,\theta)p(Y_v=+1|\theta)+p(X_v|Y_v=-1,\theta)p(Y_v=-1|\theta)$ ；我們假設(shè)這些混合是可識(shí)別的（Redner和Walker，1984）。

????????我們使用以下已知結(jié)果（Berk, 1966; Huber, 1967; White, 1982）?？紤]一個(gè)參數(shù)模型? $p(Z|\theta)$ ?和一系列最大似然估計(jì)值? $\hat\theta_n$ ，通過(guò)最大化? $\sum\nolimits_{i=1}^n log(z_i|\theta)$ ?獲得，隨著獨(dú)立樣本 $z_i$ 數(shù) $n$ 的增加，所有樣本均按 $p(Z)$ 均勻分布。然后? $\hat\theta_n\rightarrow \theta^*$ 當(dāng) $n\rightarrow \infty$ ?對(duì)于? $\theta^*$ 的開(kāi)領(lǐng)域中的? $\theta$ ，這兒? $\theta^*$ 最大化? $E_{p(Z)}[log p(Z|\theta)]$ 。如果 $\theta^*$ 是參數(shù)空間的內(nèi)部，那么估計(jì)是漸進(jìn)高斯的。擴(kuò)展上述半監(jiān)督學(xué)習(xí)的結(jié)果我們有：

定理 4.1?最大似然估計(jì)的極限值 $\theta^*$ 為：

$arg \mathop{}_{\theta}^{max} (\lambda E_{p(X_v,Y_v)}[logp(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v)}[logp(X_v|\theta)])$ ? （4.2）

證明：在半監(jiān)督學(xué)習(xí)中，樣本是概率為 $\lambda$ 的 $(X_v,Y_v)$ 和概率為 $(1-\lambda)$ 的 $X_v$ 的實(shí)例。用 $\tilde{Y} _v$ 表示一個(gè)隨機(jī)變量，假設(shè) $\tilde{Y} _v$ 值與“未標(biāo)記”值 $0$ 相同。我們有 $p(\tilde{Y} _v \neq 0)=\lambda$ 。實(shí)際上觀測(cè)到的樣本是? $(X_v,\tilde{Y} _v)$ ?的實(shí)例，因此

$\tilde{p} =(X_v,\tilde{Y} _v=y)=(\lambda p(X_v,Y_v=y))^{I_{\{\tilde{Y} _v \neq 0 \} }(y)}((1-\lambda)p(X_v))^{I_{\{\tilde{Y} _v = 0 \}}(y)}$ ，

這兒? $p(X_v)$ 是一個(gè)混合密度。相應(yīng)地， $(X_v,\tilde{Y} _v)$ 采用的參數(shù)模型形式相同：

$\tilde{p} =(X_v,\tilde{Y} _v=y|\theta)=(\lambda p(X_v,Y_v=y|\theta))^{I_{\{\tilde{Y} _v \neq 0 \} }(y)}((1-\lambda)p(X_v|\theta))^{I_{\{\tilde{Y} _v = 0 \} }(y)}$ 。

最大化? $E_{(\tilde{p} (X_v,\tilde{Y} _v)}[log\tilde{p} (X_v,\tilde{Y} _v|\theta)]$ ?的值? $\theta^*$ ?為

$arg\mathop{}_{\theta}^{max}E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta)) +I_{\{\tilde{Y}=0 \} }(\tilde{Y} _v)(log(1-\lambda )p(X_v|\theta)) ]$ 。

因此? $\theta^*$ ?最大化

$\beta + E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta))] +E_{\tilde{p}(X_v,\tilde{Y}_v) }[I_{\{\tilde{Y}=0 \} }(\tilde{Y} _v)(logp(X_v|\theta))]$ ，這兒? $\beta = \lambda log(\lambda)+(1-\lambda)log(1-\lambda)$ 。因?yàn)? $\beta$ 不依賴(lài)? $\theta$ ，我們只需要最大化后兩項(xiàng)，其等于? $\lambda E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v,Y_v|\theta)|\tilde{Y} _v\neq 0] + (1- \lambda)E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v|\theta)|\tilde{Y} _v= 0]$ 。因?yàn)槲覀冇? $\tilde{p} (X_v,\tilde{Y} _v|\tilde{Y} _v \neq 0)=p(X_v,Y_v)$ 且? $\tilde{p} (X_v|\tilde{Y} _v = 0)=p(X_v)$ ，后一個(gè)表達(dá)式等于? $\lambda E_{p(X_v,Y_v)}[log p(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v}[logp(X_v|\theta)]$ 。我們得到表達(dá)式 4.2 。

????????White（1982）的結(jié)果也可以適應(yīng)半監(jiān)督學(xué)習(xí)的背景，以證明估計(jì)的方差一般隨n的增加而減小。漸近方差取決于fisher信息的倒數(shù)；對(duì)于較大比例的標(biāo)記數(shù)據(jù)，fisher信息通常較大（Castelli，1994；Castelli A封面，1995年，1996年）。

????????表達(dá)式4.2表明，半監(jiān)督學(xué)習(xí)中的目標(biāo)函數(shù)可以漸進(jìn)地視為監(jiān)督學(xué)習(xí)（ $E[log p(X_v,Y_v|\theta)]$ ）和非監(jiān)督學(xué)習(xí)（ $E[log p(X_v|\theta)]$ ）目標(biāo)函數(shù)的“凸”組合。用 $\theta^*_\lambda$ 表示給定 $\lambda$ 的表達(dá)式4.2最大化的 $\theta$ 值。用 $\theta^*_l$ 表示“標(biāo)記的”極限 $\theta^*_1$ ，用 $\theta^*_u$ 表示“未標(biāo)記的”極限 $\theta^*_0$ ，我們注意到，在模型密度的一些附加假設(shè)下，定理4.1和隱式函數(shù)定理可用于證明 $\theta^*_\lambda$ 是 $\lambda$ 的連續(xù)函數(shù)，即解決方案后面的“路徑”是一個(gè)連續(xù)的路徑。

????????現(xiàn)在，我們可以呈現(xiàn)第4.2節(jié)中概述的更正式的論點(diǎn)版本。假設(shè)第一分布族? $p(X_v,Y_v|\theta)$ 包含分布? $p(X_v,Y_v)$ ，就是說(shuō)， $p(X_v,Y_v|\theta_T)=p(X_v,Y_v)$ 對(duì)某一? $\theta_T$ ，因此 “模型是正確的”。當(dāng)滿(mǎn)足這樣一個(gè)條件的時(shí)候， $\theta^*_l=\theta^*_u=\theta_T$ 給定可識(shí)別性，然后? $\theta^*_{\lambda}=\theta_T$ ，對(duì)所有的? $0 < \lambda \leq 1$ ，是一個(gè)極大似然估計(jì)。這種情況下，極大似然估計(jì)是一致的，漸近偏向?yàn)?0，而且分類(lèi)誤差收斂到貝葉斯誤差。由于方差隨著標(biāo)記數(shù)據(jù)和非標(biāo)記數(shù)據(jù)的數(shù)量的增加而降低，兩種數(shù)據(jù)的增加最終都會(huì)獲得“正確”分布和貝葉斯誤差。

????????我們現(xiàn)在研究更加與我們目的相關(guān)的情形，這種情況下分布? $p(X_v,Y_v)$ ?不屬于分布族? $p(X_v,Y_v|\theta)$ 。參數(shù)為? $\theta$ 的分類(lèi)誤差記為? $e(\theta)$ ，且假設(shè)? $e(\theta^*_u) > e(\theta^*_l)$ ?（如 Boy-Girl 和后面展示的其他例子中的）。如果我們觀測(cè)到大量的標(biāo)記樣本，分類(lèi)誤接近于 $e(\theta^*_l)$ 。如果我們后來(lái)收集到更多的樣本，其中大部分都是非標(biāo)記的，我們最終到達(dá)一個(gè)分類(lèi)誤差為接近于? $e(\theta^*_u)$ ?的點(diǎn)。因此，最終結(jié)果是，我們從接近 $e(\theta^*_l)$ 的分類(lèi)誤差開(kāi)始，通過(guò)添加大量未標(biāo)記樣本，分類(lèi)性能下降到 $e(\theta^*_u)$ 。標(biāo)記數(shù)據(jù)集可以被一個(gè)更大的未標(biāo)記數(shù)據(jù)集拉低表現(xiàn)：使用整個(gè)數(shù)據(jù)集的分類(lèi)錯(cuò)誤可以大于僅使用標(biāo)記數(shù)據(jù)的分類(lèi)錯(cuò)誤。

????????總結(jié)，我們有如下結(jié)論。第一，在最大似然估計(jì)下，標(biāo)記和未標(biāo)記數(shù)據(jù)有助于減少半監(jiān)督學(xué)習(xí)中的方差。其次，當(dāng)模型是“正確的”時(shí)，最大似然法對(duì)有標(biāo)記和無(wú)標(biāo)記的數(shù)據(jù)都是漸近無(wú)偏的。第三，當(dāng)模型“不正確”時(shí)，不同的 $\lambda$ 值可能存在不同的漸近偏差。漸近分類(lèi)誤差也可能隨 $\lambda$ 而變化-未標(biāo)記樣本數(shù)量的增加可能導(dǎo)致更大的估計(jì)漸近偏差和更大的分類(lèi)誤差。如果用一組給定的標(biāo)記數(shù)據(jù)獲得的性能比用無(wú)限多的未標(biāo)記樣本獲得的性能更好，那么在某一點(diǎn)上，添加未標(biāo)記數(shù)據(jù)必須降低性能。

4.4 標(biāo)記和非標(biāo)記數(shù)據(jù)的價(jià)值

????????前面的討論暗示存在這樣的可能，即當(dāng)模型“不正確”時(shí)? $e(\theta^*_u)>e(\theta^*_l)$ 。要了解有關(guān)這種現(xiàn)象的一些重要細(xì)節(jié)，請(qǐng)考慮另一個(gè)例子。

????????假設(shè)我們有來(lái)自?xún)蓚€(gè)類(lèi) -1和 +1 的特征? $X_{v1}$ 和? $X_{v2}$ 。我們知道? $(X_{v1},X_{v2})$ 是一個(gè)均值為? $(0,3/2)$ 條件于? $\{Y_v=1 \}$ ， $(3/2,0)$ 條件于? $\{Y_v=+1 \}$ 的高斯向量； $X_{v1}$ 和 $X_{v2}$ 條件于 $Y_v$ ?都等于 1 。我們相信給定? $Y_v$ 是相互獨(dú)立的，但實(shí)際上? $X_{v1}$ 和? $X_{v2}$ 是條件于? $\{Y_v=-1 \}$ ?依賴(lài)的：相關(guān)性? $\rho = E[(X_{v1}-E[X_{v1}|Y_v=+1])(X_{v2}-E[X_{v2}|Y_v=+1])$ ?等于 4/5 （ $X_{v1}$ 和 $X_{v2}$ 條件于 $\{Y_v=-1 \}$ ?獨(dú)立的）。數(shù)據(jù)采樣自一個(gè)? $\eta = P(Y_v=-1)=3/5$ 的分布，但我們不知道這個(gè)概率。如果我們知道? $\rho$ 和? $\eta$ ?的值，我就會(huì)很容易地計(jì)算平面? $X_{v1}\times X_{v2}$ ?上的最優(yōu)分類(lèi)邊界（這個(gè)最優(yōu)分類(lèi)邊界是二次的）。通過(guò)錯(cuò)誤地假設(shè)? $\rho$ 為 0 我們得到一個(gè)近似? $P(Y_v|X_{v1},X_{v2})$ ?的樸素貝葉斯分類(lèi)器。

????????在錯(cuò)誤假設(shè)? $\rho=0$ 的情況下，"最優(yōu)的” 分類(lèi)邊界是線(xiàn)性的： $x_{v2}=x_{v1}+2log((1-\hat\eta)/\hat\eta)/3$ 。有了標(biāo)簽數(shù)據(jù)，我們可以很容易地得到 $\hat\eta$ （一系列伯努利試驗(yàn)）；得到? $\eta^*_l = 3/5$ 分類(lèi)邊界由? $x_{v2}=x_{v1}-0.27031$ ?給出。注意，用分類(lèi)器標(biāo)記的數(shù)據(jù)和生成的naive bayes分類(lèi)器假設(shè)得到的（線(xiàn)性）邊界不是盡可能減小分類(lèi)誤差的最佳線(xiàn)性邊界。我們可以實(shí)際上找到最佳可能的線(xiàn)性邊界的形式為? $x_{v2}=x_{v1} + \gamma$ 。分類(lèi)誤差可以寫(xiě)為一個(gè)二次導(dǎo)數(shù)為正的? $\gamma$ ?的函數(shù)；結(jié)果這個(gè)函數(shù)只有一個(gè)可以數(shù)值解出的最小值（最小化的 $\gamma$ ?為? $-0.45786$ ）。如果我們形如? $x_{v2}=x_{v1}+\gamma$ 的直線(xiàn)集，我看到離最佳的直線(xiàn)越遠(yuǎn)，分類(lèi)誤差越大。圖4.2 展示了從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界和最可能的線(xiàn)性邊界。從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界位于最佳線(xiàn)性邊界的上方。

圖4.2?高斯例子的圖。左邊，混合

p(X_{v1},X_{v2})

、最佳分類(lèi)邊界（二次曲線(xiàn)）和

x_{v2}=x_{v1}+\gamma

形式的最佳可能分類(lèi)邊界的等高線(xiàn)圖。在右側(cè)，相同的等高線(xiàn)圖和最佳線(xiàn)性邊界（下線(xiàn)）、從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界（中線(xiàn)）和從未標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界（上線(xiàn)）。

現(xiàn)在考慮? $\eta^*_u$ ?的計(jì)算，使用標(biāo)記數(shù)據(jù)的漸近估計(jì)。通過(guò)定理 4.1 ，我們得到：

$arg\mathop{}_{\eta \in [0,1]}^{max}\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g_0(x_{v1},x_{v2})log(\eta g_1(x_{v1},x_{v2})+(1-\eta)g_3(x_{v1},x_{v2}))d_{x_{v2}}d_{x_{v1}}$ 其中

$g_0(x_{v1},x_{v2}) = (3/5)g_1(x_{v1},x_{v2})+(2/5)g_3(x_{v1},x_{v2}),$

$g_1(x_{v1},x_{v2})=N([0,3/2]^T,diag[1,1]),$

$g_2(x_{v1},x_{v2})=N([3/2,0]^T,\left[ \begin{matrix} 1 & 4/5 \\ 4/5 & 1\end{matrix}\right]),$

$g_3(x_{v1},x_{v2})=N([3/2,0]^T,diag[1,1]).$

????????這個(gè)二重積分的二次導(dǎo)數(shù)永遠(yuǎn)是負(fù)的（通過(guò)將微分與積分互換可以看出），因此這個(gè)函數(shù)是凸的進(jìn)而只有一個(gè)最大值。我們可以求出關(guān)于 $\eta$ 的二重積分導(dǎo)數(shù)的零點(diǎn)。我們用數(shù)值方法得到這個(gè)值， $\eta^*_u=0.54495$ 。使用這個(gè)估計(jì)，來(lái)自非標(biāo)記數(shù)據(jù)的線(xiàn)性邊界為? $x_{v2}=x_{v1}-0.12019$ 。這條線(xiàn)位于來(lái)自標(biāo)記數(shù)據(jù)的線(xiàn)性邊界的上方，而且，根據(jù)之前的討論，導(dǎo)致一個(gè)比來(lái)自標(biāo)記數(shù)據(jù)的邊界更大的分類(lèi)誤差。從非標(biāo)記數(shù)據(jù)得到的邊界也在圖 4.2 中有所展示。最佳線(xiàn)性邊界的分類(lèi)誤差是 0.06975，而? $e(\eta^*_l)=0.07356$ 、 $e(\eta^*_u)=0.08141$ 。

????????這個(gè)例子表明了以下情況。假設(shè)我們從 $P(Y_v,X_{v1},X_{v2})$ 中收集了大量的數(shù)量為 $l$ ?的標(biāo)記樣本，其中 $\eta = 3/5,\rho=4/5$ 。標(biāo)記的估計(jì)值形成一系列伯努利試驗(yàn)，概率為 $3/5$ ，因此估計(jì)值很快接近 $\eta^*_l$ （ $\hat\eta$ 的方差減少為 $6/(25l)$ ）。如果我們將大量未標(biāo)記的數(shù)據(jù)添加到我們的數(shù)據(jù)中， $\hat\eta$ 接近 $\eta^*_u$ ，分類(lèi)誤差增加。

????????通過(guò)改變? $\eta$ 和 $\rho$ ?的值，我們可以得到其他有趣的情況。例如，如果? $\eta = 3/5,\rho = -4/5$ ，最佳線(xiàn)性邊界是 $x_{v2}=x_{v1}-0.37199$ ，來(lái)自標(biāo)記數(shù)據(jù)的邊界是 $x_{v2}=x_{v1}-0.27031$ ，來(lái)自未標(biāo)記數(shù)據(jù)的邊界是 $x_{v2}=x_{v1}-0.34532$ ；后一個(gè)邊界是“介于”另兩個(gè)之間-額外的未標(biāo)記數(shù)據(jù)會(huì)提高分類(lèi)性能！另一個(gè)例子是，如果 $\eta=3/5,\rho=-1/5$ ，則最佳線(xiàn)性邊界為 $x_{v2}=x_{v1}-0.29044$ ，標(biāo)記數(shù)據(jù)的邊界為 $x_{v2}=x_{v1}-0.27031$ ，未標(biāo)記數(shù)據(jù)的邊界為 $x_{v2}=x_{v1}-0.29371$ 。最好的線(xiàn)性邊界是“介于”另外兩個(gè)邊界之間。在這種情況下，我們通過(guò)將有標(biāo)記和無(wú)標(biāo)記的數(shù)據(jù)按 $\lambda = 0.08075$ 混合，得到最佳可能的線(xiàn)性邊界。

????????到目前為止，我們發(fā)現(xiàn)，獲取越來(lái)越多的未標(biāo)記數(shù)據(jù)不僅會(huì)改變估計(jì)的方差，而且還會(huì)改變它們的平均行為。高斯示例表明，我們不能總是期望標(biāo)記數(shù)據(jù)產(chǎn)生比未標(biāo)記數(shù)據(jù)更好的分類(lèi)器。盡管如此，人們還是會(huì)直觀地期望標(biāo)記的數(shù)據(jù)比未標(biāo)記的數(shù)據(jù)為學(xué)習(xí)過(guò)程提供更多的指導(dǎo)。有沒(méi)有什么可以說(shuō)的（直觀可信和經(jīng)驗(yàn)性可見(jiàn)）更有價(jià)值的標(biāo)簽數(shù)據(jù)狀態(tài)？

????????一個(gè)非正式的論點(diǎn)是。假設(shè)我們有一個(gè)估計(jì)? $\hat\theta$ 。通常情況下， $p(Y_v|X_v)$ 和 $p(Y_v|X_v,\hat\theta)$ 之間預(yù)期Kullback-Leibler發(fā)散值越小，分類(lèi)誤差越小，其中Kullback-Leibler發(fā)散值為 $EKL(\theta)=E[log(p(Y_v|X_v)/p(Y_v|X_v,\theta)]$ 。預(yù)期Kullback-Leibler發(fā)散的直接最小化產(chǎn)生 $EKL(\theta^*_t)$ ，其中 $\theta^*_t=argmax_{\theta}E[logp(Y_v|X_v,\theta)]$ 。現(xiàn)在非標(biāo)記數(shù)據(jù)漸近產(chǎn)生? $EKL(\theta^*_u)$ ，其中? $\theta^*_u =argmax_{\theta}E[logp(X_v|\theta)]$ ；標(biāo)記數(shù)據(jù)漸近產(chǎn)生 $EKL(\theta^*_l)$ ，其中? $\theta^*_l =argmax_{\theta}E[logp(X_v|\theta)]+E[logp(Y_v|X_v,\theta)]$ 。注意以下模式。我們有興趣最小化 $E[logp(Y_v|X_v,\theta)]$ 。雖然標(biāo)記數(shù)據(jù)允許我們最小化這個(gè)數(shù)量加上 $E[logp(X_v|\theta)]$ 的組合，但未標(biāo)記數(shù)據(jù)只允許我們最小化 $E[logp(X_v|\theta)]$ 。當(dāng)模型“不正確”時(shí)，實(shí)際上，最后一個(gè)數(shù)量可能遠(yuǎn)離“真” $E[logp(X_v)]$ ，而且我們從未標(biāo)記的數(shù)據(jù)得到的幫助可能比從標(biāo)記的數(shù)據(jù)得到的幫助要少。這種非正式的論點(diǎn)似乎是“模型不正確”時(shí)，標(biāo)記數(shù)據(jù)比未標(biāo)記數(shù)據(jù)更有價(jià)值的看法的核心。本章中的分析為這種看法增加了以下評(píng)論：通過(guò)嘗試（漸進(jìn)地）最小化預(yù)期值 $E[logp(X_v)|\theta]$ ，甚至可能是不相關(guān)的對(duì)于“真” $E[logp(X_v)]$ ，我們實(shí)際上可能會(huì)被未標(biāo)記的數(shù)據(jù)引入歧途。

4.5 有限樣本效應(yīng)

????????漸進(jìn)分析可以提供對(duì)復(fù)雜現(xiàn)象的洞察，但有限樣本效應(yīng)也很重要。在實(shí)踐中，一個(gè)人可能只有很少的標(biāo)記數(shù)據(jù)，并且從標(biāo)記數(shù)據(jù)得到的估計(jì)θ可能很差，因此添加未標(biāo)記數(shù)據(jù)是一個(gè)積極的舉動(dòng)。這可以解釋如下。少量標(biāo)記樣本可能導(dǎo)致高方差的估計(jì)量，因此可能產(chǎn)生高分類(lèi)誤差（Friedman，1997年）。在這些情況下，即使未標(biāo)記數(shù)據(jù)對(duì)偏差有負(fù)面影響，包含未標(biāo)記數(shù)據(jù)也可能導(dǎo)致方差的大幅減少和分類(lèi)誤差的減少。

????????一般來(lái)說(shuō)，需要估計(jì)的參數(shù)越多，相同數(shù)據(jù)量下估計(jì)量的方差就越大。如果我們有一個(gè)具有大量屬性的分類(lèi)器，并且我們只有幾個(gè)帶標(biāo)簽的樣本，那么估計(jì)量的方差就很大，分類(lèi)性能也很可能很差——那么添加未標(biāo)記的數(shù)據(jù)是一個(gè)合理的操作。再次考慮圖4.1（c）。這里我們有一個(gè)具有49個(gè)屬性的樸素貝葉斯分類(lèi)器。如果我們有相對(duì)大量的標(biāo)記數(shù)據(jù)，我們開(kāi)始接近“標(biāo)記”極限 $e(\theta^*_l)$ ，然后我們觀察向 $e(\theta^*_u)$ 移動(dòng)時(shí)的性能下降。但是，如果我們只有很少的標(biāo)記樣本，那么我們就從非常差的性能開(kāi)始，通過(guò)向 $e(\theta^*_u)$ 移動(dòng)來(lái)減少分類(lèi)錯(cuò)誤。

????????我們注意到，文本分類(lèi)是一個(gè)重要的問(wèn)題，其中許多屬性通常是可用的（通常是數(shù)千個(gè)屬性），并且生成性半監(jiān)督學(xué)習(xí)是成功的（Nigam等人，2000年）

4.6 模型搜索和魯棒性

????????在半監(jiān)督學(xué)習(xí)中，我們必須始終考慮到一個(gè)更精確的統(tǒng)計(jì)模型將從未標(biāo)記的數(shù)據(jù)中獲得顯著收益的可能性。也就是說(shuō)，我們應(yīng)該盡可能地尋找“正確”的模型。事實(shí)上，文獻(xiàn)已經(jīng)描述了固定結(jié)構(gòu)分類(lèi)器（如Naive Bayes）表現(xiàn)不佳，而模型搜索方案可以導(dǎo)致優(yōu)秀分類(lèi)器的情況（Bruce，2001；Cohen等人，2003、2004）。尤其是Cohen等人（2004）討論并比較不同的模型搜索策略與貝葉斯網(wǎng)絡(luò)分類(lèi)器的標(biāo)記和未標(biāo)記數(shù)據(jù)。結(jié)果表明，使用EM算法（Meila，1999）學(xué)習(xí)的Tan分類(lèi)器與簡(jiǎn)單的Naive Bayes相比，有時(shí)可以改善分類(lèi)并消除未標(biāo)記數(shù)據(jù)的性能退化。相反，結(jié)構(gòu)學(xué)習(xí)算法最大化類(lèi)和屬性的可能性，如Friedman（1998）提出的那些算法。而van Allen和Greiner（2000）不太可能以半監(jiān)督的方式找到產(chǎn)生良好分類(lèi)器的結(jié)構(gòu)，因?yàn)樗麄儗?zhuān)注于擬合聯(lián)合分布而不是后驗(yàn)分布（Friedman等人也認(rèn)為）。（1997）純監(jiān)督案件）。基于獨(dú)立性的結(jié)構(gòu)學(xué)習(xí)方法，也稱(chēng)為基于約束或基于測(cè)試的方法，是嘗試學(xué)習(xí)正確模型的另一種選擇。然而，這些方法并不容易適應(yīng)使用未標(biāo)記的數(shù)據(jù)。Cheng等人對(duì)算法進(jìn)行了這樣的修改。（1997）在Cohen等人（2004年），與EM版的tan相比，顯示出無(wú)改善或邊際改善，同時(shí)需要更大的計(jì)算復(fù)雜性。第三種選擇是執(zhí)行結(jié)構(gòu)搜索，試圖直接最大化分類(lèi)精度。Cohen等人（2004）提出使用隨機(jī)結(jié)構(gòu)搜索算法（馬爾可夫鏈蒙特卡羅），接受或拒絕基于其分類(lèi)精度的模型（使用標(biāo)記訓(xùn)練數(shù)據(jù)估計(jì)），同時(shí)學(xué)習(xí)每個(gè)模型的參數(shù)，使用標(biāo)記和未標(biāo)記數(shù)據(jù)的最大似然估計(jì)。該策略對(duì)具有少量標(biāo)記樣本（以及大量未標(biāo)記樣本）的數(shù)據(jù)集產(chǎn)生了非常好的結(jié)果，但對(duì)于具有少量標(biāo)記樣本的數(shù)據(jù)集效果不佳，因?yàn)樗蕾?lài)于搜索過(guò)程中分類(lèi)錯(cuò)誤的估計(jì)。

????????鑒于本章的結(jié)果，未標(biāo)記的數(shù)據(jù)也可用于測(cè)試建模假設(shè)。如果將未標(biāo)記的數(shù)據(jù)添加到現(xiàn)有的標(biāo)記數(shù)據(jù)池會(huì)降低性能，則明顯表明建模假設(shè)不正確。實(shí)際上，我們可以使用O'Neill（1978）的結(jié)果來(lái)測(cè)試性能差異是否具有統(tǒng)計(jì)意義；一旦發(fā)現(xiàn)一組特定的建模假設(shè)存在缺陷，就可以開(kāi)始健康的模型修訂過(guò)程。事實(shí)上，有人可能會(huì)爭(zhēng)辯說(shuō)，模型搜索/修訂應(yīng)該始終是半監(jiān)督學(xué)習(xí)工具集中的一個(gè)重要組成部分（Cozman等人，2003a）。

4.7 結(jié)論

????????考慮到性能下降的可能性，似乎在生成式半監(jiān)督學(xué)習(xí)中必須注意一些問(wèn)題。當(dāng)模型“正確”時(shí)，直觀且可證明是正確的陳述可能會(huì)失?。ㄓ袝r(shí)是可悲的！）當(dāng)模型“不正確”時(shí)，顯然輕微的建模錯(cuò)誤可能會(huì)導(dǎo)致未標(biāo)記的數(shù)據(jù)降低性能，即使在沒(méi)有數(shù)字錯(cuò)誤的情況下，甚至在標(biāo)記更多的數(shù)據(jù)將有益的情況下。異常值和其他常見(jiàn)建模錯(cuò)誤導(dǎo)致的性能下降的例子很容易被編造出來(lái)（Cozman等人，2003b）。

????????在沒(méi)有建模錯(cuò)誤的情況下，標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)的區(qū)別僅在于“它們攜帶的與決策區(qū)域相關(guān)的決策信息”（Castelli和Cover，1995年）。然而，當(dāng)我們考慮到建模錯(cuò)誤的可能性時(shí)，標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)在它們對(duì)估計(jì)產(chǎn)生的偏差方面也有所不同。第4.2、4.3和4.4節(jié)中的分析側(cè)重于漸進(jìn)偏差，這是一種避免受到有限樣本效應(yīng)和數(shù)值誤差干擾的策略。然而，我們注意到有限樣本效應(yīng)在實(shí)踐中可能很重要，正如我們?cè)诘?.5節(jié)中討論的那樣。

????????在這一點(diǎn)上，增加一些方法論特征的評(píng)論也許是有用的。在有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)的情況下，生成式半監(jiān)督學(xué)習(xí)是一種很有吸引力的策略。但是，應(yīng)該始終從學(xué)習(xí)帶有標(biāo)記數(shù)據(jù)的監(jiān)督分類(lèi)器開(kāi)始。這種“基線(xiàn)”分類(lèi)器可以通過(guò)交叉驗(yàn)證或類(lèi)似技術(shù)與其他半監(jiān)督分類(lèi)器進(jìn)行比較。只要建模假設(shè)看起來(lái)不準(zhǔn)確，就可以使用未標(biāo)記的數(shù)據(jù)來(lái)測(cè)試建模假設(shè)。如果時(shí)間和資源可用，則應(yīng)進(jìn)行模型搜索，試圖達(dá)到一個(gè)“正確”的模型——也就是說(shuō)，一個(gè)未標(biāo)記數(shù)據(jù)將真正有益的模型。第4.6節(jié)中討論的技術(shù)可用于此設(shè)置。另一個(gè)步驟是將基線(xiàn)分類(lèi)器與非生成方法進(jìn)行比較。正如本書(shū)其他章節(jié)所討論的，有許多半監(jiān)督的非生成分類(lèi)器。也有大量的方法為了不同的目的使用標(biāo)記和未標(biāo)記的數(shù)據(jù)-例如，未標(biāo)記的數(shù)據(jù)僅用于進(jìn)行維數(shù)約簡(jiǎn)的方法（第12章）。然而，我們應(yīng)該警告的是，文獻(xiàn)中的一些經(jīng)驗(yàn)結(jié)果表明，在非代際半監(jiān)督學(xué)習(xí)范式中，例如轉(zhuǎn)導(dǎo)支持向量機(jī)（SVM）（張和奧爾斯，2000年）和聯(lián)合訓(xùn)練（Ghani，2002年）中，性能下降的可能性。

????????最后一個(gè)方法論評(píng)論涉及到主動(dòng)學(xué)習(xí)——也就是說(shuō)，在未標(biāo)記的數(shù)據(jù)中標(biāo)記所選樣本的選項(xiàng)。在可能的情況下，應(yīng)認(rèn)真考慮該選項(xiàng)。在特定問(wèn)題中，使用未標(biāo)記的數(shù)據(jù)最有利可圖的可能正是一個(gè)樣本池，從中可以仔細(xì)選擇和標(biāo)記一些樣本。一般來(lái)說(shuō)，我們應(yīng)該取一個(gè)有標(biāo)簽的樣本的值遠(yuǎn)高于一個(gè)沒(méi)有標(biāo)簽的樣本的值。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

4. 半監(jiān)督學(xué)習(xí)的風(fēng)險(xiǎn)：未標(biāo)記數(shù)據(jù)如何降低生成分類(lèi)器的性能

4. 半監(jiān)督學(xué)習(xí)的風(fēng)險(xiǎn)：未標(biāo)記數(shù)據(jù)如何降低生成分類(lèi)器的性能

4.1?非標(biāo)記數(shù)據(jù)提高還是降低分類(lèi)器性能？

4.2?理解非標(biāo)記數(shù)據(jù)：漸近偏差

4.3?生成半監(jiān)督學(xué)習(xí)的漸近分析

定理 4.1?最大似然估計(jì)的極限值 $\theta^*$ 為：

4.4 標(biāo)記和非標(biāo)記數(shù)據(jù)的價(jià)值

4.5 有限樣本效應(yīng)

4.6 模型搜索和魯棒性

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

4. 半監(jiān)督學(xué)習(xí)的風(fēng)險(xiǎn)：未標(biāo)記數(shù)據(jù)如何降低生成分類(lèi)器的性能

4.1?非標(biāo)記數(shù)據(jù)提高還是降低分類(lèi)器性能？

4.2?理解非標(biāo)記數(shù)據(jù)：漸近偏差

4.3?生成半監(jiān)督學(xué)習(xí)的漸近分析

定理 4.1?最大似然估計(jì)的極限值為：

4.4 標(biāo)記和非標(biāo)記數(shù)據(jù)的價(jià)值

4.5 有限樣本效應(yīng)

4.6 模型搜索和魯棒性

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

定理 4.1?最大似然估計(jì)的極限值 $\theta^*$ 為：