4. 半監(jiān)督學(xué)習(xí)的風(fēng)險(xiǎn):未標(biāo)記數(shù)據(jù)如何降低生成分類(lèi)器的性能

????????正如本書(shū)其他章節(jié)所描述的那樣,經(jīng)驗(yàn)和理論的結(jié)果通常對(duì)生成分類(lèi)器的半監(jiān)督學(xué)習(xí)有利。然而,文獻(xiàn)也顯示存在半監(jiān)督學(xué)習(xí)不能產(chǎn)生好的生成式分類(lèi)器的情況。我們并不是簡(jiǎn)單地關(guān)注那些產(chǎn)生高分類(lèi)誤差的分類(lèi)器——這在監(jiān)督學(xué)習(xí)中也是可能發(fā)生的。我們關(guān)注的是:通常情況下,我們最好只丟棄未標(biāo)記的數(shù)據(jù)并使用監(jiān)督方法,而不是采用半監(jiān)督方法。因此我們擔(dān)心額外的非標(biāo)記數(shù)據(jù)反而降低了分類(lèi)器表現(xiàn)的尷尬情況。

????????這怎么可能呢?一般我們不會(huì)認(rèn)為丟棄數(shù)據(jù)更好;我們?cè)趺茨芾斫獍氡O(jiān)督學(xué)習(xí)的這一面呢?本章我們聚焦于半監(jiān)督學(xué)習(xí)中模型擬合誤差的影響,同時(shí)展示模型誤差是怎么導(dǎo)致性能下降的。

4.1?非標(biāo)記數(shù)據(jù)提高還是降低分類(lèi)器性能?

????????也許我們有理由相信任何樣本數(shù)量的增加大體上都會(huì)提高分類(lèi)器的性能(標(biāo)記的或非標(biāo)記的):數(shù)據(jù)越多,越好。事實(shí)上,現(xiàn)有文獻(xiàn)提出了將正值歸因于未標(biāo)記數(shù)據(jù)的實(shí)證結(jié)果;其他章節(jié)則給出了其中一些結(jié)果。O’Neill?宣稱(chēng) “未分類(lèi)觀測(cè)肯定不應(yīng)被拋棄”(O’Neill, 1978)似乎被理論研究證實(shí)了,最著名的是Castelli(1994)、Castelli 和Cover(1995、1996)以及 Ratsaby 和 Venkatesh(1995)。

????????這些先前的理論研究的要點(diǎn)就是這一點(diǎn)。假設(shè)樣本(x_i,y_i)是根據(jù)分布p(X_v,Y_v)分布的隨機(jī)化變量X_vY_v的實(shí)例。假設(shè)我們學(xué)習(xí)一個(gè)參數(shù)模型p(X_v,Y_v|\theta),對(duì)于\theta的某個(gè)值使得p(X_v,Y_v|\theta)等于p(X_v,Y_v)——也就是說(shuō),“模型是正確的”,在這個(gè)意義上它可以精確地表示p(X_v,Y_v)。然后,隨著越來(lái)越多的數(shù)據(jù)被收集(標(biāo)記或未標(biāo)記),可以確保一個(gè)分類(lèi)錯(cuò)誤的預(yù)期減少。此外,標(biāo)記數(shù)據(jù)在減少分類(lèi)誤差方面比未標(biāo)記數(shù)據(jù)更有效。在這些樂(lè)觀的結(jié)果中,只要有可能,就可以使用未標(biāo)記的數(shù)據(jù)。然而,對(duì)當(dāng)前經(jīng)驗(yàn)結(jié)果的更詳細(xì)分析確實(shí)揭示了未標(biāo)記數(shù)據(jù)的一些令人費(fèi)解的方面。例如,Shahshahani和Landgrebe(1994)報(bào)告了一些實(shí)驗(yàn),其中未標(biāo)記的數(shù)據(jù)降低了帶有高斯變量的樸素貝葉斯分類(lèi)器的性能。他們將這種情況歸因于與建模假設(shè)的偏差,例如離群值和“未知類(lèi)的樣本”——他們甚至建議應(yīng)小心使用未標(biāo)記的樣本,并且僅當(dāng)標(biāo)記的數(shù)據(jù)單獨(dú)產(chǎn)生較差的分類(lèi)器時(shí)使用。另一個(gè)代表性的例子是 Nigam 等人的工作(2000)關(guān)于文本分類(lèi),分類(lèi)程序有時(shí)顯示性能下降。他們提出了幾個(gè)可能的困難來(lái)源:學(xué)習(xí)算法中的數(shù)值問(wèn)題,特征空間中的自然簇與實(shí)際標(biāo)簽之間的不匹配。其他例子很容易找到。Baluja(1999)使用樸素貝葉斯和樹(shù)增強(qiáng)樸素貝葉斯(TAN)分類(lèi)器(Friedman et al.,1997)檢測(cè)圖像中的面,但也存在未標(biāo)記數(shù)據(jù)降低性能的情況。Bruce(2001)使用標(biāo)記和未標(biāo)記的數(shù)據(jù)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類(lèi)器,從樸素貝葉斯分類(lèi)器到完全連接的網(wǎng)絡(luò);樸素貝葉斯分類(lèi)器顯示出較差的分類(lèi)性能,事實(shí)上,隨著使用更多未標(biāo)記的數(shù)據(jù)性能降低了(更復(fù)雜的網(wǎng)絡(luò)也顯示性能下降,因?yàn)樘砑恿宋礃?biāo)記的樣本)。最后一個(gè)例子:Grandvalet和Bengio(2004)描述了將異常值添加到高斯模型中的實(shí)驗(yàn),導(dǎo)致生成分類(lèi)器在未標(biāo)記數(shù)據(jù)的情況下性能下降。

????????圖 4.1 顯示了許多實(shí)驗(yàn),證實(shí)了這一有趣證據(jù)。它們都涉及分類(lèi)變量的二元分類(lèi);在所有這些屬性中,X_v實(shí)際上是一個(gè)包含多個(gè)屬性 X_{vi}的向量。在所有的試驗(yàn)中生成式分類(lèi)器均是利用?EM?算法的最大似然學(xué)習(xí)的(第 2,3?章)。圖 4.1(a)?顯示隨著未標(biāo)記數(shù)據(jù)量的增加而學(xué)習(xí)的樸素貝葉斯分類(lèi)器的性能(對(duì)于固定數(shù)量的標(biāo)記數(shù)據(jù)),其中數(shù)據(jù)分布遵守樸素貝葉斯假設(shè)。也就是說(shuō),這些數(shù)據(jù)是由隨機(jī)生成的統(tǒng)計(jì)模型生成的,這些模型符合樸素貝葉斯分類(lèi)器的獨(dú)立性假設(shè)。在樸素貝葉斯模型中,所有特征?X_v在給定類(lèi)別?Y_v時(shí)相互獨(dú)立:p(X_v,Y_v)=p(Y_v)\prod p(X_{vi}) 。結(jié)果簡(jiǎn)單:數(shù)據(jù)越多,模型性能越好。圖 4.1(b)展示了一幅完全不同的畫(huà)面。這里學(xué)習(xí)了一系列的樸素貝葉斯分類(lèi)器,數(shù)據(jù)根據(jù) TAN 假設(shè)分布:每個(gè)屬性直接依賴(lài)于類(lèi),最多依賴(lài)于另一個(gè)屬性-這些屬性形成依賴(lài)關(guān)系的“樹(shù)”,因此名稱(chēng)樹(shù)增強(qiáng)樸素貝葉斯(Friedman et al.,1997)。也就是說(shuō),在圖4.1(b)中,“模型不正確”。圖4.1(b)中的圖表表明,隨著未標(biāo)記數(shù)據(jù)數(shù)量的增加,性能下降。

圖4.1(c)描述了一個(gè)更復(fù)雜的場(chǎng)景。再次,根據(jù)TAN(樹(shù)增強(qiáng)樸素貝葉斯)假設(shè),利用分布的數(shù)據(jù)學(xué)習(xí)了一系列樸素貝葉斯分類(lèi)器,因此“模型是錯(cuò)誤的”。請(qǐng)注意,其中兩個(gè)圖顯示錯(cuò)誤減少的趨勢(shì)(隨著未標(biāo)記樣本的數(shù)量增加),而另一個(gè)圖顯示錯(cuò)誤增加的趨勢(shì)。在這里,未標(biāo)記的數(shù)據(jù)可以在存在一些標(biāo)記的樣本時(shí)提高性能,但在添加到更多標(biāo)記的樣本時(shí),未標(biāo)記的數(shù)據(jù)會(huì)降低性能。Cozman和Cohen(2002)描述了一組更大的人工數(shù)據(jù)實(shí)驗(yàn)。

????????圖4.1(d)顯示了使用成人分類(lèi)問(wèn)題的不同標(biāo)記和未標(biāo)記數(shù)據(jù)集組合學(xué)習(xí)樸素貝葉斯分類(lèi)器的結(jié)果(使用UCI存儲(chǔ)庫(kù)2中提供的培訓(xùn)和測(cè)試數(shù)據(jù)集)。我們發(fā)現(xiàn),當(dāng)標(biāo)記的數(shù)據(jù)集很小(30個(gè)標(biāo)記的數(shù)據(jù))時(shí),添加未標(biāo)記的數(shù)據(jù)可以改善分類(lèi),但隨著標(biāo)記的數(shù)據(jù)集變大,性能會(huì)降低。因此,這個(gè)實(shí)際數(shù)據(jù)集的屬性導(dǎo)致類(lèi)似于圖4.1(c)的行為。

????????最后,圖4.1(e)和4.1(f)顯示了使用基準(zhǔn)數(shù)據(jù)中的數(shù)據(jù)集8學(xué)習(xí)樸素貝葉斯和TAN(樹(shù)增強(qiáng)樸素貝葉斯)分類(lèi)器的結(jié)果(第21章)。這兩個(gè)圖顯示的趨勢(shì)與前一個(gè)圖中顯示的趨勢(shì)相似。

圖4.1(a)naive bayes分類(lèi)器從根據(jù)樸素貝葉斯假設(shè)分布的數(shù)據(jù)中學(xué)習(xí),具有10個(gè)屬性;具有2到4個(gè)值的屬性。(b)樸素貝葉斯分類(lèi)器從根據(jù)具有10個(gè)屬性的tan假設(shè)分布的數(shù)據(jù)中學(xué)習(xí)。(c)樸素貝葉斯分類(lèi)器從根據(jù)具有49個(gè)屬性的tan假設(shè)分布的數(shù)據(jù)中學(xué)習(xí)。(d)從成人數(shù)據(jù)庫(kù)生成的樸素貝葉斯分類(lèi)器。(e)從數(shù)據(jù)集secstr生成的樸素貝葉斯分類(lèi)器,基準(zhǔn)數(shù)據(jù)(第21章)。(f)數(shù)據(jù)集secstr生成的 TAN 分類(lèi)器,基準(zhǔn)數(shù)據(jù)(第21章)。在所有的圖中,點(diǎn)匯總了每個(gè)分類(lèi)器對(duì)測(cè)試數(shù)據(jù)的十次運(yùn)行(條形圖覆蓋了30%到70%的數(shù)據(jù))。

4.2?理解非標(biāo)記數(shù)據(jù):漸近偏差

????????我們可以將前一節(jié)總結(jié)如下。首先,當(dāng)所學(xué)的生成分類(lèi)器基于“正確”模型時(shí),可以保證從未標(biāo)記的數(shù)據(jù)中獲益。第二,有強(qiáng)有力的經(jīng)驗(yàn)證據(jù)表明,未標(biāo)記的數(shù)據(jù)可能會(huì)降低分類(lèi)器的性能。當(dāng)為特定分類(lèi)器采用的建模假設(shè)與生成數(shù)據(jù)的分布特征不匹配時(shí),可能會(huì)出現(xiàn)性能下降。這是令人不安的,因?yàn)橥ǔ:茈y(如果不是不可能的話(huà))事先保證某個(gè)特定的統(tǒng)計(jì)模型是“正確的”模型。

????????了解半監(jiān)督學(xué)習(xí)的變數(shù)的關(guān)鍵是研究漸近偏差。在本節(jié)中,我們提出了一個(gè)直觀的討論,將更正式的分析留給第4.3節(jié)。我們?cè)谶@里和本章的其余部分的論點(diǎn)集中在通過(guò)最大似然方法學(xué)習(xí)的生成分類(lèi)器上。由于我們的大多數(shù)論點(diǎn)是漸進(jìn)的,同樣的原理也適用于最大后驗(yàn)估計(jì)和其他貝葉斯估計(jì),因?yàn)樗鼈兊臐u進(jìn)行為由似然函數(shù)控制(Degroot,1970)。

????????爭(zhēng)論的要點(diǎn)如下。正如我們?cè)诘?.3節(jié)中正式展示的,對(duì)于同一分類(lèi)器用標(biāo)記數(shù)據(jù)產(chǎn)生的最大似然估計(jì)量的漸近偏差可以不同于用未標(biāo)記數(shù)據(jù)產(chǎn)生的最大似然估計(jì)量的漸近偏差。然后假設(shè)一個(gè)人學(xué)習(xí)了一個(gè)帶有合理數(shù)量標(biāo)記數(shù)據(jù)的分類(lèi)器。所得到的分類(lèi)器可能相對(duì)接近其漸近極限,從而產(chǎn)生一些分類(lèi)誤差。現(xiàn)在假設(shè)一個(gè)人獲取了大量未標(biāo)記的數(shù)據(jù),并用所有可用的數(shù)據(jù)學(xué)習(xí)相同的分類(lèi)器?,F(xiàn)在,分類(lèi)器可能趨向于非標(biāo)記數(shù)據(jù)的漸近極限,并且這個(gè)限制分類(lèi)器的性能可能比第一個(gè)“標(biāo)記”限制分類(lèi)器的性能更差。最終的結(jié)果是,通過(guò)添加大量未標(biāo)記的樣本,可以生成一個(gè)更差的分類(lèi)器。

????????無(wú)論多么令人費(fèi)解,這種情況甚至可以在看似無(wú)辜的情況下找到,并且不需要復(fù)雜的建模錯(cuò)誤。我們現(xiàn)在討論一個(gè)簡(jiǎn)單的示例,其中未標(biāo)記的數(shù)據(jù)會(huì)降低生成分類(lèi)器的性能;這個(gè)(虛構(gòu)的)示例可能有助于讀者理解未標(biāo)記數(shù)據(jù)有時(shí)產(chǎn)生的意外影響。

????????考慮下面的分類(lèi)問(wèn)題。我們有興趣根據(jù)兩個(gè)特征預(yù)測(cè)嬰兒在懷孕20周時(shí)的性別(G =?Boy 或?G = Girl):母親在懷孕前三個(gè)月是否想吃巧克力(Ch = Yes 或Ch = No),以及母親體重增加是否大于或小于15磅(W = More 或 W = Less)。假設(shè) W 和 G 在 Ch 上是獨(dú)立的,也就是說(shuō),域中的直接依賴(lài)關(guān)系用圖G\rightarrow Ch \rightarrow W表示,從而導(dǎo)致聯(lián)合分布的分解:P(G,Ch,W)=P(G)P(Ch|G)P(W|Ch)。同時(shí)假設(shè)數(shù)據(jù)是根據(jù)

P(G=boy) = 0.5,

P(Ch=No|G=Boy)=0.1,

P(Ch=No|G=Girl)=0.8,

P(W=Less|Ch=No)=0.7,

P(W=Less|Ch=Yes)=0.2.

注意,根據(jù)上述分布,我們可以計(jì)算 W 給定 G 的概率,得到

P(W=Less|G=Boy)=0.25,

P(W=Less|G=Girl)=0.6.

為了在給定體重增加和巧克力渴望將嬰兒的性別分為兩類(lèi),我們計(jì)算了g給定w和ch的后驗(yàn)概率(根據(jù)上述獨(dú)立性,僅取決于ch):

P(G=Girl|Ch=No)=0.89,

P(G=Boy|Ch=No)=0.11,

P(G=Girl|Ch=Yes)=0.18,

P(G=Boy|Ch=Yes)=0.82.

根據(jù)后驗(yàn)概率,最優(yōu)分類(lèi)規(guī)則(下一節(jié)討論的貝葉斯規(guī)則)是

if Ch = No, choose G = Girl; if Ch = Yes, choose G = Boy。

這個(gè)問(wèn)題的Bayes錯(cuò)誤率(即Bayes規(guī)則下的錯(cuò)誤概率)可以很容易地計(jì)算出來(lái),并且發(fā)現(xiàn)大約為15%。

????????假設(shè)我們錯(cuò)誤地為這個(gè)問(wèn)題假設(shè)了一個(gè)樸素的貝葉斯模型;也就是說(shuō),我們假設(shè)依賴(lài)關(guān)系是由圖Ch\leftarrow G\rightarrow W表示的。因此,我們錯(cuò)誤地假設(shè),給定性別,體重增加與巧克力渴求無(wú)關(guān);因此,我們錯(cuò)誤地假設(shè),聯(lián)合概率分布的因式分解可以寫(xiě)成P(G,Ch,W)=P(G)P(Ch|G)P(W|G)。假設(shè)一個(gè)朋友給了我們P(Ch|G)的“真”值,所以我們不需要估計(jì)這些量。我們希望使用最大似然技術(shù)估計(jì)P(G)P(W|G)。

????????在只有標(biāo)簽數(shù)據(jù)可用的情況下,估計(jì)量是通過(guò)相對(duì)頻率獲得的,零偏差和方差與數(shù)據(jù)庫(kù)的大小成反比。因此,即使是一個(gè)相對(duì)較小的數(shù)據(jù)庫(kù)也會(huì)產(chǎn)生對(duì)概率值的極好估計(jì)。P(G)的估計(jì)值很可能接近0.5;同樣,P(W=Less|G=Girl)的估計(jì)值將接近0.6,P(W=Less|G=Boy)的估計(jì)值將接近0.25。利用這些估計(jì)參數(shù)和假設(shè)的聯(lián)合概率分布分解,G的后驗(yàn)概率可能接近

表 4.1


????????假設(shè)我們采用這些估計(jì)值,并使用G的最大后驗(yàn)概率值對(duì)輸入的觀測(cè)值進(jìn)行分類(lèi)。即使來(lái)自“真”后驗(yàn)概率的偏差不為零,這將產(chǎn)生相同的最佳貝葉斯規(guī)則4.1;也就是說(shuō),“標(biāo)記”分類(lèi)器很可能產(chǎn)生最小分類(lèi)誤差。

????????現(xiàn)在假設(shè)沒(méi)有標(biāo)記的數(shù)據(jù)是可用的。隨著越來(lái)越多的未標(biāo)記樣本的收集,標(biāo)記樣本的數(shù)量與樣本總數(shù)之間的比率變?yōu)榱?。在?.3節(jié)中,我們展示了如何計(jì)算這種情況下的漸近估計(jì)。在這種情況下,以閉合形式進(jìn)行的計(jì)算得出以下漸近估計(jì):P(G=Boy)=0.5,P(W=Less|G=Girl)=0.78,P(W=Less|G=boy)=0.07。因此,G的一個(gè)后驗(yàn)概率趨向于

表 4.2?

在這里,我們看到,在這種情況下,預(yù)測(cè)已經(jīng)從最佳狀態(tài){Ch =Yes,W = Less}改變了;我們預(yù)測(cè)\{G=Girl  \}?而不是?\{G=Boy   \}。我們可以輕松地獲得期望誤差率為 22%,增加了 7%。

????????發(fā)生什么事了?標(biāo)記的數(shù)據(jù)將我們帶到一個(gè)特定的漸近極限,而未標(biāo)記的數(shù)據(jù)將我們帶到一個(gè)明顯的極限。在第4.3節(jié)中,我們將看到,在收集未標(biāo)記的樣本時(shí),這種轉(zhuǎn)換是平滑的。由于后一個(gè)限值(從分類(lèi)的角度來(lái)看)比前一個(gè)限值更差,因此逐漸添加未標(biāo)記樣本會(huì)降低性能。

????????再次考慮圖4.1(a)。這里的圖表說(shuō)明了“模型正確”的情況:標(biāo)記和未標(biāo)記的數(shù)據(jù)導(dǎo)致相同的漸近估計(jì)。圖4.1中的其他圖說(shuō)明了“模型不正確”的情況。在這些情況下,隨著越來(lái)越多的未標(biāo)記數(shù)據(jù)可用,漸進(jìn)估計(jì)傾向于“未標(biāo)記”分類(lèi)器-根據(jù)標(biāo)記數(shù)據(jù)的數(shù)量,圖從高于或低于此“未標(biāo)記”限值開(kāi)始。

4.3?生成半監(jiān)督學(xué)習(xí)的漸近分析

????????我們首先在本節(jié)中收集一些假設(shè),以重復(fù)前面章節(jié)中已經(jīng)提到的定義為代價(jià)。這里的目標(biāo)是對(duì)特征?X_v?的向量進(jìn)行分類(lèi)。X_v的每個(gè)實(shí)例?x?是一個(gè)樣本。存在一個(gè)類(lèi)變量Y_v,它在一組標(biāo)簽中取值。為了簡(jiǎn)化討論,我們假設(shè)?Y_v是一個(gè)取值為 -1?和 +1?的二值變量。如果我們確切地知道聯(lián)合分布?p(X_v,Y_v),優(yōu)化規(guī)則會(huì)是選擇一個(gè)有最大后驗(yàn)概率的標(biāo)簽;這就是?貝葉斯?規(guī)則,它產(chǎn)生的分類(lèi)誤差最小,稱(chēng)為貝葉斯誤差(Devroye等人,1996年)。使用數(shù)據(jù)庫(kù)中的n個(gè)獨(dú)立樣本學(xué)習(xí)分類(lèi)器;有?l?個(gè)標(biāo)記樣本和u?個(gè)非標(biāo)記樣本(n = l+u),在不喪失一般性的情況下,我們假設(shè)樣品是按序先來(lái)先標(biāo)記的。我們假設(shè)一個(gè)樣本有隱藏其標(biāo)簽的概率(1 - \lambda)(相同的分布p(X_v|Y_v)生成標(biāo)記的樣本和未標(biāo)記的樣本)。

????????考慮采用生成模型作為聯(lián)合分布p(X_v,Y_v)的表示。假設(shè)一個(gè)使用參數(shù)\theta的參數(shù)化表示p(X_v,Y_v|\theta),以及一個(gè)包含可以產(chǎn)生估計(jì)?\hat\theta?的訓(xùn)練樣本的數(shù)據(jù)庫(kù)。所有樣本x_i都被收集在由X表示的數(shù)據(jù)庫(kù)中,所有樣本?y_i都被收集在由?Y表示的數(shù)據(jù)庫(kù)中。我們思考 "插件“?分類(lèi):假設(shè)p(Y_v|X_v,\hat\theta)Y_v的正確后驗(yàn)密度,計(jì)算最優(yōu)規(guī)則。

????????在本章中,我們用p(\cdot)表示生成數(shù)據(jù)的分布/密度,以及用P(\cdot|\theta)學(xué)習(xí)分布的統(tǒng)計(jì)模型。對(duì)這些分布/密度進(jìn)行漸進(jìn)分析需要幾個(gè)平滑度和可測(cè)度性假設(shè),并貫穿始終。通常用于生成估計(jì)的兩個(gè)原則是最大似然性和最大化后驗(yàn)損失(Degroot,1970年);使用這些原則計(jì)算估計(jì)值通常需要迭代方法,其中最流行的是EM算法(Dempster等人,1977)。生成模型非常適合最大似然法的半監(jiān)督學(xué)習(xí),因?yàn)樗迫环ㄖ苯邮芪礃?biāo)記數(shù)據(jù)的影響,而判別模型相反,其中相關(guān)似然法不受未標(biāo)記數(shù)據(jù)的影響(Zhang和Oles,2000年)。

????????我們認(rèn)為,估計(jì)\hat\theta是通過(guò)最大化似然L(\theta)=\prod\nolimits_{i=1}^l p(x_i,y_i|\theta)\prod\nolimits_{j=l+1}^n  p(x_j|\theta)產(chǎn)生的。當(dāng)樣本是未標(biāo)記的時(shí)候,似然函數(shù)記為一個(gè)混合?p(X_v|Y_v=+1,\theta)p(Y_v=+1|\theta)+p(X_v|Y_v=-1,\theta)p(Y_v=-1|\theta);我們假設(shè)這些混合是可識(shí)別的(Redner和Walker,1984)。

????????我們使用以下已知結(jié)果(Berk, 1966; Huber, 1967; White, 1982)??紤]一個(gè)參數(shù)模型?p(Z|\theta)?和一系列最大似然估計(jì)值?\hat\theta_n,通過(guò)最大化?\sum\nolimits_{i=1}^n log(z_i|\theta) ?獲得,隨著獨(dú)立樣本z_i數(shù) n的增加,所有樣本均按p(Z)均勻分布。然后?\hat\theta_n\rightarrow \theta^*當(dāng)n\rightarrow \infty?對(duì)于?\theta^*的開(kāi)領(lǐng)域中的?\theta,這兒?\theta^*最大化?E_{p(Z)}[log p(Z|\theta)]。如果\theta^*是參數(shù)空間的內(nèi)部,那么估計(jì)是漸進(jìn)高斯的。擴(kuò)展上述半監(jiān)督學(xué)習(xí)的結(jié)果我們有:

定理 4.1?最大似然估計(jì)的極限值\theta^*為:

arg \mathop{}_{\theta}^{max} (\lambda E_{p(X_v,Y_v)}[logp(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v)}[logp(X_v|\theta)])? (4.2)

證明:在半監(jiān)督學(xué)習(xí)中,樣本是概率為\lambda(X_v,Y_v)和概率為(1-\lambda)X_v的實(shí)例。用\tilde{Y} _v表示一個(gè)隨機(jī)變量,假設(shè)\tilde{Y} _v值與“未標(biāo)記”值0相同。我們有p(\tilde{Y} _v \neq 0)=\lambda。實(shí)際上觀測(cè)到的樣本是?(X_v,\tilde{Y} _v)?的實(shí)例,因此

\tilde{p} =(X_v,\tilde{Y} _v=y)=(\lambda p(X_v,Y_v=y))^{I_{\{\tilde{Y} _v \neq 0       \} }(y)}((1-\lambda)p(X_v))^{I_{\{\tilde{Y} _v = 0     \}}(y)},

這兒?p(X_v)是一個(gè)混合密度。相應(yīng)地,(X_v,\tilde{Y} _v)采用的參數(shù)模型形式相同:

\tilde{p} =(X_v,\tilde{Y} _v=y|\theta)=(\lambda p(X_v,Y_v=y|\theta))^{I_{\{\tilde{Y} _v \neq 0     \} }(y)}((1-\lambda)p(X_v|\theta))^{I_{\{\tilde{Y} _v = 0     \} }(y)}

最大化?E_{(\tilde{p} (X_v,\tilde{Y} _v)}[log\tilde{p} (X_v,\tilde{Y} _v|\theta)]?的值?\theta^*?為

arg\mathop{}_{\theta}^{max}E_{\tilde{p}(X_v,\tilde{Y}_v)  }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta)) +I_{\{\tilde{Y}=0  \} }(\tilde{Y} _v)(log(1-\lambda )p(X_v|\theta)) ]。

因此?\theta^*?最大化

\beta + E_{\tilde{p}(X_v,\tilde{Y}_v)  }[I_{\{\tilde{Y}\neq0 \} }(\tilde{Y} _v)(log\lambda p(X_v,Y_v|\theta))] +E_{\tilde{p}(X_v,\tilde{Y}_v)  }[I_{\{\tilde{Y}=0  \} }(\tilde{Y} _v)(logp(X_v|\theta))] ,這兒?\beta = \lambda log(\lambda)+(1-\lambda)log(1-\lambda)。因?yàn)?\beta不依賴(lài)?\theta,我們只需要最大化后兩項(xiàng),其等于?\lambda E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v,Y_v|\theta)|\tilde{Y} _v\neq 0] + (1- \lambda)E_{\tilde{p}(X_v,\tilde{Y}_v ) }[log p(X_v|\theta)|\tilde{Y} _v= 0]。因?yàn)槲覀冇?\tilde{p} (X_v,\tilde{Y} _v|\tilde{Y} _v \neq 0)=p(X_v,Y_v)且?\tilde{p} (X_v|\tilde{Y} _v = 0)=p(X_v),后一個(gè)表達(dá)式等于?\lambda E_{p(X_v,Y_v)}[log p(X_v,Y_v|\theta)]+(1-\lambda)E_{p(X_v,Y_v}[logp(X_v|\theta)]。我們得到表達(dá)式 4.2 。

????????White(1982)的結(jié)果也可以適應(yīng)半監(jiān)督學(xué)習(xí)的背景,以證明估計(jì)的方差一般隨n的增加而減小。漸近方差取決于fisher信息的倒數(shù);對(duì)于較大比例的標(biāo)記數(shù)據(jù),fisher信息通常較大(Castelli,1994;Castelli A封面,1995年,1996年)。

????????表達(dá)式4.2表明,半監(jiān)督學(xué)習(xí)中的目標(biāo)函數(shù)可以漸進(jìn)地視為監(jiān)督學(xué)習(xí)(E[log p(X_v,Y_v|\theta)])和非監(jiān)督學(xué)習(xí)(E[log p(X_v|\theta)])目標(biāo)函數(shù)的“凸”組合。用\theta^*_\lambda表示給定\lambda的表達(dá)式4.2最大化的\theta值。用\theta^*_l表示“標(biāo)記的”極限\theta^*_1,用\theta^*_u表示“未標(biāo)記的”極限\theta^*_0,我們注意到,在模型密度的一些附加假設(shè)下,定理4.1和隱式函數(shù)定理可用于證明\theta^*_\lambda\lambda的連續(xù)函數(shù),即解決方案后面的“路徑”是一個(gè)連續(xù)的路徑。

????????現(xiàn)在,我們可以呈現(xiàn)第4.2節(jié)中概述的更正式的論點(diǎn)版本。假設(shè)第一分布族?p(X_v,Y_v|\theta)包含分布?p(X_v,Y_v),就是說(shuō),p(X_v,Y_v|\theta_T)=p(X_v,Y_v)對(duì)某一?\theta_T,因此 “模型是正確的”。當(dāng)滿(mǎn)足這樣一個(gè)條件的時(shí)候,\theta^*_l=\theta^*_u=\theta_T給定可識(shí)別性,然后?\theta^*_{\lambda}=\theta_T,對(duì)所有的?0 < \lambda \leq 1,是一個(gè)極大似然估計(jì)。這種情況下,極大似然估計(jì)是一致的,漸近偏向?yàn)?0,而且分類(lèi)誤差收斂到貝葉斯誤差。由于方差隨著標(biāo)記數(shù)據(jù)和非標(biāo)記數(shù)據(jù)的數(shù)量的增加而降低,兩種數(shù)據(jù)的增加最終都會(huì)獲得“正確”分布和貝葉斯誤差。

????????我們現(xiàn)在研究更加與我們目的相關(guān)的情形,這種情況下分布?p(X_v,Y_v)?不屬于分布族?p(X_v,Y_v|\theta)。參數(shù)為?\theta的分類(lèi)誤差記為?e(\theta),且假設(shè)?e(\theta^*_u) > e(\theta^*_l)?(如 Boy-Girl 和后面展示的其他例子中的)。如果我們觀測(cè)到大量的標(biāo)記樣本,分類(lèi)誤接近于e(\theta^*_l)。如果我們后來(lái)收集到更多的樣本,其中大部分都是非標(biāo)記的,我們最終到達(dá)一個(gè)分類(lèi)誤差為接近于?e(\theta^*_u)?的點(diǎn)。因此,最終結(jié)果是,我們從接近e(\theta^*_l)的分類(lèi)誤差開(kāi)始,通過(guò)添加大量未標(biāo)記樣本,分類(lèi)性能下降到e(\theta^*_u)。標(biāo)記數(shù)據(jù)集可以被一個(gè)更大的未標(biāo)記數(shù)據(jù)集拉低表現(xiàn):使用整個(gè)數(shù)據(jù)集的分類(lèi)錯(cuò)誤可以大于僅使用標(biāo)記數(shù)據(jù)的分類(lèi)錯(cuò)誤。

????????總結(jié),我們有如下結(jié)論。第一,在最大似然估計(jì)下,標(biāo)記和未標(biāo)記數(shù)據(jù)有助于減少半監(jiān)督學(xué)習(xí)中的方差。其次,當(dāng)模型是“正確的”時(shí),最大似然法對(duì)有標(biāo)記和無(wú)標(biāo)記的數(shù)據(jù)都是漸近無(wú)偏的。第三,當(dāng)模型“不正確”時(shí),不同的\lambda值可能存在不同的漸近偏差。漸近分類(lèi)誤差也可能隨\lambda而變化-未標(biāo)記樣本數(shù)量的增加可能導(dǎo)致更大的估計(jì)漸近偏差和更大的分類(lèi)誤差。如果用一組給定的標(biāo)記數(shù)據(jù)獲得的性能比用無(wú)限多的未標(biāo)記樣本獲得的性能更好,那么在某一點(diǎn)上,添加未標(biāo)記數(shù)據(jù)必須降低性能。

4.4 標(biāo)記和非標(biāo)記數(shù)據(jù)的價(jià)值

????????前面的討論暗示存在這樣的可能,即當(dāng)模型“不正確”時(shí)?e(\theta^*_u)>e(\theta^*_l)。要了解有關(guān)這種現(xiàn)象的一些重要細(xì)節(jié),請(qǐng)考慮另一個(gè)例子。

????????假設(shè)我們有來(lái)自?xún)蓚€(gè)類(lèi) -1和 +1 的特征?X_{v1}和?X_{v2}。我們知道?(X_{v1},X_{v2})是一個(gè)均值為?(0,3/2)條件于?\{Y_v=1  \},(3/2,0)條件于?\{Y_v=+1 \}的高斯向量;X_{v1}X_{v2}條件于Y_v?都等于 1 。我們相信給定?Y_v是相互獨(dú)立的,但實(shí)際上?X_{v1}和?X_{v2}是條件于?\{Y_v=-1    \}?依賴(lài)的:相關(guān)性?\rho = E[(X_{v1}-E[X_{v1}|Y_v=+1])(X_{v2}-E[X_{v2}|Y_v=+1])?等于 4/5 (X_{v1}X_{v2}條件于 \{Y_v=-1    \}?獨(dú)立的)。數(shù)據(jù)采樣自一個(gè)?\eta = P(Y_v=-1)=3/5的分布,但我們不知道這個(gè)概率。如果我們知道?\rho和?\eta?的值,我就會(huì)很容易地計(jì)算平面?X_{v1}\times X_{v2}?上的最優(yōu)分類(lèi)邊界(這個(gè)最優(yōu)分類(lèi)邊界是二次的)。通過(guò)錯(cuò)誤地假設(shè)?\rho為 0 我們得到一個(gè)近似?P(Y_v|X_{v1},X_{v2})?的樸素貝葉斯分類(lèi)器。

????????在錯(cuò)誤假設(shè)?\rho=0的情況下,"最優(yōu)的” 分類(lèi)邊界是線(xiàn)性的:x_{v2}=x_{v1}+2log((1-\hat\eta)/\hat\eta)/3。有了標(biāo)簽數(shù)據(jù),我們可以很容易地得到\hat\eta(一系列伯努利試驗(yàn));得到?\eta^*_l = 3/5分類(lèi)邊界由?x_{v2}=x_{v1}-0.27031?給出。注意,用分類(lèi)器標(biāo)記的數(shù)據(jù)和生成的naive bayes分類(lèi)器假設(shè)得到的(線(xiàn)性)邊界不是盡可能減小分類(lèi)誤差的最佳線(xiàn)性邊界。我們可以實(shí)際上找到最佳可能的線(xiàn)性邊界的形式為?x_{v2}=x_{v1} + \gamma。分類(lèi)誤差可以寫(xiě)為一個(gè)二次導(dǎo)數(shù)為正的?\gamma?的函數(shù);結(jié)果這個(gè)函數(shù)只有一個(gè)可以數(shù)值解出的最小值(最小化的\gamma?為?-0.45786)。如果我們形如?x_{v2}=x_{v1}+\gamma的直線(xiàn)集,我看到離最佳的直線(xiàn)越遠(yuǎn),分類(lèi)誤差越大。圖4.2 展示了從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界和最可能的線(xiàn)性邊界。從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界位于最佳線(xiàn)性邊界的上方。

圖4.2?高斯例子的圖。左邊,混合p(X_{v1},X_{v2})、最佳分類(lèi)邊界(二次曲線(xiàn))和x_{v2}=x_{v1}+\gamma形式的最佳可能分類(lèi)邊界的等高線(xiàn)圖。在右側(cè),相同的等高線(xiàn)圖和最佳線(xiàn)性邊界(下線(xiàn))、從標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界(中線(xiàn))和從未標(biāo)記數(shù)據(jù)獲得的線(xiàn)性邊界(上線(xiàn))。

現(xiàn)在考慮?\eta^*_u?的計(jì)算,使用標(biāo)記數(shù)據(jù)的漸近估計(jì)。通過(guò)定理 4.1 ,我們得到:

arg\mathop{}_{\eta \in [0,1]}^{max}\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g_0(x_{v1},x_{v2})log(\eta g_1(x_{v1},x_{v2})+(1-\eta)g_3(x_{v1},x_{v2}))d_{x_{v2}}d_{x_{v1}}其中

g_0(x_{v1},x_{v2}) = (3/5)g_1(x_{v1},x_{v2})+(2/5)g_3(x_{v1},x_{v2}),

g_1(x_{v1},x_{v2})=N([0,3/2]^T,diag[1,1]),

g_2(x_{v1},x_{v2})=N([3/2,0]^T,\left[ \begin{matrix} 1 & 4/5 \\ 4/5 & 1\end{matrix}\right]),

g_3(x_{v1},x_{v2})=N([3/2,0]^T,diag[1,1]).

????????這個(gè)二重積分的二次導(dǎo)數(shù)永遠(yuǎn)是負(fù)的(通過(guò)將微分與積分互換可以看出),因此這個(gè)函數(shù)是凸的進(jìn)而只有一個(gè)最大值。我們可以求出關(guān)于\eta的二重積分導(dǎo)數(shù)的零點(diǎn)。我們用數(shù)值方法得到這個(gè)值,\eta^*_u=0.54495。使用這個(gè)估計(jì),來(lái)自非標(biāo)記數(shù)據(jù)的線(xiàn)性邊界為?x_{v2}=x_{v1}-0.12019。這條線(xiàn)位于來(lái)自標(biāo)記數(shù)據(jù)的線(xiàn)性邊界的上方,而且,根據(jù)之前的討論,導(dǎo)致一個(gè)比來(lái)自標(biāo)記數(shù)據(jù)的邊界更大的分類(lèi)誤差。從非標(biāo)記數(shù)據(jù)得到的邊界也在圖 4.2 中有所展示。最佳線(xiàn)性邊界的分類(lèi)誤差是 0.06975,而?e(\eta^*_l)=0.07356e(\eta^*_u)=0.08141。

????????這個(gè)例子表明了以下情況。假設(shè)我們從P(Y_v,X_{v1},X_{v2})中收集了大量的數(shù)量為 l?的標(biāo)記樣本,其中\eta = 3/5,\rho=4/5。標(biāo)記的估計(jì)值形成一系列伯努利試驗(yàn),概率為3/5,因此估計(jì)值很快接近\eta^*_l\hat\eta的方差減少為6/(25l))。如果我們將大量未標(biāo)記的數(shù)據(jù)添加到我們的數(shù)據(jù)中,\hat\eta接近\eta^*_u,分類(lèi)誤差增加。

????????通過(guò)改變?\eta\rho?的值,我們可以得到其他有趣的情況。例如,如果?\eta = 3/5,\rho = -4/5,最佳線(xiàn)性邊界是x_{v2}=x_{v1}-0.37199,來(lái)自標(biāo)記數(shù)據(jù)的邊界是x_{v2}=x_{v1}-0.27031,來(lái)自未標(biāo)記數(shù)據(jù)的邊界是x_{v2}=x_{v1}-0.34532;后一個(gè)邊界是“介于”另兩個(gè)之間-額外的未標(biāo)記數(shù)據(jù)會(huì)提高分類(lèi)性能!另一個(gè)例子是,如果\eta=3/5,\rho=-1/5,則最佳線(xiàn)性邊界為x_{v2}=x_{v1}-0.29044,標(biāo)記數(shù)據(jù)的邊界為x_{v2}=x_{v1}-0.27031,未標(biāo)記數(shù)據(jù)的邊界為x_{v2}=x_{v1}-0.29371。最好的線(xiàn)性邊界是“介于”另外兩個(gè)邊界之間。在這種情況下,我們通過(guò)將有標(biāo)記和無(wú)標(biāo)記的數(shù)據(jù)按\lambda = 0.08075混合,得到最佳可能的線(xiàn)性邊界。

????????到目前為止,我們發(fā)現(xiàn),獲取越來(lái)越多的未標(biāo)記數(shù)據(jù)不僅會(huì)改變估計(jì)的方差,而且還會(huì)改變它們的平均行為。高斯示例表明,我們不能總是期望標(biāo)記數(shù)據(jù)產(chǎn)生比未標(biāo)記數(shù)據(jù)更好的分類(lèi)器。盡管如此,人們還是會(huì)直觀地期望標(biāo)記的數(shù)據(jù)比未標(biāo)記的數(shù)據(jù)為學(xué)習(xí)過(guò)程提供更多的指導(dǎo)。有沒(méi)有什么可以說(shuō)的(直觀可信和經(jīng)驗(yàn)性可見(jiàn))更有價(jià)值的標(biāo)簽數(shù)據(jù)狀態(tài)?

????????一個(gè)非正式的論點(diǎn)是。假設(shè)我們有一個(gè)估計(jì)?\hat\theta。通常情況下,p(Y_v|X_v)p(Y_v|X_v,\hat\theta)之間預(yù)期Kullback-Leibler發(fā)散值越小,分類(lèi)誤差越小,其中Kullback-Leibler發(fā)散值為EKL(\theta)=E[log(p(Y_v|X_v)/p(Y_v|X_v,\theta)]。預(yù)期Kullback-Leibler發(fā)散的直接最小化產(chǎn)生EKL(\theta^*_t),其中\theta^*_t=argmax_{\theta}E[logp(Y_v|X_v,\theta)]。現(xiàn)在非標(biāo)記數(shù)據(jù)漸近產(chǎn)生?EKL(\theta^*_u),其中?\theta^*_u =argmax_{\theta}E[logp(X_v|\theta)];標(biāo)記數(shù)據(jù)漸近產(chǎn)生EKL(\theta^*_l),其中?\theta^*_l =argmax_{\theta}E[logp(X_v|\theta)]+E[logp(Y_v|X_v,\theta)]。注意以下模式。我們有興趣最小化E[logp(Y_v|X_v,\theta)]。雖然標(biāo)記數(shù)據(jù)允許我們最小化這個(gè)數(shù)量加上E[logp(X_v|\theta)]的組合,但未標(biāo)記數(shù)據(jù)只允許我們最小化E[logp(X_v|\theta)]。當(dāng)模型“不正確”時(shí),實(shí)際上,最后一個(gè)數(shù)量可能遠(yuǎn)離“真”E[logp(X_v)],而且我們從未標(biāo)記的數(shù)據(jù)得到的幫助可能比從標(biāo)記的數(shù)據(jù)得到的幫助要少。這種非正式的論點(diǎn)似乎是“模型不正確”時(shí),標(biāo)記數(shù)據(jù)比未標(biāo)記數(shù)據(jù)更有價(jià)值的看法的核心。本章中的分析為這種看法增加了以下評(píng)論:通過(guò)嘗試(漸進(jìn)地)最小化預(yù)期值E[logp(X_v)|\theta],甚至可能是不相關(guān)的對(duì)于“真”E[logp(X_v)],我們實(shí)際上可能會(huì)被未標(biāo)記的數(shù)據(jù)引入歧途。

4.5 有限樣本效應(yīng)

????????漸進(jìn)分析可以提供對(duì)復(fù)雜現(xiàn)象的洞察,但有限樣本效應(yīng)也很重要。在實(shí)踐中,一個(gè)人可能只有很少的標(biāo)記數(shù)據(jù),并且從標(biāo)記數(shù)據(jù)得到的估計(jì)θ可能很差,因此添加未標(biāo)記數(shù)據(jù)是一個(gè)積極的舉動(dòng)。這可以解釋如下。少量標(biāo)記樣本可能導(dǎo)致高方差的估計(jì)量,因此可能產(chǎn)生高分類(lèi)誤差(Friedman,1997年)。在這些情況下,即使未標(biāo)記數(shù)據(jù)對(duì)偏差有負(fù)面影響,包含未標(biāo)記數(shù)據(jù)也可能導(dǎo)致方差的大幅減少和分類(lèi)誤差的減少。

????????一般來(lái)說(shuō),需要估計(jì)的參數(shù)越多,相同數(shù)據(jù)量下估計(jì)量的方差就越大。如果我們有一個(gè)具有大量屬性的分類(lèi)器,并且我們只有幾個(gè)帶標(biāo)簽的樣本,那么估計(jì)量的方差就很大,分類(lèi)性能也很可能很差——那么添加未標(biāo)記的數(shù)據(jù)是一個(gè)合理的操作。再次考慮圖4.1(c)。這里我們有一個(gè)具有49個(gè)屬性的樸素貝葉斯分類(lèi)器。如果我們有相對(duì)大量的標(biāo)記數(shù)據(jù),我們開(kāi)始接近“標(biāo)記”極限e(\theta^*_l),然后我們觀察向e(\theta^*_u)移動(dòng)時(shí)的性能下降。但是,如果我們只有很少的標(biāo)記樣本,那么我們就從非常差的性能開(kāi)始,通過(guò)向e(\theta^*_u)移動(dòng)來(lái)減少分類(lèi)錯(cuò)誤。

????????我們注意到,文本分類(lèi)是一個(gè)重要的問(wèn)題,其中許多屬性通常是可用的(通常是數(shù)千個(gè)屬性),并且生成性半監(jiān)督學(xué)習(xí)是成功的(Nigam等人,2000年)

4.6 模型搜索和魯棒性

????????在半監(jiān)督學(xué)習(xí)中,我們必須始終考慮到一個(gè)更精確的統(tǒng)計(jì)模型將從未標(biāo)記的數(shù)據(jù)中獲得顯著收益的可能性。也就是說(shuō),我們應(yīng)該盡可能地尋找“正確”的模型。事實(shí)上,文獻(xiàn)已經(jīng)描述了固定結(jié)構(gòu)分類(lèi)器(如Naive Bayes)表現(xiàn)不佳,而模型搜索方案可以導(dǎo)致優(yōu)秀分類(lèi)器的情況(Bruce,2001;Cohen等人,2003、2004)。尤其是Cohen等人(2004)討論并比較不同的模型搜索策略與貝葉斯網(wǎng)絡(luò)分類(lèi)器的標(biāo)記和未標(biāo)記數(shù)據(jù)。結(jié)果表明,使用EM算法(Meila,1999)學(xué)習(xí)的Tan分類(lèi)器與簡(jiǎn)單的Naive Bayes相比,有時(shí)可以改善分類(lèi)并消除未標(biāo)記數(shù)據(jù)的性能退化。相反,結(jié)構(gòu)學(xué)習(xí)算法最大化類(lèi)和屬性的可能性,如Friedman(1998)提出的那些算法。而van Allen和Greiner(2000)不太可能以半監(jiān)督的方式找到產(chǎn)生良好分類(lèi)器的結(jié)構(gòu),因?yàn)樗麄儗?zhuān)注于擬合聯(lián)合分布而不是后驗(yàn)分布(Friedman等人也認(rèn)為)。(1997)純監(jiān)督案件)。基于獨(dú)立性的結(jié)構(gòu)學(xué)習(xí)方法,也稱(chēng)為基于約束或基于測(cè)試的方法,是嘗試學(xué)習(xí)正確模型的另一種選擇。然而,這些方法并不容易適應(yīng)使用未標(biāo)記的數(shù)據(jù)。Cheng等人對(duì)算法進(jìn)行了這樣的修改。(1997)在Cohen等人(2004年),與EM版的tan相比,顯示出無(wú)改善或邊際改善,同時(shí)需要更大的計(jì)算復(fù)雜性。第三種選擇是執(zhí)行結(jié)構(gòu)搜索,試圖直接最大化分類(lèi)精度。Cohen等人(2004)提出使用隨機(jī)結(jié)構(gòu)搜索算法(馬爾可夫鏈蒙特卡羅),接受或拒絕基于其分類(lèi)精度的模型(使用標(biāo)記訓(xùn)練數(shù)據(jù)估計(jì)),同時(shí)學(xué)習(xí)每個(gè)模型的參數(shù),使用標(biāo)記和未標(biāo)記數(shù)據(jù)的最大似然估計(jì)。該策略對(duì)具有少量標(biāo)記樣本(以及大量未標(biāo)記樣本)的數(shù)據(jù)集產(chǎn)生了非常好的結(jié)果,但對(duì)于具有少量標(biāo)記樣本的數(shù)據(jù)集效果不佳,因?yàn)樗蕾?lài)于搜索過(guò)程中分類(lèi)錯(cuò)誤的估計(jì)。

????????鑒于本章的結(jié)果,未標(biāo)記的數(shù)據(jù)也可用于測(cè)試建模假設(shè)。如果將未標(biāo)記的數(shù)據(jù)添加到現(xiàn)有的標(biāo)記數(shù)據(jù)池會(huì)降低性能,則明顯表明建模假設(shè)不正確。實(shí)際上,我們可以使用O'Neill(1978)的結(jié)果來(lái)測(cè)試性能差異是否具有統(tǒng)計(jì)意義;一旦發(fā)現(xiàn)一組特定的建模假設(shè)存在缺陷,就可以開(kāi)始健康的模型修訂過(guò)程。事實(shí)上,有人可能會(huì)爭(zhēng)辯說(shuō),模型搜索/修訂應(yīng)該始終是半監(jiān)督學(xué)習(xí)工具集中的一個(gè)重要組成部分(Cozman等人,2003a)。

4.7 結(jié)論

????????考慮到性能下降的可能性,似乎在生成式半監(jiān)督學(xué)習(xí)中必須注意一些問(wèn)題。當(dāng)模型“正確”時(shí),直觀且可證明是正確的陳述可能會(huì)失?。ㄓ袝r(shí)是可悲的!)當(dāng)模型“不正確”時(shí),顯然輕微的建模錯(cuò)誤可能會(huì)導(dǎo)致未標(biāo)記的數(shù)據(jù)降低性能,即使在沒(méi)有數(shù)字錯(cuò)誤的情況下,甚至在標(biāo)記更多的數(shù)據(jù)將有益的情況下。異常值和其他常見(jiàn)建模錯(cuò)誤導(dǎo)致的性能下降的例子很容易被編造出來(lái)(Cozman等人,2003b)。

????????在沒(méi)有建模錯(cuò)誤的情況下,標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)的區(qū)別僅在于“它們攜帶的與決策區(qū)域相關(guān)的決策信息”(Castelli和Cover,1995年)。然而,當(dāng)我們考慮到建模錯(cuò)誤的可能性時(shí),標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)在它們對(duì)估計(jì)產(chǎn)生的偏差方面也有所不同。第4.2、4.3和4.4節(jié)中的分析側(cè)重于漸進(jìn)偏差,這是一種避免受到有限樣本效應(yīng)和數(shù)值誤差干擾的策略。然而,我們注意到有限樣本效應(yīng)在實(shí)踐中可能很重要,正如我們?cè)诘?.5節(jié)中討論的那樣。

????????在這一點(diǎn)上,增加一些方法論特征的評(píng)論也許是有用的。在有標(biāo)簽和無(wú)標(biāo)簽數(shù)據(jù)的情況下,生成式半監(jiān)督學(xué)習(xí)是一種很有吸引力的策略。但是,應(yīng)該始終從學(xué)習(xí)帶有標(biāo)記數(shù)據(jù)的監(jiān)督分類(lèi)器開(kāi)始。這種“基線(xiàn)”分類(lèi)器可以通過(guò)交叉驗(yàn)證或類(lèi)似技術(shù)與其他半監(jiān)督分類(lèi)器進(jìn)行比較。只要建模假設(shè)看起來(lái)不準(zhǔn)確,就可以使用未標(biāo)記的數(shù)據(jù)來(lái)測(cè)試建模假設(shè)。如果時(shí)間和資源可用,則應(yīng)進(jìn)行模型搜索,試圖達(dá)到一個(gè)“正確”的模型——也就是說(shuō),一個(gè)未標(biāo)記數(shù)據(jù)將真正有益的模型。第4.6節(jié)中討論的技術(shù)可用于此設(shè)置。另一個(gè)步驟是將基線(xiàn)分類(lèi)器與非生成方法進(jìn)行比較。正如本書(shū)其他章節(jié)所討論的,有許多半監(jiān)督的非生成分類(lèi)器。也有大量的方法為了不同的目的使用標(biāo)記和未標(biāo)記的數(shù)據(jù)-例如,未標(biāo)記的數(shù)據(jù)僅用于進(jìn)行維數(shù)約簡(jiǎn)的方法(第12章)。然而,我們應(yīng)該警告的是,文獻(xiàn)中的一些經(jīng)驗(yàn)結(jié)果表明,在非代際半監(jiān)督學(xué)習(xí)范式中,例如轉(zhuǎn)導(dǎo)支持向量機(jī)(SVM)(張和奧爾斯,2000年)和聯(lián)合訓(xùn)練(Ghani,2002年)中,性能下降的可能性。

????????最后一個(gè)方法論評(píng)論涉及到主動(dòng)學(xué)習(xí)——也就是說(shuō),在未標(biāo)記的數(shù)據(jù)中標(biāo)記所選樣本的選項(xiàng)。在可能的情況下,應(yīng)認(rèn)真考慮該選項(xiàng)。在特定問(wèn)題中,使用未標(biāo)記的數(shù)據(jù)最有利可圖的可能正是一個(gè)樣本池,從中可以仔細(xì)選擇和標(biāo)記一些樣本。一般來(lái)說(shuō),我們應(yīng)該取一個(gè)有標(biāo)簽的樣本的值遠(yuǎn)高于一個(gè)沒(méi)有標(biāo)簽的樣本的值。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容