第五章 機器學習基礎

》擬合訓練數(shù)據(jù)和尋找能夠泛化到新數(shù)據(jù)的參數(shù)有哪些不同。

》如何使用額外的數(shù)據(jù)設置超參數(shù)。

》機器學習本質上屬于應用統(tǒng)計學,更多關注于如何用計算機統(tǒng)計地估計復雜函數(shù),不太關注這些函數(shù)的置信區(qū)間;因此我們會探討兩種統(tǒng)計學的主要方法:頻率估計和貝葉斯推斷

》大部分深度學習算法都基于隨機梯度下降求解。我們將介紹如何組合不同的算法部分,例如優(yōu)化算法、代價函數(shù)、模型和數(shù)據(jù)集,來建立一個機器學習算法。

》一些限制傳統(tǒng)機器學習泛化能力的因素。


1 學習算法

? ? 機器學習算法是一種可以從數(shù)據(jù)中學習的算法。定義(Mitchell,1997):對于某類任務T和性能度量P,一個計算機程序被認為可以從經(jīng)驗E中學習是指,通過經(jīng)驗E改進后,它在任務T上由性能度量P衡量的性能有所提升。

任務,T

機器學習可以解決很多類型的任務。一些非常常見的機器學習任務列舉如下:

圖1 常見的機器學習任務

性能度量,P

? ? 不同任務的性能度量不同。性能度量的選擇或許看上去簡單且客觀,但是選擇一個與系統(tǒng)理想表現(xiàn)對應的性能度量通常是很難的。有些時候,很難決定應該度量什么,實際中要根據(jù)不同的應用設計需要的性能度量;還有一些情況,我們知道應該度量哪些數(shù)值,但是度量它們不太現(xiàn)實。這時可以設計一個替代標準,或者設計一個理想標準的良好近似。

經(jīng)驗,E

? ? 很多學習算法在數(shù)據(jù)集上獲取經(jīng)驗。根據(jù)學習過程中的不同經(jīng)驗,機器學習算法可以大致分類為無監(jiān)督(unsupervised)和監(jiān)督(supervised)。無監(jiān)督學習算法(unsupervised learning algorithm)用于訓練的數(shù)據(jù)集只包含樣本的特征,然后學習出這個數(shù)據(jù)集上有用的結構性質。監(jiān)督學習算法(supervised learning algorithm)用于訓練的數(shù)據(jù)包含樣本的特征和標簽(label)。

2 容量,過擬合和欠擬合

? ? 當我們在訓練數(shù)據(jù)集上訓練一個模型時,通過減小訓練誤差來優(yōu)化模型,此時只是一個優(yōu)化問題;機器學習和優(yōu)化問題不同的是,目的不是將訓練集上的誤差最小化,而是在未觀測過的樣本上也具有良好的表現(xiàn),在先前未觀測到的輸入上表現(xiàn)良好的能力被稱為泛化(generalization)。

訓練誤差(training error):在訓練集上的誤差。

測試誤差(test error)/泛化誤差(generalization error):泛化誤差定義為新輸入的誤差期望,通過測試集上的誤差來度量。

? ? ?我們只用訓練集進行模型的訓練,憑什么期望模型在測試集上也有良好的表現(xiàn)呢?換句話說,訓練集數(shù)據(jù)和測試集數(shù)據(jù)有什么關系呢,當我們只能觀測到訓練集時,我們如何才能影響測試集的性能呢。

? ? ? 統(tǒng)計學習理論(statistical learning theory)告訴我們,如果訓練集和測試集滿足獨立同分布假設(i.i.d.assumption):每個數(shù)據(jù)集中的樣本都是彼此相互獨立的(independent),并且訓練集和測試集是同分布的(identically distributed),即其上數(shù)據(jù)采樣自相同的分布。我們將這個共享的潛在分布稱為數(shù)據(jù)生成分布(data generating distribution)。那么,在數(shù)學上,隨機選擇的模型訓練誤差的期望和測試誤差的期望是相同的。因為假設已知概率分布P(X,y),不論是訓練集還是測試集,都是由該數(shù)據(jù)生成分布重復采樣而得的數(shù)據(jù)集,只不過名字不同,如果概率分布的參數(shù)已經(jīng)固定,兩個采樣數(shù)據(jù)集在隨機模型上的誤差的期望應該相同。當然,當我們使用機器學習算法時,我們不會提前固定參數(shù),然后從數(shù)據(jù)集中采樣。我們會在訓練集上采樣,然后挑選參數(shù)去降低訓練集誤差,然后再在測試集上采樣。在這個過程中,測試誤差期望會大于或等于訓練誤差期望。以下是決定機器學習算法效果是否好的因素:1.降低訓練誤差;2.縮小訓練誤差和測試誤差的差距。這兩個因素對應機器學習的兩個主要挑戰(zhàn):

欠擬合(underfitting):模型不能在訓練集上獲得足夠低的誤差。

過擬合(overfitting):訓練誤差很小但測試誤差大,訓練誤差和和測試誤差之間的差距太大。

? ? ? 這兩個可以通過模型的容量(capacity)來調整。模型的容量是指其擬合各種函數(shù)的能力。容量低的模型可能很難擬合訓練集。容量高的模型可能會過擬合,因為記住了不適用于測試集的訓練集性質。控制訓練算法容量的一種方法是選擇假設空間(hypothesis space),即能夠選為解決方案的學習算法函數(shù)集(個人理解就是模型的選擇)。例如,廣義線性回歸的假設空間是多項式函數(shù),如下圖2。控制模型容量的另一中方法是正則化。

圖2 容量,過擬合和欠擬合

? ? 統(tǒng)計學習理論提供了量化模型容量的不同方法。統(tǒng)計學習理論中最重要的結論闡述了訓練誤差和泛化誤差之間差異的上界隨著模型容量增長而增長,但隨著訓練樣本增多而下降。這些邊界為機器學習算法可以有效解決問題提供了理論驗證,但是它們很少應用于實際中的深度學習算法。

泛化誤差是一個關于模型容量的U形曲線函數(shù),如下所示。

圖3?誤差和模型容量關系

(1)沒有免費的午餐定理 (no free lunch theorem)

? ? ? 在某種意義上,沒有一個機器學習算法總是比其他的要好。這意味著機器學習研究的目標不是找一個通用學習算法或是絕對最好的學習算法。我們的目標是找到在我們關注的數(shù)據(jù)生成分布上效果最好的算法。

(2)正則化

? ? ??正則化是指我們對學習算法所做的降低泛化誤差而非訓練誤差的修改。沒有免費午餐定理已經(jīng)清楚闡述了沒有最優(yōu)的學習算法,這暗示我們必須在特定任務上設計性能良好的機器學習算法。我們建立一組學習算法的偏好來達到這個要求。當這些偏好和我們希望算法解決的學習問題相吻合時,性能會更好。正則化表示了模型的偏好,表示對函數(shù)的偏好是比增減假設空間的成員函數(shù)更一般的去控制模型容量的方法。我們可以將去掉假設空間中的某個函數(shù)看作是對不贊成這個函數(shù)的無限偏好。

3 超參數(shù)和驗證集

通常將數(shù)據(jù)集分為訓練集,驗證機,測試集。

訓練集:用來訓練模型參數(shù)。

驗證機:用來訓練超參數(shù)。

測試集:用來計算泛化誤差,評估模型。

? ? ?不在訓練集上訓練超參數(shù),是因為如果在訓練集上學習超參數(shù),總是趨向于最大可能的模型容量,會導致過擬合。測試集不能用于訓練超參數(shù)是因為測試樣本不能以任何形式參與到模型的選擇,否則最終的評估結果不準確。

4 估計,偏差和方差

(1)點估計

點估計試圖為一些感興趣的量提供單個‘‘最優(yōu)’’預測。一般地,感興趣的量可以是參數(shù),也有可能是整個函數(shù)。點估計(point esti-mator)或統(tǒng)計量(statistics)可以是獨立同分布的數(shù)據(jù)的任意函數(shù)。

點估計也可以指輸入和目標變量之間關系的估計。我們將這類點估計稱為函數(shù)估計。

(2)偏差

估計的偏差定義為:

估計量無偏(unbiased):bias(θ?m) = 0,即E(θ?m) =θ。

估計量漸近無偏(asymptotically unbiased):lim(m→∞)bias(θ?m) = 0,即lim(m→∞)E(θ?m) =θ。

無偏估計并不總是‘‘最好’’的估計。有時經(jīng)常會使用具有重要性質的有偏估計。

(3)方差和標準誤差

(4)權衡偏值和方差以最小化均方誤差

? ? ? 偏差和方差度量著估計量的兩個不同誤差來源。偏差度量著離真實函數(shù)或參數(shù)的誤差期望。而方差度量著數(shù)據(jù)上任意特定采樣可能導致的估計期望的偏差。

均方誤差(mean squared error):

MSE度量著估計和真實參數(shù)θ之間平方誤差的總體期望偏差。MSE估計包含了偏差和方差。偏差和方差的關系和機器學習容量,欠擬合和過擬合的概念緊密相聯(lián)。用MSE度量泛化誤差(偏差和方差對于泛化誤差都是有意義的)時,增加容量會增加方差,降低偏差。如圖所示,我們再次在關于容量的函數(shù)中,看到泛化誤差的U形曲線。

圖4 泛化誤差,偏差,方差和模型容量的關系

(5)一致性

????我們希望。當數(shù)據(jù)集中數(shù)據(jù)點的數(shù)量m增加時,點估計會收斂到對應參數(shù)的真實值。即當m趨近于正無窮時,參數(shù)的點估計會依概率收斂到真實值,這稱為一致性。

????一致性保證了估計量的偏差會隨數(shù)據(jù)樣本數(shù)目的增多而減少。然而,反過來是不正確的——漸近無偏并不意味著一致性。

5 最大似然估計

現(xiàn)有包含m個樣本的數(shù)據(jù)集X,假設真實的數(shù)據(jù)生成分布為p_data(x),我們利用已有的數(shù)據(jù)集得到模型p_model(x ; θ)來模擬p_data(x),即根據(jù)數(shù)據(jù)集估計參數(shù)θ的取值,就可以進行預測了。關于θ的最大似然估計為

為了防止下溢,轉化為對數(shù)似然

性質:

- 最大似然估計最吸引人的地方在于,它被證明是當樣本數(shù)目m→ ∞時,就收斂率而言最好的漸近估計。

- 在一定條件下,訓練樣本數(shù)目趨向于無限大時,參數(shù)的最大似然估計收斂到參數(shù)的真實值。

- 均方誤差是一種衡量和真實參數(shù)相差多少的方法,有參均方誤差估計隨著m的增加而減少,當m較大時,Crame?r-Rao下界表明不存在均方誤差低于最大似然學習的一致估計。

6 貝葉斯統(tǒng)計

貝葉斯用概率反映知識狀態(tài)的確定性程度。貝葉斯估計認為,數(shù)據(jù)集能夠直接觀測到,因此不是隨機的。另一方面,真實參數(shù)θ是未知或不確定的,因此可以表示成隨機變量。在觀察到數(shù)據(jù)前,我們將θ的已知知識表示成先驗概率分布p(θ),然后觀測一個包含m個樣本的數(shù)據(jù)集X。則綜合數(shù)據(jù)集和先驗可以得到對參數(shù)θ的概率分布進行估計

相對于最大似然估計,貝葉斯估計有兩個重要區(qū)別。第一,不像最大似然方法預測時使用θ的點估計,貝葉斯方法預測θ的全分布。例如,在觀測到m個樣本后,下一個數(shù)據(jù)樣本,x(m+1),的預測分布如下:

貝葉斯方法和最大似然方法的第二個最大區(qū)別是由貝葉斯先驗分布造成的。先驗能夠影響概率質量密度朝參數(shù)空間中偏好先驗的區(qū)域偏移。實踐中,先驗通常表現(xiàn)為偏好更簡單或更光滑的模型。對貝葉斯方法的批判認為先驗是人為主觀判斷影響預測的來源。當訓練數(shù)據(jù)很有限時,貝葉斯方法通常泛化得更好,但是當訓練樣本數(shù)目很大時,通常會有很高的計算代價。

6.1?最大后驗(MAP)估計

貝葉斯有時求解非常困難,可用最大后驗求得近似解。

MAP估計選擇后驗概率最大的點(或在θ是連續(xù)值的更常見情況下,概率密度最大的點):

我們可以認出上式右邊的logp(x|θ)對應著標準的對數(shù)似然項,logp(θ)對應著先驗分布。

MLE,貝葉斯,MAP? ?-----------? ?三種方法都是參數(shù)估計的方法。

應用場景:預先知道/假設樣本的分布形式,只是一些參數(shù)未知。給定數(shù)據(jù)集,進行參數(shù)估計。

區(qū)別:

MLE:最簡單的形式,最大似然把待估的參數(shù)看做是確定性的量,只是其取值未知。最佳估計就是使得產生以觀測到的樣本的概率最大的那個值,即找到使得樣本對數(shù)似然分布最大的參數(shù)即可??梢岳斫鉃?,求解使已經(jīng)觀測到的數(shù)據(jù)集出現(xiàn)概率最大的參數(shù)。

MAP:和最大似然很相似,也是假定參數(shù)未知,但是為確定數(shù)值。只是優(yōu)化函數(shù)為后驗概率形式,多了一個先驗概率項。

貝葉斯:假定參數(shù)是隨機變量,不是確定值。在樣本分布D上,計算參數(shù)所有可能的情況,并通過基于參數(shù)期望,計算類條件概率密度。貝葉斯估計和MLE不同地方在于,把待估計的參數(shù)看成是符合某種先驗概率分布的隨機變量。對樣本進行觀測的過程,就是把先驗概率密度轉化為后驗概率密度,這樣就利用樣本的信息修正了對參數(shù)的初始估計值。在貝葉斯估計中,一個典型的效果就是,每得到新的觀測樣本,都使得后驗概率密度函數(shù)變得更加尖銳,使其在待估參數(shù)的真實值附近形成最大的尖峰。

聯(lián)系:

參數(shù)估計問題是統(tǒng)計學中的經(jīng)典問題。最常用的和有效的方法就是:最大似然和貝葉斯估計。? ?

當參數(shù)分布為尖峰,且該參數(shù)對應樣本分布比較平坦時,極大似然近似于貝葉斯。

總體上,極大似然計算簡單,而貝葉斯在某些特殊情況下,效果好于極大似然。

參考:

http://blog.sina.com.cn/s/blog_6ae1839101012xur.html

http://bealin.github.io/2017/02/27/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%B3%BB%E5%88%97%E2%80%944-%E5%8F%82%E6%95%B0%E4%BC%B0%E8%AE%A1%E6%96%B9%E6%B3%95-%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1%E5%92%8C%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%8F%82%E6%95%B0%E4%BC%B0%E8%AE%A1/

http://crescentmoon.info/2013/06/29/Gibbs%20Sampling%20for%20the%20UniniTiated-1/

http://www.itdecent.cn/p/4cee5817a61f

7 監(jiān)督學習算法

策略:很多監(jiān)督學習算法都是基于估計概率分布p(y|x)。

????首先,確定正確的輸入和輸出變量上的有參條件概率分布族p(y|x;θ);然后找到對于有參分布族p(y|x;θ)最好的參數(shù)向量,尋找參數(shù)時簡單的問題如線性回歸可通過求解正規(guī)方程得到最佳參數(shù),更一般的問題,最佳權重沒有閉解,使用最大似然估計求解,通過梯度下降最小化負對數(shù)似然求得最佳權重參數(shù)。

例如,線性回歸;邏輯回歸;支持向量機;k近鄰回歸 - 非參數(shù)學習算法;決策樹,及其變種 - 一類將輸入空間分成不同區(qū)域,每個區(qū)域有獨立的參數(shù)的算法。若允許學習任意大小的決策樹,那么可以被視作非參數(shù)算法。然而實踐中通常有大小限制作為正則化項將其轉變成有參模型。決策樹學習結果是一個分塊常數(shù)函數(shù),每一個葉結點一個區(qū)域,每個葉需要至少一個訓練樣本來定義,所以決策樹不可能用來學習一個擁有比訓練樣本數(shù)量還多的局部極大值的函數(shù)。

8 無監(jiān)督學習算法

從不需要認為標注樣本的分布中抽取信息:從分布中采樣,從分布中去噪,得到數(shù)據(jù)分布的流形,將數(shù)據(jù)中相關的樣本聚類等。

一個經(jīng)典的無監(jiān)督學習任務是找到數(shù)據(jù)的“最佳”表示。即該表示比本身更簡單,且盡可能保存更多本身的信息。更簡單包括:低維表示,稀疏表示,獨立表示。

主成分分析:學習了一種元素之間彼此沒有線性相關的表示,可以消除數(shù)據(jù)中未知變動因素。- 獨立表示。

k-均值聚類:- 稀疏表示

9 隨機梯度下降(SGD)

核心思想:梯度是期望,期望可使用小規(guī)模的樣本近似估計。優(yōu)化算法可能不能保證在合理的時間內達到一個局部最小值,但它通常能夠很快地找到損失函數(shù)的一個可以用的非常低的值。

訓練集樣本量m,minibatch大小m',實踐中當m增加時通常會使用一個更大的模型(不是必須的),達到收斂所需的更新次數(shù)通常會隨著訓練集規(guī)模m的增大而增加。然而,當m趨向于無限大時,該模型最終會在一定迭代后收斂到可能的最優(yōu)測試誤差。繼續(xù)增加m不會延長達到模型可能的最優(yōu)測試誤差的時間。所以,可以認為SGD訓練模型的漸近代價是關于訓練集樣本量m的函數(shù)的O(1)級別。

10 構建機器學習算法

通用的深度學習算法配方:特定數(shù)據(jù)集,損失函數(shù),優(yōu)化過程和模型。

最常見的損失函數(shù)是負對數(shù)似然,最小化損失函數(shù)即最大似然估計。損失函數(shù)可能有附加項,如正則化項。

11 推動深度學習的挑戰(zhàn)

深度學習發(fā)展動機的一部分原因是傳統(tǒng)學習算法在諸如語音識別,對象識別的人工智能問題上的泛化能力不行。

為何處理高維數(shù)據(jù)時在新樣本上泛化特別困難?

為何傳統(tǒng)機器學習中實現(xiàn)泛化的機制不適合學習高維空間中的復雜函數(shù)?

11.1 維數(shù)災難

當數(shù)據(jù)的維數(shù)很高時,很多機器學習問題變得相當困難,這種現(xiàn)象被稱為維數(shù)災難。需要注意的是,一組變量不同的可能配置數(shù)量會隨著變量數(shù)目的增加而指數(shù)級增長。


由維數(shù)災難帶來的一個挑戰(zhàn)是統(tǒng)計挑戰(zhàn)。統(tǒng)計挑戰(zhàn)產生于樣本的可能配置數(shù)目遠大于訓練樣本的數(shù)目。許多傳統(tǒng)的及機器學習方法只是簡單地假設在一個新點的輸出應大致和最接近的訓練點的輸出相同。然而在高維空間中,這個假設是不夠的。(因為在高維空間中,一個樣本周圍可能沒有樣本,參數(shù)配置數(shù)目遠大于樣本數(shù)目,大部分配置沒有相關的樣本。)

11.2 局部不變性和平滑正則化

為了更好地泛化,機器學習算法需要由先驗信念引導應該學習什么樣的函數(shù)。

其中最廣泛使用的隱式“先驗”是平滑先驗/局部不變性先驗。這個先驗表明我們學習的函數(shù)不應在小區(qū)域內發(fā)生很大的變化。

許多簡單算法完全依賴于此先驗達到良好的泛化,其結果是不能推廣去解決人工智能級別任務中的統(tǒng)計挑戰(zhàn)。而深度學習引入額外的(顯示的和隱式的)先驗去降低復雜任務中的泛化誤差,具體內容后面章節(jié)介紹。

為什么平滑先驗不足以應對這這類人工智能任務?

因為具有光滑或局部不變的先驗的函數(shù)都旨在鼓勵學習過程能夠學習出函數(shù)使得對某個樣本及其鄰域具有相同或相似的輸出。也就是說,如果在輸入x處效果良好,那么在其鄰域上效果也良好。如果在有些鄰域中有好幾個答案,我們可以組合他們(通過某種形式的平均或插值法)以產生一個盡可能和大多數(shù)輸入一致的答案。然而,這類平滑先驗的局限性就是無法表示比樣本數(shù)還多的復雜函數(shù)。例如,k近鄰方法,一個極端的例子就是k=1時,不同區(qū)域的數(shù)目不可能比訓練樣本還多;局部核可以看作是執(zhí)行模版匹配的相似函數(shù),也是在和訓練樣本附近相關的訓練集輸出上插值;決策樹也有平緩學習的局限性,因為它將輸入空間分成葉結點一樣多的區(qū)間,并在每個區(qū)間使用單獨的參數(shù),如果目標函數(shù)需要至少n個葉結點去精確表示,那么需要至少n個訓練樣本去擬合,需要幾倍于n的樣本去達到預測輸出上的某種統(tǒng)計置信度。

總的來說,區(qū)分輸入空間中O(k)個區(qū)間,平滑先驗類的算法需要O(k)個樣本。通常會有O(k)個參數(shù)。

有沒有什么方法能表示區(qū)間數(shù)目比樣本數(shù)目還多的復雜函數(shù)?顯然,只是假設函數(shù)的平滑性不能做到這點。例如,想象目標函數(shù)是一種棋盤。棋盤包含許多變化,但只有一個簡單的結構。想象一下,如果訓練樣本數(shù)目遠小于棋盤上的黑白方塊數(shù)目,那么會發(fā)生什么?;诰植糠夯推交曰蚓植坎蛔冃韵闰灒绻曼c和某個訓練樣本位于相同的棋盤方塊中,那么我們能夠保證正確預測新點的顏色。但如果新點位于棋盤中不包含訓練樣本的方塊中,無法保證預測能夠正確。單單是這個先驗,一個樣本只能告訴我們它所在的方塊的顏色。獲得整個棋盤顏色的唯一方法是其上的每個方塊至少要有一個樣本。當我們利用一組樣本去學習函數(shù)時,若要學習的函數(shù)足夠平滑并且只在少數(shù)幾維變動,一般算法的效果非常好;然而在高維空間中,即使是非常平滑的函數(shù)也會在不同維度上有不同的平滑變動程度。如果函數(shù)在不同的區(qū)間中表現(xiàn)不一樣,那么就非常難用一組訓練樣本去刻畫。那么這樣復雜的函數(shù)(能區(qū)分多于訓練樣本數(shù)目的大量區(qū)間),有希望很好地泛化么?答案是有。關鍵是,只要我們在區(qū)間相關性上引入額外的數(shù)據(jù)生成分布的假設,那么O(k)個樣本是足以描述多如O(2^k)的大量區(qū)間。這樣,我們真的能做到非局部的泛化。許多不同的深度學習算法提出隱式或顯式的適用于大范圍人工智能問題的合理假設,使其可以利用這些優(yōu)勢。

一些機器學習方法往往會提出更強的,針對特定問題的假設。例如,假設目標函數(shù)是周期性的,我們很容易解決棋盤問題。通常,神經(jīng)網(wǎng)絡不會包含這些很強的,針對特定任務的假設,因此神經(jīng)網(wǎng)絡可以泛化到更廣泛的各種結構中。人工智能任務的結構非常復雜,很難限制到簡單的,人工手動指定的性質,如周期性,因此我們希望學習算法具有更通用的假設。深度學習的核心思想是假設數(shù)據(jù)由因素或特征組合,潛在地由層次結構中多個層級產生。許多其他類似的通用假設進一步提高了深度學習算法。這些很溫和的假設在樣本數(shù)目和可區(qū)分區(qū)間數(shù)目之間具有指數(shù)增益。這類指數(shù)增益將在第6.4.1節(jié),第15.4節(jié)和第15.5節(jié)中被更詳盡地介紹。深度分布式表示帶來的指數(shù)增益有效解決了維數(shù)災難帶來的挑戰(zhàn)。

11.3 流形學習

流形是一個機器學習中很多想法內在的重要概念。

流形(manifold)指連接在一起的區(qū)域。數(shù)學上,它是指一組點,且每個點都有其鄰域。但是在機器學習中,傾向于更松散地定義一組點,且允許流形的維數(shù)從一個點到另一個點有所變化。例如,“8”形狀的流形在大多數(shù)位置只有一維,但在中心的相交處有兩維。

如果令機器學習算法學習特征空間上的所有感興趣的函數(shù),那么很多機器學習問題看上去都是不可解的。流形學習算法通過一個假設來克服這個障礙,該假設認為特征空間中大部分區(qū)域都是無效的輸入,感興趣的輸入只分布在包含少量點的子集構成的一組流形中,而學習函數(shù)中感興趣輸出的變動只位于流形中的方向,或者感興趣的變動只發(fā)生在我們從一個流形移動到另一個流形的時候。

上面說的流形學習的假設并不總是對的或者有用的,但在一些處理圖像,文本等人工智能任務時,流形假設至少是近似對的,支持該假設的證據(jù)包含兩類觀察結果:一,第一個支持流形假設的觀察是現(xiàn)實生活中的圖像,文本,聲音的概率分布都是高度集中的。均勻的噪擾從來沒有和這類領域的結構化輸入相似過。說明生活中的圖像,文本,聲音等只占了其所在總空間里非常小的一部分。當然,集中的概率分布不足以說明數(shù)據(jù)位于一個相當小的流形中。我們還必須確定,我們遇到的樣本和其他樣本相互連接,每個樣本被其他高度相似的樣本包圍,可以通過變換來遍歷流形。二,支持流形假設的第二個論點是,我們至少能夠非正式地想象這些鄰域和變換。在圖像中,我們會認為有很多可能的變換允許我們描繪出圖片空間的流形,如調整亮度,移動旋轉,改變顏色等等。在大多數(shù)應用中很可能會涉及多個流形。例如,人臉圖像的流形不太可能連接到貓臉圖像的流形。

當數(shù)據(jù)位于低維流形時,使用流形中的坐標,而非特征空間的坐標表示機器學習數(shù)據(jù)更為自然。日常生活中,我們可以認為道路是嵌入在三維空間的一維流形。我們用一維道路中的地址號碼確定地址,而非三維空間中的坐標。提取這些流形中的坐標是非常具有挑戰(zhàn)性的,但是很有希望改進許多機器學習算法。

本章(第一部分:應用數(shù)學+機器學習基礎)介紹了機器學習中的基本概念,這將用于本書的其他章節(jié)中。至此,我們已經(jīng)完成了開始學習深度學習的準備。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容