2018-06-30

萬(wàn)能近似定理(Universal approximation theorem)描述:

In the?mathematical?theory of?artificial neural networks, theuniversal approximation theoremstates that a?feed-forward?network with a single hidden layer containing a finite number of?neurons?can approximate?continuous functions?on?compact subsets?ofR, under mild assumptions on the activation function.

Universal approximation theorem(Hornik et al., 1989;Cybenko, 1989)定理表明:前饋神經(jīng)網(wǎng)絡(luò),只需具備單層隱含層和有限個(gè)神經(jīng)單元,就能以任意精度擬合任意復(fù)雜度的函數(shù)。這是個(gè)已經(jīng)被證明的定理。

線性回歸(Linear Regression)

舉例引入:變量X表示輸入,變量Y表示輸出,存在一個(gè)數(shù)據(jù)集,如圖1

圖1:數(shù)據(jù)集

我們的目標(biāo)是構(gòu)建一個(gè)數(shù)學(xué)模型,使得該模型滿足數(shù)據(jù)集的隱含規(guī)律。即:向模型輸入X,模型會(huì)輸出正確的值Y。

如果以學(xué)過(guò)的一元函數(shù)y=wx+b為例,用比較簡(jiǎn)單的函數(shù)去模擬數(shù)據(jù)集的規(guī)律。定義一個(gè)一元一次函數(shù)模型,如圖2:

圖2:一元一次函數(shù)模型

那么應(yīng)該如果確定函數(shù)的兩個(gè)參數(shù)w,b呢?一般的方法是先隨機(jī)取值或者猜一個(gè)合適的數(shù)值,觀察輸出的結(jié)果,如圖3。

圖3:候選參數(shù)的模型1

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),候選參數(shù)的模型1輸出值y與真實(shí)值y相差很大,所以之前猜測(cè)的參數(shù)并不合適,需要進(jìn)行參數(shù)的調(diào)整,如圖4。

圖4: 候選參數(shù)的模型2

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),候選參數(shù)的模型2輸出值y與真實(shí)值y還是存在差距,但是相較于模型1,顯然差距更小。那么如何定義候選模型更精準(zhǔn)呢?這需要量化輸出值和真實(shí)值之間的差值。此處引入損失函數(shù)(lost function)的概念,如圖4。


圖4:損失函數(shù)

將模型輸出值與真實(shí)值之間的差值平方和作為一種更好的量化。損失函數(shù)越小,表明預(yù)測(cè)值與真實(shí)值之間的差值越小,說(shuō)明參數(shù)w,b越能精確模擬數(shù)據(jù)集中的規(guī)律。

補(bǔ)充內(nèi)容:歐式舉例——?dú)W式距離是每個(gè)點(diǎn)到函數(shù)直線上的最短距離。歐式舉例的另一種翻譯是最小二乘法(least square method)。最小二乘法——最小二乘法是機(jī)器學(xué)習(xí)中的概念,是設(shè)法找到一條直線確定參數(shù)w,b,使所有的樣本(數(shù)據(jù)集)到直線上的歐式舉例最小。最小二乘法示例如下圖5.

圖5: 最小二乘法示例

有了損失函數(shù)之后,可以量化地比較候選參數(shù)模型,比較他們的損失函數(shù)值各是多少,如圖6。

圖6:候選參數(shù)模型1,2的損失函數(shù)值

根據(jù)損失函數(shù)L(w,b)可以看出模型2更好一些。但是如果希望損失函數(shù)再小一些,就要引入優(yōu)化器(Optimizer)的概念,如圖7。其中,argminL(w,b)中的argmin表示L(w,b)取得最小值時(shí)自變量w,b的取值。

圖7:優(yōu)化器

想辦法找出最小損失函數(shù)值L(w,b)對(duì)應(yīng)的參數(shù)w,b,優(yōu)化器的選擇是一個(gè)學(xué)問(wèn),常用的優(yōu)化器是梯度下降法。但是最笨拙的方法是隨機(jī)嘗試法。在原有(w,b)=(2,2)的基礎(chǔ)上,往周圍擴(kuò)散,最后可以發(fā)現(xiàn)(w,b)=(2,2)時(shí),損失函數(shù)值最小,等于0。其參數(shù)的搜索過(guò)程涉及到了最優(yōu)搜索辦法,不在本內(nèi)容的范圍。但是模型制定的基本思路已經(jīng)清晰,如圖8。

圖8:參數(shù)模型基本思路

上述的內(nèi)容是線性回歸,如果對(duì)線性回歸有一個(gè)更嚴(yán)謹(jǐn)?shù)亩x,那就要引用《機(jī)器學(xué)習(xí)》(周志華著)的定義:

線性回歸(linear regression)是試圖學(xué)得一個(gè)線性模型以盡可能準(zhǔn)確地預(yù)測(cè)實(shí)值輸出標(biāo)記。

對(duì)應(yīng)到我們的模型中,模型函數(shù)為y=4x-4,此模型為線性模型。此模型預(yù)測(cè)的結(jié)果可以將損失函數(shù)達(dá)到0,可以百分之百預(yù)測(cè),如圖9,但是一般的實(shí)際情況只能達(dá)到盡可能準(zhǔn)確地預(yù)測(cè)真實(shí)值。

圖9:線性回歸

如果將上述的例子擴(kuò)展一下,比如有三個(gè)自變量x1,x2,x3的輸入,會(huì)有一個(gè)因變量y的輸出,那么模型一般會(huì)設(shè)為三元函數(shù)。有三個(gè)輸入變量(x1,x2,x3),那么就會(huì)需要4個(gè)參數(shù)(w1,w2,w3,w4)進(jìn)行優(yōu)化。我們將這種情況成為多元線性回歸(multivariate linear regression)。其實(shí)這也是圖像識(shí)別的原型模型。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容