神經(jīng)網(wǎng)絡(luò)感知器法則和梯度下降介紹

姓名:郭效楊 ? 學(xué)號(hào):17021223258

【嵌牛導(dǎo)讀】:平時(shí)在機(jī)器學(xué)習(xí)算法中我們聽(tīng)過(guò)感知器法則以及被提的最多的梯度下降,那么什么是梯度下降呢?本文講述了梯度下降和感知器法則。

【嵌牛鼻子】:神經(jīng)元,神經(jīng)網(wǎng)絡(luò),感知器法則,梯度下降。

【嵌牛提問(wèn)】:什么是感知器法則?什么是梯度下降?適用于什么情況?

【嵌牛正文】:

神經(jīng)網(wǎng)絡(luò)是一門重要的機(jī)器學(xué)習(xí)技術(shù)。它是目前最為火熱的研究方向--深度學(xué)習(xí)的基礎(chǔ)。學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)不僅可以讓你掌握一門強(qiáng)大的機(jī)器學(xué)習(xí)方法,同時(shí)也可以更好地幫助你理解深度學(xué)習(xí)技術(shù)。

1.前言

讓我們來(lái)看一個(gè)經(jīng)典的神經(jīng)網(wǎng)絡(luò)。這是一個(gè)包含三個(gè)層次的神經(jīng)網(wǎng)絡(luò)。紅色的是輸入層,綠色的是輸出層,紫色的是中間層(也叫隱藏層)。輸入層有3個(gè)輸入單元,隱藏層有4個(gè)單元,輸出層有2個(gè)單元。后文中,我們統(tǒng)一使用這種顏色來(lái)表達(dá)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。

設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)時(shí),輸入層與輸出層的節(jié)點(diǎn)數(shù)往往是固定的,中間層則可以自由指定;

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖中的拓?fù)渑c箭頭代表著預(yù)測(cè)過(guò)程時(shí)數(shù)據(jù)的流向,跟訓(xùn)練時(shí)的數(shù)據(jù)流有一定的區(qū)別;

結(jié)構(gòu)圖里的關(guān)鍵不是圓圈(代表“神經(jīng)元”),而是連接線(代表“神經(jīng)元”之間的連接)。每個(gè)連接線對(duì)應(yīng)一個(gè)不同的權(quán)重(其值稱為權(quán)值),這是需要訓(xùn)練得到的。

2.結(jié)構(gòu)

神經(jīng)元模型是一個(gè)包含輸入,輸出與計(jì)算功能的模型。輸入可以類比為神經(jīng)元的樹(shù)突,而輸出可以類比為神經(jīng)元的軸突,計(jì)算則可以類比為細(xì)胞核。

下圖是一個(gè)典型的神經(jīng)元模型:包含有3個(gè)輸入,1個(gè)輸出,以及2個(gè)計(jì)算功能。

注意中間的箭頭線。這些線稱為“連接”。每個(gè)上有一個(gè)“權(quán)值”

通常情況下,輸入都不能為0,因此我們要把其中的第一個(gè)輸入設(shè)為1,權(quán)值用w表示,輸入用x表示,如上圖對(duì)所有的輸入乘以權(quán)值w,然后求和,設(shè)定閾值,如果超過(guò)閾值則神經(jīng)元被激活,否則將會(huì)處于休眠狀態(tài)。

在一般情況下,對(duì)于線性可分問(wèn)題,我們最早用的是感知器法則,wi=wi+Δwi,其中?wi=η(t-o)xi? ,η代表學(xué)習(xí)率,是一個(gè)很小的常數(shù),t是訓(xùn)練樣例的實(shí)際輸出,o是訓(xùn)練樣例的期望輸出,對(duì)于每個(gè)w我們都用這樣的方法去更新,最終會(huì)得到收斂到正確的權(quán)值。

當(dāng)對(duì)于訓(xùn)練樣例不是線性可分的時(shí)候,我們不能采用這種方法,出現(xiàn)了delta法則與梯度下降,簡(jiǎn)單的認(rèn)為是訓(xùn)練一個(gè)無(wú)閾值的感知器。

先指定一個(gè)度量標(biāo)準(zhǔn)來(lái)衡量假設(shè)(權(quán)向量)相對(duì)于訓(xùn)練樣例的訓(xùn)練誤差(training error)。

其中D是訓(xùn)練樣例集合,td是訓(xùn)練樣例d的目標(biāo)輸出,od是線性單元對(duì)訓(xùn)練樣例d的輸出。E(w)是目標(biāo)輸出td和線性單元輸出od的差異的平方在所有的訓(xùn)練樣例上求和后的一半,方便求導(dǎo)。我們定義E為w的函數(shù),是因?yàn)榫€性單元的輸出o依賴于這個(gè)權(quán)向量。

為了確定一個(gè)使E最小化的權(quán)向量,梯度下降搜索從一個(gè)任意的初始向量開(kāi)始,然后以很小的步伐反復(fù)修改這個(gè)向量。每一步都沿誤差曲線產(chǎn)生最陡峭的下降方向修改權(quán)向量,繼續(xù)這個(gè)過(guò)程直到得到全局的最小誤差點(diǎn)??梢酝ㄟ^(guò)計(jì)算E相對(duì)向量w的的每個(gè)分量的導(dǎo)數(shù)來(lái)得到這個(gè)方向。這個(gè)向量導(dǎo)數(shù)被稱為E對(duì)于W的梯度(gradient),記作ΔE(w).確定了方向后:

其中:

對(duì)于每個(gè)wi



因此,訓(xùn)練線性單元的梯度下降算法如下:選取一個(gè)初始的隨機(jī)權(quán)向量;應(yīng)用線性單元到所有的訓(xùn)練樣例,然后根據(jù)公式計(jì)算每個(gè)權(quán)值的Δwi;通過(guò)加上Δwi來(lái)更新每個(gè)權(quán)值,然后重復(fù)這個(gè)過(guò)程。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容