8.NN特殊結(jié)構(gòu)(1)——Spatial Transformer Layer

這里介紹三種特殊的結(jié)構(gòu):spatial transformer layer,highway network & grid LSTM,還有recursive network。
本節(jié)介紹:spatial transformer layer.

如下圖所示,輸入5和6,你把他直接放大或者旋轉(zhuǎn),對(duì)于CNN來(lái)說(shuō),他認(rèn)為是不一樣的。那怎么辦呢?那中間加一個(gè)Layer,旋轉(zhuǎn)縮放層,即spatial transformer layer,也是一個(gè)NN layer。它不僅可以transform輸入圖像,也可以transform feature map。

那么我們要怎么對(duì)一個(gè)image/feature map做transform呢?我們假設(shè)以下圖左邊這個(gè)image是transform前的結(jié)果layer l-1,右邊這個(gè)image是transform后的結(jié)果layer l,很明顯,這次轉(zhuǎn)換是把image由上往下做了平移。

一般而言,一個(gè)全連接層的式子我們可以寫成:a_{nm}^l = \sum\limits_{i = 1}^3 {\sum\limits_{j = 1}^3 {w_{nm,ij}^la_{ij}^{l - 1}} },第l層里面的每一個(gè)神經(jīng)元的輸出是a_{nm}^l。如果我們想做到以上的這個(gè)平移的轉(zhuǎn)換,我們只要適當(dāng)?shù)恼{(diào)整權(quán)重w_{nm,ij}^l。那么什么樣的weight可以讓我們做到平移這件事呢?即:a_{nm}^l = a_{(n - 1)m}^{l - 1},如果i=n-1,j=m的話,w_{nm,ij}^l = 1,否則,w_{nm,ij}^l = 0,這樣子就可以做到平移。

接下來(lái),我們來(lái)做放縮:

下圖上面是 將圖像放大兩倍的做法;下面是 將圖像縮小,移到右上角的做法:

接下來(lái),我們來(lái)做image的旋轉(zhuǎn):比如,逆時(shí)針旋轉(zhuǎn)120度:

如果我們想要控制兩張image之間的關(guān)系,我們要怎么做呢?如果只是旋轉(zhuǎn)平移縮放的話,即\varphi tranform,我們其實(shí)只需要6個(gè)參數(shù),也就是abcdef這6個(gè)參數(shù),我們就可以把一張image變成另外一張image。即:神經(jīng)網(wǎng)絡(luò)的輸入是一整張image,輸出是一個(gè)六維的vector:[\begin{array}{*{20}{c}} a&b\\ c&d \end{array}][\begin{array}{*{20}{c}} e\\ f \end{array}]

那我們現(xiàn)在舉一個(gè)實(shí)際的例子:


那么如果參數(shù)是小數(shù)的情況呢?如下圖所示,我們計(jì)算出來(lái)結(jié)果是
1.6,2.4
,我們找個(gè)最相近的位置,如下圖箭頭所示:

上面這個(gè)近似有沒(méi)有問(wèn)題呢?
實(shí)際上,我們?cè)谧鲞@個(gè)的時(shí)候,我們需要做interpolation。
1.6,2.4
是介于四個(gè)點(diǎn)中間的,如圖所示:

我們不要把對(duì)應(yīng)的值直接設(shè)成離它距離最近的那個(gè)點(diǎn),如果直接設(shè)成,可能導(dǎo)致沒(méi)有辦法微分。所以,我們的做法應(yīng)該是,
取那四個(gè)點(diǎn)做插值,如下圖所示做法:

現(xiàn)在我們就可以用梯度下降解了,為什么呢?因?yàn)槲覀儼l(fā)現(xiàn),當(dāng)
6
個(gè)參數(shù)有細(xì)微的變化的時(shí)候,計(jì)算得到的左邊的結(jié)果也會(huì)有細(xì)微的變化。第
l
層的
a_{22}^l
也會(huì)有細(xì)微的變化。

動(dòng)畫演示

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容