相關(guān)背景
如果網(wǎng)絡(luò)中的圖片,經(jīng)過旋轉(zhuǎn)、平移、縮放及裁剪等操作,網(wǎng)絡(luò)輸出同樣的檢測結(jié)果,那么我們說這個網(wǎng)絡(luò)具有空間變換不變性。
傳統(tǒng)CNN網(wǎng)絡(luò)的池化層具有平移不變性,但是CNN網(wǎng)絡(luò)對于大尺度的空間變換,不具備不變性。
STN提出的空間網(wǎng)絡(luò)變換層,具有保證網(wǎng)絡(luò)保持空間變換不變性的能力。這樣,這個網(wǎng)絡(luò)可以加到現(xiàn)有的卷積網(wǎng)絡(luò)中,提高分類的準(zhǔn)確性。
舉個例子:輸入手寫字體,我們感興趣的是數(shù)字區(qū)域,那么在訓(xùn)練過程中,學(xué)習(xí)到的空間變換網(wǎng)絡(luò)能自動提取局部數(shù)據(jù)特征,并對框內(nèi)的數(shù)據(jù)進行空間變換,得到output。
綜上所示,STN主要有三個作用:
1、可以將輸入轉(zhuǎn)為下一層期望的形式
2、可以在訓(xùn)練中自動選擇感興趣的區(qū)域特征
3、可以實現(xiàn)對各種形變數(shù)據(jù)進行空間變換

算法概述
STN網(wǎng)絡(luò)包含三部分:
1、Localization Network 局部網(wǎng)絡(luò)
2、Parameterised Sampling Grid 參數(shù)化網(wǎng)格采樣
3、Differentiable Image Sampling 差分圖像采樣
1、局部網(wǎng)絡(luò)
輸入:特征圖
輸出:變換矩陣
圖像經(jīng)過變換后,每個點的像素值一定會變化,如何確定變換后每個點的像素值呢?
2、參數(shù)化網(wǎng)格采樣
目的:得到輸出特征圖的特征點對應(yīng)的輸入特征圖的坐標(biāo)點的位置

注意,這里是根據(jù)目標(biāo)圖片中的坐標(biāo)為基礎(chǔ),找輸入照片中對應(yīng)的特征點。
通過這步,我們就得到了目標(biāo)特征圖中每個坐標(biāo)在輸入圖片中的對應(yīng)位置。下面我們就可以直接根據(jù)這個關(guān)系,提取輸入圖片每個位置的像素值。但是有個問題:目標(biāo)圖片的坐標(biāo)對應(yīng)的輸入圖片的坐標(biāo)點,不一定為整數(shù)坐標(biāo)點,而整數(shù)坐標(biāo)點才能提取像素值。
下個步驟就解決了這個問題。
3、差分圖像采樣
這一步完成的任務(wù)就是,利用插值的方式,找到對應(yīng)點的灰度值。

現(xiàn)在再去看一下STN的圖示,應(yīng)該會更好理解一些。
