深度學(xué)習(xí)(1)Spatial Transform Network

相關(guān)背景

如果網(wǎng)絡(luò)中的圖片,經(jīng)過旋轉(zhuǎn)、平移、縮放及裁剪等操作,網(wǎng)絡(luò)輸出同樣的檢測結(jié)果,那么我們說這個網(wǎng)絡(luò)具有空間變換不變性。

傳統(tǒng)CNN網(wǎng)絡(luò)的池化層具有平移不變性,但是CNN網(wǎng)絡(luò)對于大尺度的空間變換,不具備不變性。

STN提出的空間網(wǎng)絡(luò)變換層,具有保證網(wǎng)絡(luò)保持空間變換不變性的能力。這樣,這個網(wǎng)絡(luò)可以加到現(xiàn)有的卷積網(wǎng)絡(luò)中,提高分類的準(zhǔn)確性。

舉個例子:輸入手寫字體,我們感興趣的是數(shù)字區(qū)域,那么在訓(xùn)練過程中,學(xué)習(xí)到的空間變換網(wǎng)絡(luò)能自動提取局部數(shù)據(jù)特征,并對框內(nèi)的數(shù)據(jù)進行空間變換,得到output。

綜上所示,STN主要有三個作用:
1、可以將輸入轉(zhuǎn)為下一層期望的形式
2、可以在訓(xùn)練中自動選擇感興趣的區(qū)域特征
3、可以實現(xiàn)對各種形變數(shù)據(jù)進行空間變換

手寫字的空間轉(zhuǎn)換網(wǎng)絡(luò)示意圖

算法概述

STN網(wǎng)絡(luò)包含三部分:
1、Localization Network 局部網(wǎng)絡(luò)
2、Parameterised Sampling Grid 參數(shù)化網(wǎng)格采樣
3、Differentiable Image Sampling 差分圖像采樣

1、局部網(wǎng)絡(luò)

輸入:特征圖
輸出:變換矩陣

圖像經(jīng)過變換后,每個點的像素值一定會變化,如何確定變換后每個點的像素值呢?

2、參數(shù)化網(wǎng)格采樣

目的:得到輸出特征圖的特征點對應(yīng)的輸入特征圖的坐標(biāo)點的位置

尋找對應(yīng)點

注意,這里是根據(jù)目標(biāo)圖片中的坐標(biāo)為基礎(chǔ),找輸入照片中對應(yīng)的特征點。

通過這步,我們就得到了目標(biāo)特征圖中每個坐標(biāo)在輸入圖片中的對應(yīng)位置。下面我們就可以直接根據(jù)這個關(guān)系,提取輸入圖片每個位置的像素值。但是有個問題:目標(biāo)圖片的坐標(biāo)對應(yīng)的輸入圖片的坐標(biāo)點,不一定為整數(shù)坐標(biāo)點,而整數(shù)坐標(biāo)點才能提取像素值。

下個步驟就解決了這個問題。

3、差分圖像采樣

這一步完成的任務(wù)就是,利用插值的方式,找到對應(yīng)點的灰度值。

雙線性差值

現(xiàn)在再去看一下STN的圖示,應(yīng)該會更好理解一些。


SNT
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容