2021 卷積神經(jīng)網(wǎng)絡(luò)—揭開卷積背后的面紗

cnn_cover.png

在開始介紹卷積神經(jīng)網(wǎng)絡(luò)之前,覺得有必要先說(shuō)一說(shuō)計(jì)算機(jī)是如何讀解圖像語(yǔ)義的。在計(jì)算機(jī)中是采用什么樣數(shù)據(jù)結(jié)構(gòu)來(lái)保存圖像。只有理解這些內(nèi)容我們還此基礎(chǔ)上開始研究讓給你計(jì)算機(jī)像人類一樣讀取圖片語(yǔ)義來(lái)做一些計(jì)算機(jī)任務(wù)。

我在西瓜視頻發(fā)布相關(guān)視頻,賬號(hào) zidea 頭像和簡(jiǎn)書一致,希望大家多多關(guān)注。

computer_vision.jpg

其實(shí)用矩陣來(lái)保存一張圖像,通過(guò)將 3 維矩陣來(lái)表示一張圖像,可以理解將圖像切分一個(gè)一個(gè)小方塊 (pixel) 每個(gè)小方塊都有一個(gè)位置信息坐標(biāo),pixel 顏色通過(guò) RBG 來(lái)表示,可能還具有透明通道,或者帶有表示深度的通道,就用這些信息來(lái)表示一張圖像輸入給計(jì)算機(jī)。這樣這種表示存儲(chǔ)圖像方式比較低級(jí),會(huì)丟失許多語(yǔ)義信息。

conv_008.jpg

我們可以將圖像理解為一個(gè)函數(shù) f(x,y) 其中 xy 表示像素位置,輸出一個(gè)像素 RGB 值。

conv_016.png
conv_017.png

那么計(jì)算機(jī)在面對(duì)這些只有位置和顏色的信息數(shù)據(jù),想要得到更多信息就需要靠自己,因?yàn)樾畔⒉蛔?,這樣對(duì)于計(jì)算機(jī)來(lái)理解或者讀懂一張圖片的語(yǔ)義無(wú)形帶來(lái)困難。

conv_009.jpeg

以及有關(guān)圖像的一些問(wèn)題,我們需要讀懂一張圖像就像知道圖像變化,計(jì)算機(jī)通過(guò)感知這些變化(邊緣變化),有了邊緣信息可以將圖像進(jìn)行分隔具有一定含義區(qū)域。


conv_007.png

為了把握?qǐng)D片 intensity 變化看層空間上變換,空間變化程度可以看成圖片的一些特征,在邊和角是圖片。

conv_006.png

我們可以將圖像處理為灰度圖,在灰度圖中明暗可以 intensity 來(lái)描述圖片。這里 intensity 可以簡(jiǎn)單理解為我們某一像素(點(diǎn))對(duì)光感知程度。怎么把這件事說(shuō)清楚呢。我們看到物體是物體反射的光,發(fā)生不同顏色光以及光強(qiáng)度來(lái)反映一個(gè)物體。在計(jì)算機(jī)上我們將圖像數(shù)字化過(guò)程,就是給圖像每一個(gè)位置一個(gè)像素值,這個(gè)值可以分解為多個(gè)通道,值大小表示感光的程度。這就是我們?cè)谟?jì)算機(jī)視覺中要研究的對(duì)象。

通過(guò) 3D 視圖形象地將我們?nèi)绾瓮ㄟ^(guò)灰度圖 intensity 來(lái)表示圖。接下來(lái)說(shuō)一說(shuō)卷積,

卷積

學(xué)習(xí)卷積神經(jīng)也有一段時(shí)間,雖然已經(jīng)了解到了如何將卷積應(yīng)用到圖像進(jìn)行運(yùn)算來(lái)得到特征圖,以及卷積如何應(yīng)用圖片上進(jìn)行濾波、降噪、銳化以及邊緣檢測(cè)。但是如何要深究卷積,還是有點(diǎn)摸不到頭腦。所以收集一些資料。

我們先把公式拋出來(lái),大家先看一看,覺得有點(diǎn)陌生也不要緊,接下來(lái)我們就來(lái)詳細(xì)解釋這個(gè)公式由來(lái)以及其應(yīng)用

(f * g)(n) = \int_{-\infty}^{+ \infty} f(\tau)g(n - \tau) d \tau

(f*g)(n) = \sum_{-\infty}^{ \infty} f(\tau)g(n - \tau) d \tau

  • f(x),g(x) 是在 \mathbb{R} 上可以積分的函數(shù)
  • 大家可能已經(jīng)注意到了 \tau + (n - \tau) = n
  • 所謂積分就是曲線進(jìn)行切分很小的間隔然后進(jìn)行求和,其實(shí)所謂的積分就是求和

P_1(x) = \frac{1}{6}

z= (x+y) = 3

  • 假設(shè)兩次抽取撲克牌概率是獨(dú)立
    P(z=3) = P_1(1)P_1(2)+ \cdots + P_1(2)P_1(1)
001.jpg

接下來(lái)用圖解方式給大家詳細(xì)介紹卷積,以及卷積的過(guò)程,假設(shè)我們有兩個(gè)骰子,每次一起投擲骰子。通過(guò)連線來(lái)表示兩兩組合。

002.png

如果我們找出兩個(gè)骰子數(shù)加起來(lái)為 6 的組合,通過(guò)連線方式表達(dá)出來(lái)

003.png

同上,如果我們想要找出兩個(gè)骰子數(shù)加起來(lái)為 8 的組合,通過(guò)連線方式表達(dá)出來(lái)。不過(guò)這樣連線看起來(lái)不是很舒服,所以我們可以通過(guò)翻卷得到就得到下面的形式,這就是卷積的由來(lái)。

005.png

這張圖


006.png
007.png

我們把一個(gè)骰子做行,另一個(gè)骰子作為列組成一個(gè)矩陣,如果再次選擇讓兩個(gè)骰子數(shù)值相加得到某一個(gè)數(shù)值時(shí),組合情況用顏色表示出來(lái)如以下幾張圖,就有點(diǎn)像將一張 paper 從右上角開始卷起。

008.png
009.png
010.png

卷積的特性

  • 濾波Filtering
  • 卷積Convolution
  • 矩陣Matrix
  • 顏色值Color values
  • 卷積核 kernel:

空間頻率

卷積濾波用于修改圖像的空間頻率特性。

卷積的定義

  • 一般卷積可以用于圖片的濾鏡效果,是對(duì)圖像
  • 卷積是運(yùn)算,用整數(shù)組成的矩陣掃過(guò)圖像
  • 卷積在圖片上作用可以看作,通過(guò)將所有相鄰像素的加權(quán)值相加來(lái)確定中心像素的值
  • 輸出經(jīng)過(guò)過(guò)濾的圖像
  • 卷積核就是放置權(quán)重的模版

卷積是如何處理圖片

convolution.jpeg

通過(guò)將一個(gè)像素及其相鄰像素的顏色值乘以一個(gè)矩陣,也就是對(duì)應(yīng)位置數(shù)值相乘。

<img src="./images/conv_001.png">

V = \frac{\sum_i^q \left( \sum_j^q f_{ij} d_{ij} \right)}{F}

  • f_{ij} 卷積的像素
  • d_{ij} 像素的值
  • F 系數(shù)
  • V 表示輸出像素

卷積核進(jìn)行旋轉(zhuǎn) 180 度后,再去做卷積操作,如果不進(jìn)行旋轉(zhuǎn)卷積核的操作叫做相關(guān),其實(shí)通常卷積核都是對(duì)稱的。可以將我們神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到卷積核

<img src="./images/conv_003.png">

卷積的性質(zhì)

  • 疊加性: filter(f_1 + f_2) = filter(f_1) + filter(f_2)
  • 平移不變性: filter(shift(f)) = shift(filter(f))
  • 交換律
  • 結(jié)合律
  • 分配律
  • 標(biāo)量

邊界填充

一般經(jīng)過(guò)卷積操作的圖像會(huì)變小,所以為了保持輸入和輸出圖像一樣大小,需要在做卷積前對(duì)邊界進(jìn)行填充。

  • 拉伸填充
  • 鏡像填充
  • 0 填充

平滑和銳化

conv_005.png

<img src="./images/conv_005.png">

紋理特征(Texture Features)
形態(tài)特征(Morphological Features)

圖像平滑

圖像平滑

根據(jù)某一個(gè)像素其周圍值來(lái)重新計(jì)算得到改點(diǎn)的新的值從而實(shí)現(xiàn)平滑。
\frac{10 + 5 + 3 + 4 + 5 + 1 + 1+ 1+ 7}{9} = 7

互相關(guān)

G[i,j] = \sum_{u = -k}^k \sum_{v = -k}^k H[u,v] F[i + u, j+ v]

卷積

G[i,j] = \sum_{u = -k}^k \sum_{v = -k}^k H[u,v] F[i - u, j - v]

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容