
在開始介紹卷積神經(jīng)網(wǎng)絡(luò)之前,覺得有必要先說(shuō)一說(shuō)計(jì)算機(jī)是如何讀解圖像語(yǔ)義的。在計(jì)算機(jī)中是采用什么樣數(shù)據(jù)結(jié)構(gòu)來(lái)保存圖像。只有理解這些內(nèi)容我們還此基礎(chǔ)上開始研究讓給你計(jì)算機(jī)像人類一樣讀取圖片語(yǔ)義來(lái)做一些計(jì)算機(jī)任務(wù)。
我在西瓜視頻發(fā)布相關(guān)視頻,賬號(hào) zidea 頭像和簡(jiǎn)書一致,希望大家多多關(guān)注。

其實(shí)用矩陣來(lái)保存一張圖像,通過(guò)將 3 維矩陣來(lái)表示一張圖像,可以理解將圖像切分一個(gè)一個(gè)小方塊 (pixel) 每個(gè)小方塊都有一個(gè)位置信息坐標(biāo),pixel 顏色通過(guò) RBG 來(lái)表示,可能還具有透明通道,或者帶有表示深度的通道,就用這些信息來(lái)表示一張圖像輸入給計(jì)算機(jī)。這樣這種表示存儲(chǔ)圖像方式比較低級(jí),會(huì)丟失許多語(yǔ)義信息。

我們可以將圖像理解為一個(gè)函數(shù) 其中
和
表示像素位置,輸出一個(gè)像素 RGB 值。


那么計(jì)算機(jī)在面對(duì)這些只有位置和顏色的信息數(shù)據(jù),想要得到更多信息就需要靠自己,因?yàn)樾畔⒉蛔?,這樣對(duì)于計(jì)算機(jī)來(lái)理解或者讀懂一張圖片的語(yǔ)義無(wú)形帶來(lái)困難。

以及有關(guān)圖像的一些問(wèn)題,我們需要讀懂一張圖像就像知道圖像變化,計(jì)算機(jī)通過(guò)感知這些變化(邊緣變化),有了邊緣信息可以將圖像進(jìn)行分隔具有一定含義區(qū)域。

為了把握?qǐng)D片 intensity 變化看層空間上變換,空間變化程度可以看成圖片的一些特征,在邊和角是圖片。

我們可以將圖像處理為灰度圖,在灰度圖中明暗可以 intensity 來(lái)描述圖片。這里 intensity 可以簡(jiǎn)單理解為我們某一像素(點(diǎn))對(duì)光感知程度。怎么把這件事說(shuō)清楚呢。我們看到物體是物體反射的光,發(fā)生不同顏色光以及光強(qiáng)度來(lái)反映一個(gè)物體。在計(jì)算機(jī)上我們將圖像數(shù)字化過(guò)程,就是給圖像每一個(gè)位置一個(gè)像素值,這個(gè)值可以分解為多個(gè)通道,值大小表示感光的程度。這就是我們?cè)谟?jì)算機(jī)視覺中要研究的對(duì)象。
通過(guò) 3D 視圖形象地將我們?nèi)绾瓮ㄟ^(guò)灰度圖 intensity 來(lái)表示圖。接下來(lái)說(shuō)一說(shuō)卷積,
卷積
學(xué)習(xí)卷積神經(jīng)也有一段時(shí)間,雖然已經(jīng)了解到了如何將卷積應(yīng)用到圖像進(jìn)行運(yùn)算來(lái)得到特征圖,以及卷積如何應(yīng)用圖片上進(jìn)行濾波、降噪、銳化以及邊緣檢測(cè)。但是如何要深究卷積,還是有點(diǎn)摸不到頭腦。所以收集一些資料。
我們先把公式拋出來(lái),大家先看一看,覺得有點(diǎn)陌生也不要緊,接下來(lái)我們就來(lái)詳細(xì)解釋這個(gè)公式由來(lái)以及其應(yīng)用
-
是在
上可以積分的函數(shù)
- 大家可能已經(jīng)注意到了
- 所謂積分就是曲線進(jìn)行切分很小的間隔然后進(jìn)行求和,其實(shí)所謂的積分就是求和
- 假設(shè)兩次抽取撲克牌概率是獨(dú)立

接下來(lái)用圖解方式給大家詳細(xì)介紹卷積,以及卷積的過(guò)程,假設(shè)我們有兩個(gè)骰子,每次一起投擲骰子。通過(guò)連線來(lái)表示兩兩組合。

如果我們找出兩個(gè)骰子數(shù)加起來(lái)為 6 的組合,通過(guò)連線方式表達(dá)出來(lái)

同上,如果我們想要找出兩個(gè)骰子數(shù)加起來(lái)為 8 的組合,通過(guò)連線方式表達(dá)出來(lái)。不過(guò)這樣連線看起來(lái)不是很舒服,所以我們可以通過(guò)翻卷得到就得到下面的形式,這就是卷積的由來(lái)。

這張圖


我們把一個(gè)骰子做行,另一個(gè)骰子作為列組成一個(gè)矩陣,如果再次選擇讓兩個(gè)骰子數(shù)值相加得到某一個(gè)數(shù)值時(shí),組合情況用顏色表示出來(lái)如以下幾張圖,就有點(diǎn)像將一張 paper 從右上角開始卷起。



卷積的特性
- 濾波Filtering
- 卷積Convolution
- 矩陣Matrix
- 顏色值Color values
- 卷積核 kernel:
空間頻率
卷積濾波用于修改圖像的空間頻率特性。
卷積的定義
- 一般卷積可以用于圖片的濾鏡效果,是對(duì)圖像
- 卷積是運(yùn)算,用整數(shù)組成的矩陣掃過(guò)圖像
- 卷積在圖片上作用可以看作,通過(guò)將所有相鄰像素的加權(quán)值相加來(lái)確定中心像素的值
- 輸出經(jīng)過(guò)過(guò)濾的圖像
- 卷積核就是放置權(quán)重的模版
卷積是如何處理圖片

通過(guò)將一個(gè)像素及其相鄰像素的顏色值乘以一個(gè)矩陣,也就是對(duì)應(yīng)位置數(shù)值相乘。
<img src="./images/conv_001.png">
-
卷積的像素
-
像素的值
- F 系數(shù)
- V 表示輸出像素
卷積核進(jìn)行旋轉(zhuǎn) 180 度后,再去做卷積操作,如果不進(jìn)行旋轉(zhuǎn)卷積核的操作叫做相關(guān),其實(shí)通常卷積核都是對(duì)稱的。可以將我們神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到卷積核
<img src="./images/conv_003.png">
卷積的性質(zhì)
- 疊加性:
- 平移不變性:
- 交換律
- 結(jié)合律
- 分配律
- 標(biāo)量
邊界填充
一般經(jīng)過(guò)卷積操作的圖像會(huì)變小,所以為了保持輸入和輸出圖像一樣大小,需要在做卷積前對(duì)邊界進(jìn)行填充。
- 拉伸填充
- 鏡像填充
- 0 填充
平滑和銳化

<img src="./images/conv_005.png">
紋理特征(Texture Features)
形態(tài)特征(Morphological Features)
圖像平滑

根據(jù)某一個(gè)像素其周圍值來(lái)重新計(jì)算得到改點(diǎn)的新的值從而實(shí)現(xiàn)平滑。