矩陣乘法和卷積乘法區(qū)別:
卷積的乘法和矩陣的乘法不一樣,卷積的求和相當(dāng)于加權(quán)求和,也可以稱為加權(quán)疊加,矩陣相乘是將一個(gè)m×n的矩陣就是m×n個(gè)數(shù)排成m行n列的一個(gè)數(shù)陣。
卷積乘法示例:
?????????????3 * 3?的像素區(qū)域R與卷積核G的卷積運(yùn)算:
??????????????R5(中心像素)=R1G1 +R2G2 + R3G3 + R4G4 + R5G5 + R6G6 + R7G7 + R8G8 + R9G9

矩陣相乘示例:

多通道卷積過程
有顏色的RGB圖像,會(huì)包含三個(gè)相同大小的圖層,這時(shí)對(duì)應(yīng)的濾波器也要變成三層,卷積核大小為K*K,由于處理的圖片是D通道的,因此卷積核其實(shí)也就是K*K*D大小的,因此,對(duì)于RGB三通道圖像,在指定kernel_size的前提下,真正的卷積核大小是kernel_size*kernel_size*3。
對(duì)于D通道圖像的各通道而言,是在每個(gè)通道上分別執(zhí)行二維卷積,然后將D個(gè)通道加起來,得到該位置的二維卷積輸出,對(duì)于RGB三通道圖像而言,就是在R,G,B三個(gè)通道上分別使用對(duì)應(yīng)的每個(gè)通道上的kernel_size*kernel_size大小的核去卷積每個(gè)通道上的W*H的圖像,然后將三個(gè)通道卷積得到的輸出相加,得到一個(gè)二維卷積輸出結(jié)果。因此,若有M個(gè)卷積核,可得到M個(gè)二維卷積輸出結(jié)果,

此動(dòng)態(tài)圖幫助了解多通道卷積運(yùn)算。
所以,理解卷積核時(shí),不能把K*K的kernel_size看成一個(gè)二維矩陣,對(duì)于每一個(gè)kernel_size,它的維度和要處理的圖片的通道數(shù)是相等的,它的個(gè)數(shù)決定了輸出特征圖的維度(通道數(shù)).
比如,torch的卷積函數(shù)conv=torch.nn.Conv2d(1,8,(2,3))。Conv2d的參數(shù)
[channels,output, height_2, width_2 ]其中,channels為通道數(shù),需要和將要進(jìn)行卷積運(yùn)算的特征圖的通道數(shù)保持一致。output 輸出的深度,即輸出的特征圖的通道數(shù)。height_2和width_2分別表示過濾器filter的寬和高,如果是Conv2d(1,8,3),則表示卷積核的尺寸為3×3。

在卷積運(yùn)算時(shí),如果濾波器超出了圖像框,一般的操作是不進(jìn)行運(yùn)算。所以為了防止邊緣信息丟失,會(huì)進(jìn)行Padding操作,意思是在卷積之前,在原圖像邊緣上加入一層像素(也可以多層),一般也叫做補(bǔ)零(因?yàn)榇蠖鄶?shù)時(shí)候我們添加的元素都是0)。卷積的意義:進(jìn)行一次特征“濃縮”,用另一個(gè)意思來講,就是把它抽象化。最后經(jīng)過很多次的抽象化,你會(huì)將原始的矩陣變成一個(gè) 1 維乘 1 維的矩陣,這就是一個(gè)數(shù)字(變成了可以讓分類器處理的概率數(shù)字)
所以,如上圖所示。卷積運(yùn)算一般不會(huì)改變特征圖的長和寬(padding情況下),要實(shí)現(xiàn)特征圖不斷的縮小,最后實(shí)現(xiàn)1×1×1000。需要max polling(最大池化操作)。
卷積運(yùn)算時(shí):無padding輸出特征圖w-2,h-2,有padding保持不變。
池化運(yùn)算是:設(shè)輸入大小W×W,核大小F,步長S,padding大小P,輸出大小N×N。則N為:
N=W?F+2?PS+1N=SW?F+2?P?+1