1.論文概要
論文題目:Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification
論文作者:Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa
原文連接:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/data/colorization_sig2016.pdf
2.論文內(nèi)容

2.1摘要
??本文基于CNN提出了一種聯(lián)合局部特征和全局先驗(yàn)信息的灰度圖自動著色技術(shù)。基于CNN,本文提出了一種綜合考慮全局先驗(yàn)信息和局部特征信息的融合特征層來給圖片著色。整個框架以端到端的形式訓(xùn)練,而且與一般CNN不同,該框架可以處理任意分辨率的圖片。此外,本文使用現(xiàn)有的大規(guī)模圖片分類數(shù)據(jù)集來訓(xùn)練模型,將分類標(biāo)簽加入其中,更有效地學(xué)習(xí)到更具判別性的全局先驗(yàn)信息。與時下最優(yōu)的算法相比,無論是用戶研究還是在一百多年以前的老照片上做的實(shí)驗(yàn),本文算法都取得了顯著的提升。
2.2引入
??對于傳統(tǒng)的上色算法來講,無論是用戶涂色或者圖片分割的形式,都需要進(jìn)行用戶交互。但這篇論文里,作者提出了一種完全自動的基于數(shù)據(jù)驅(qū)動的灰度圖上色方法,即從整張圖片獲得全局先驗(yàn)信息和從局部patch中獲得局部圖片特征聯(lián)合自動上色。全局先驗(yàn)信息從整張圖片的角度提供信息,如圖片是室內(nèi)拍的還是室外拍的,是白天拍的還是晚上拍的等等。局部信息則提供了紋理或者物體信息。綜合這兩種特征,無論是給什么圖片上色,都不需要用戶交互。
??本文訓(xùn)練網(wǎng)絡(luò)時使用了圖片類別信息,不過這個步驟對于著色來講并不是必需的。本文使用的色彩空間為CIE Lab顏色空間,通過網(wǎng)絡(luò)模型來預(yù)測圖片的色彩信號a和b,最后結(jié)合灰度圖本身的L信息,進(jìn)行最終著色。使用Lab顏色空間,不需要進(jìn)行L通道的計(jì)算,這樣一來既節(jié)省計(jì)算資源,又能讓預(yù)測更準(zhǔn)確。整個方法不需要預(yù)處理或者后處理。
??本算法網(wǎng)絡(luò)模型包含4個主要部分:低階特征網(wǎng)絡(luò),中階特征網(wǎng)絡(luò),全局特征網(wǎng)絡(luò)和著色網(wǎng)絡(luò)。首先,一組共享的低階特征通過低階特征網(wǎng)絡(luò)計(jì)算出來。通過使用這些低階特征,中階特征網(wǎng)絡(luò)和高階特征網(wǎng)絡(luò)分別進(jìn)行特征提取,然后再通過融合層進(jìn)行融合。融合后的特征作為著色網(wǎng)絡(luò)的輸入,最終輸出圖片的色彩信號。此外,網(wǎng)絡(luò)還有一個副產(chǎn)品就是預(yù)測圖片的類別信息。整個網(wǎng)絡(luò)可以處理任意分辨率的圖片。
??由于圖片的全局先驗(yàn)信息和局部特征是分開計(jì)算的,這使得本方法可以將一張圖片的全局先驗(yàn)信息和另一張圖片的局部特征進(jìn)行融合,來改變一張圖片的風(fēng)格。例如,如果我們將一張黃昏時候拍攝的照片的全局先驗(yàn)特征和一個晴朗的沙灘風(fēng)光的局部特征進(jìn)行融合,我們就會得到一個晴朗的沙灘的黃昏時候的照片風(fēng)光。除此之外,一張照片也可以被處理成它是在另外一個不同的季節(jié)拍攝的效果。這些反映了模型的靈活性。
??驗(yàn)證算法時,作者請用戶來觀看照片,并判斷照片是不是自然拍攝的。本算法處理的照片有92.6%被用戶認(rèn)為是“自然的”,而另外一些算法則大概只有70%的概率。對于一些20世紀(jì)初期拍攝的黑白照片,本算法也顯示了令人信服的效果。
??總之,本文貢獻(xiàn)有以下幾點(diǎn):
??無需用戶交互;
??端到端的協(xié)同網(wǎng)絡(luò);
??加入圖片標(biāo)簽增強(qiáng)性能;
??圖片風(fēng)格轉(zhuǎn)換技術(shù);
??通過用戶研究和百年以上的老照片驗(yàn)證算法。
2.3網(wǎng)絡(luò)結(jié)構(gòu)


??本文網(wǎng)絡(luò)結(jié)構(gòu)如圖所示,除了著色層的輸出層使用Sigmoid激活函數(shù)以外,其他層激活函數(shù)均使用ReLU激活函數(shù)。
2.3.1共享低階特征
??6層的CNN獲得圖片低階特征信息,卷積濾波器組是共享的,輸送特征至全局特征網(wǎng)絡(luò)和中階特征網(wǎng)絡(luò)。這一點(diǎn)和雙胞胎網(wǎng)絡(luò)相似,但是本模型里只有這一個子部分是共享的。本文沒有使用max-pooling來降低feature map的尺度,而是通過增加卷積步長來實(shí)現(xiàn)這個效果。不是每個像素連續(xù)計(jì)算卷積,而是每隔一個像素計(jì)算一次卷積。通過padding來使得輸出層尺寸是輸入層的一半。這樣可以替換掉max-pooling層,并且維持很好的性能。本文只使用了33的卷積核,使用11的padding來確保輸出尺寸是輸入尺寸的一半或者和輸入尺寸相等。
2.3.2全局特征
??最終的全局特征是一個256維的向量。由于全局特征網(wǎng)絡(luò)中全連接層的存在,全局特征網(wǎng)絡(luò)的低階特征網(wǎng)絡(luò)部分需要將輸入圖片的尺寸變換為224*224大小。不過這個不影響整個方法。
2.3.3中階特征
??中階特征緊接著低階特征層的輸出。由于低階特征到中階特征是全卷積的,所以輸入是h*w的圖片時,輸出是h/8 * w/8 * 256的特征。
2.3.4
??為了將全局特征的256維向量和和局部特征的h/8 * w/8 * 256進(jìn)行融合,我們使用以下公式:

其中,
2.3.5著色層
??特征一旦融合完成,它們會繼續(xù)被卷積層和上采樣層處理。上采樣使用最近鄰插值法,輸出會變成輸入的2倍。當(dāng)最終結(jié)果是輸入尺寸hw的一半時停止卷積和上采樣操作。這部分的卷積層激活函數(shù)為Sigmoid函數(shù),這令最后的輸出為2個0到1之間的數(shù),這2個數(shù)分別作為La*b顏色空間的a和b的值。而L即為灰度值,這是已知的。所以,最后將h/2 * w/2 *2的特征上采樣為h * w * 2后與初始灰度圖h * w * 1合并,即為彩色圖像。整個網(wǎng)絡(luò)使用MSE(Mean Square Error)準(zhǔn)則進(jìn)行訓(xùn)練,通過BP算法更新網(wǎng)絡(luò)權(quán)值。
2.3.6考慮類別進(jìn)行著色
??只用彩色圖片訓(xùn)練效果尚可,但是會出現(xiàn)明顯的錯誤,因?yàn)槟P碗y以學(xué)習(xí)到正確的上下文,比如照片是室內(nèi)還是室外等。由于網(wǎng)絡(luò)結(jié)構(gòu)處理不了上下文問題,作者使用圖片的類別信息來協(xié)同訓(xùn)練模型。類別標(biāo)簽可以用來指導(dǎo)圖片的全局特征模型的訓(xùn)練。本文引入了一個包含2個全連接層的小型網(wǎng)絡(luò)來實(shí)現(xiàn)這個功能。包含256個節(jié)點(diǎn)的隱含層,和相應(yīng)數(shù)量的類別輸出層,本文為205類。這個小型網(wǎng)絡(luò)的輸入是全局特征網(wǎng)絡(luò)的倒數(shù)第二層輸出。同樣的,使用MSE損失函數(shù)來訓(xùn)練模型:

3實(shí)驗(yàn)效果
3.1照片著色效果



3.2與最優(yōu)算法的對比實(shí)驗(yàn)

3.3有全局信息(α≠0)和沒全局信息時的對比(α=0),可以看出全局信息很關(guān)鍵

3.4風(fēng)格轉(zhuǎn)換實(shí)驗(yàn)

3.5對一百年前的老照片的處理

3.6不同顏色空間做出來的最后效果

3.7作者給出了典型的錯誤

3.8自己試驗(yàn)
??作者在個人主頁給出了在線demo,大家可以去試一下:http://hi.cs.waseda.ac.jp:8082/
??我試了一些老照片,感覺有風(fēng)景的都著色的比較好,純?nèi)宋锏脑捫Ч皇呛芎谩€人猜想,可能是樹、草、云之類的東西紋理比較單一,容易被識別出來,建筑、室內(nèi)裝飾之類的變化比較大,相對而言訓(xùn)練數(shù)據(jù)不夠豐富。下面是一些測試結(jié)果:



