人,是感官的動(dòng)物。
我們的大腦,像一塊復(fù)雜度極高的CPU,每天在接收著各種格式的數(shù)據(jù),進(jìn)行著無(wú)休止的計(jì)算。我們以各種感官接觸著這個(gè)世界,抽取著不同感官下的信息,從而認(rèn)知了世界。而圖像作為承載信息最為豐富的一種媒介,在人類(lèi)探索智慧的歷史中,一直占據(jù)著重要的位置。人用這樣一雙肉眼如何識(shí)別不同類(lèi)別的圖像(image classification and pattern recognition),如何在圖像中分割出形形色色的物體(semantic segmentation and object detection),如何從模糊的圖像中想象出物體的輪廓(image super-resolution),如何創(chuàng)作出天馬行空的圖畫(huà)(image synthesis),都是目前機(jī)器視覺(jué)圖像處理領(lǐng)域關(guān)注的熱點(diǎn)問(wèn)題。全世界的研究者都希望有朝一日,計(jì)算機(jī)能代替人眼來(lái)識(shí)別這一幅幅圖像,發(fā)現(xiàn)在圖像中隱藏的密碼。
一、圖像分類(lèi)
圖像分類(lèi)是圖像處理中的一個(gè)重要任務(wù)。在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域,去識(shí)別分類(lèi)一個(gè)一個(gè)圖像的標(biāo)準(zhǔn)流程是特征提取、特征篩選,最后將特征向量輸入合適的分類(lèi)器完成特征分類(lèi)。直到2012年Alex Krizhevsky突破性的提出AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),借助深度學(xué)習(xí)的算法,將圖像特征的提取、篩選和分類(lèi)三個(gè)模塊集成于一體,設(shè)計(jì)5層卷積層加3層全連接層的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),逐層對(duì)圖像信息進(jìn)行不同方向的挖掘提取,譬如淺層卷積通常獲取的是圖像邊緣等通用特征,深層卷積獲取的一般是特定數(shù)據(jù)集的特定分布特征。AlexNet以15.4%的創(chuàng)紀(jì)錄低失誤率奪得2012年ILSVRC(ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽)的年度冠軍,值得一提的是當(dāng)年亞軍得主的錯(cuò)誤率為26.2%。AlexNet超越傳統(tǒng)機(jī)器學(xué)習(xí)的完美一役被公認(rèn)為是深度學(xué)習(xí)領(lǐng)域里程碑式的歷史事件,一舉吹響了深度學(xué)習(xí)在計(jì)算機(jī)領(lǐng)域爆炸發(fā)展的號(hào)角。

時(shí)間轉(zhuǎn)眼來(lái)到了2014年,GoogleNet橫空出世,此時(shí)的深度學(xué)習(xí),已經(jīng)歷ZF-net,VGG-net的進(jìn)一步精煉,在網(wǎng)絡(luò)的深度,卷積核的尺寸,反向傳播中梯度消失問(wèn)題等技術(shù)細(xì)節(jié)部分已有了詳細(xì)的討論,Google在這些技術(shù)基礎(chǔ)上引入了Inception單元,大破了傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)各計(jì)算單元之間依次排列,即卷積層->激活層->池化層->下一卷積層的范式,將ImageNet分類(lèi)錯(cuò)誤率提高到了6.7%的高水平。
在網(wǎng)絡(luò)越來(lái)越深,網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜的趨勢(shì)下,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練越來(lái)越難,2015年Microsoft大神何愷明(現(xiàn)就職于Facebook AI Research)為了解決訓(xùn)練中準(zhǔn)確率先飽和后降低的問(wèn)題,將residual learning的概念引入深度學(xué)習(xí)領(lǐng)域,其核心思想是當(dāng)神經(jīng)網(wǎng)絡(luò)在某一層達(dá)到飽和時(shí),利用接下來(lái)的所有層去映射一個(gè)f(x)=x的函數(shù),由于激活層中非線性部分的存在,這一目標(biāo)幾乎是不可能實(shí)現(xiàn)的。
但ResNet中,將一部分卷積層短接,則當(dāng)訓(xùn)練飽和時(shí),接下來(lái)的所有層的目標(biāo)變成了映射一個(gè)f(x)=0的函數(shù),為了達(dá)到這一目標(biāo),只需要訓(xùn)練過(guò)程中,各訓(xùn)練變量值收斂至0即可。Resdiual learning的出現(xiàn),加深網(wǎng)絡(luò)深度提高模型表現(xiàn)的前提下保證了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。2015年,ResNet也以3.6%的超低錯(cuò)誤率獲得了2015年ImageNet挑戰(zhàn)賽的冠軍,這一技術(shù)也超越了人類(lèi)的平均識(shí)別水平,意味著人工智能在人類(lèi)舞臺(tái)中崛起的開(kāi)始。
二、圖像中的物體檢測(cè)
圖像分類(lèi)任務(wù)的實(shí)現(xiàn)可以讓我們粗略的知道圖像中包含了什么類(lèi)型的物體,但并不知道物體在圖像中哪一個(gè)位置,也不知道物體的具體信息,在一些具體的應(yīng)用場(chǎng)景比如車(chē)牌識(shí)別、交通違章檢測(cè)、人臉識(shí)別、運(yùn)動(dòng)捕捉,單純的圖像分類(lèi)就不能完全滿(mǎn)足我們的需求了。
這時(shí)候,需要引入圖像領(lǐng)域另一個(gè)重要任務(wù):物體的檢測(cè)與識(shí)別。在傳統(tǒng)機(jī)器領(lǐng)域,一個(gè)典型的案例是利用HOG(Histogram of Gradient)特征來(lái)生成各種物體相應(yīng)的“濾波器”,HOG濾波器能完整的記錄物體的邊緣和輪廓信息,利用這一濾波器過(guò)濾不同圖片的不同位置,當(dāng)輸出響應(yīng)值幅度超過(guò)一定閾值,就認(rèn)為濾波器和圖片中的物體匹配程度較高,從而完成了物體的檢測(cè)。這一項(xiàng)工作由Pedro F. Felzenszalb,Ross B. Girshick,David Mcallester還有Deva Ramanan以O(shè)bject Detection with Discriminatively Trained Part-Based Models共同發(fā)表在2010年9月的IEEE Transactions on Pattern Analysis and Machine Interlligence期刊上。

時(shí)間如白駒過(guò)隙,驚鴻一瞥,四年過(guò)去,Ross B. Girishick已由當(dāng)年站在巨人肩膀上的IEEE Student Member成長(zhǎng)為了AI行業(yè)內(nèi)獨(dú)當(dāng)一面的神級(jí)人物,繼承了深度學(xué)習(xí)先驅(qū)的意志,在2014年CVPR會(huì)議上發(fā)表題為Rich Feature Hirarchies for Accurate Object Detection and Semantic Segmentation文章。RCNN,一時(shí)無(wú)兩,天下皆知。

RCNN的核心思想在于將一個(gè)物體檢測(cè)任務(wù)轉(zhuǎn)化為分類(lèi)任務(wù),RCNN的輸入為一系列利用selective search算法從圖像中抽取的圖像塊,我們稱(chēng)之為region proposal。經(jīng)過(guò)warping處理,region proposals被標(biāo)準(zhǔn)化到相同的尺寸大小,輸入到預(yù)先訓(xùn)練好并精細(xì)調(diào)參的卷積神經(jīng)網(wǎng)絡(luò)中,提取CNN特征。得到了每一個(gè)proposal的CNN特征后,針對(duì)每一個(gè)物體類(lèi)別,訓(xùn)練一個(gè)二分類(lèi)器,判斷該proposal是否屬于該物體類(lèi)別。2015年,為了縮短提取每一個(gè)proposal的CNN特征的時(shí)間,Girishick借鑒了Spatial Pooling Pyramid Network(SPPnet)中的pooling技術(shù),首先利用一整幅圖像提取CNN特征圖譜,再在這張?zhí)卣鲌D譜上截取不同的位置的proposal,從而得到不同尺寸的feature proposals,最后將這些feature proposals通過(guò)SPPnet標(biāo)準(zhǔn)化到相同的尺寸,進(jìn)行分類(lèi)。這種改進(jìn),解決了RCNN中每一個(gè)proposal都需要進(jìn)行CNN特征抽取的弊端,一次性在整圖上完成特征提取,極大的縮短了模型的運(yùn)行時(shí)間,因而被稱(chēng)作“Fast R-CNN”,同名文章發(fā)表于ICCV 2015會(huì)議。
2015年,Girishick大神持續(xù)發(fā)力,定義RPN(region-proposal-network)層,取代傳統(tǒng)的region proposal截取算法,將region proposal的截取嵌入深度神經(jīng)網(wǎng)絡(luò)中,進(jìn)一步提高了fast R-CNN的模型效率,因而被稱(chēng)作“Faster R-CNN”,在NIPS2015上Girishick發(fā)表了題為“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”的關(guān)鍵文章,完成了RCNN研究領(lǐng)域的三級(jí)跳壯舉。

三、圖像生成
隨著時(shí)代的發(fā)展,科學(xué)家們不僅僅是技術(shù)的研究者,更是藝術(shù)的創(chuàng)造者。
在人工智能領(lǐng)域的另一位新一代靈魂人物,Ian Goodfellow在2014年提出了Generative Adversarial Net的概念,通過(guò)定義一個(gè)生成器(generator)和一個(gè)判別器(discriminator)來(lái)完成圖像生成任務(wù)。其原理在于生成器的任務(wù)是從隨機(jī)噪聲中“創(chuàng)造”出接近目標(biāo)圖像的“假圖像”去欺騙判別器,而判別器的任務(wù)是去甄別哪一些圖像是來(lái)自于真實(shí)的數(shù)據(jù)集,哪一些圖像是來(lái)自于生成器,在生成器和判別器的互相對(duì)抗中,通過(guò)合理的損失函數(shù)設(shè)計(jì)完成訓(xùn)練,最終模型收斂后,判別器的概率輸出為常數(shù)0.5,即一幅圖像來(lái)自于生成器和真實(shí)數(shù)據(jù)集的概率相同,生成器生成的圖像的概率分布無(wú)限趨近于真實(shí)數(shù)據(jù)集。
GAN技術(shù)成為2015,2016年深度學(xué)習(xí)研究的熱門(mén)領(lǐng)域,在圖像恢復(fù)、降噪、超分辨重建等方向獲得了極佳的表現(xiàn),衍生出一系列諸如WGAN,Info-GAN,DCGAN,Conditional-GAN等技術(shù),引領(lǐng)了一波風(fēng)潮。

四、圖像的故事才剛剛開(kāi)始
當(dāng)我們把一幀幀圖像串聯(lián)在一起,變成流動(dòng)的光影,我們研究的問(wèn)題就從空間維度上擴(kuò)展到了時(shí)間維度,我們不僅需要關(guān)心物體在圖像中的位置、類(lèi)別、輪廓形狀、語(yǔ)義信息,我們更要關(guān)心圖像幀與幀之間的時(shí)間關(guān)系,去捕捉、識(shí)別一個(gè)物體的運(yùn)動(dòng),去提取視頻的摘要,去分析視頻所表達(dá)的含義,去考慮除了圖像之外的聲音、文本標(biāo)注,去處理一系列的自然語(yǔ)言,我們的研究一步一步,邁向了更廣闊的星辰與大海。
圖像和視頻,都是虛擬的一串串?dāng)?shù)字,一個(gè)個(gè)字節(jié),但卻讓這個(gè)世界更加真實(shí)。