人，是感官的動(dòng)物。

我們的大腦，像一塊復(fù)雜度極高的CPU，每天在接收著各種格式的數(shù)據(jù)，進(jìn)行著無(wú)休止的計(jì)算。我們以各種感官接觸著這個(gè)世界，抽取著不同感官下的信息，從而認(rèn)知了世界。而圖像作為承載信息最為豐富的一種媒介，在人類(lèi)探索智慧的歷史中，一直占據(jù)著重要的位置。人用這樣一雙肉眼如何識(shí)別不同類(lèi)別的圖像（image classification and pattern recognition），如何在圖像中分割出形形色色的物體（semantic segmentation and object detection），如何從模糊的圖像中想象出物體的輪廓（image super-resolution）,如何創(chuàng)作出天馬行空的圖畫(huà)（image synthesis），都是目前機(jī)器視覺(jué)圖像處理領(lǐng)域關(guān)注的熱點(diǎn)問(wèn)題。全世界的研究者都希望有朝一日，計(jì)算機(jī)能代替人眼來(lái)識(shí)別這一幅幅圖像，發(fā)現(xiàn)在圖像中隱藏的密碼。

一、圖像分類(lèi)

圖像分類(lèi)是圖像處理中的一個(gè)重要任務(wù)。在傳統(tǒng)機(jī)器學(xué)習(xí)領(lǐng)域，去識(shí)別分類(lèi)一個(gè)一個(gè)圖像的標(biāo)準(zhǔn)流程是特征提取、特征篩選，最后將特征向量輸入合適的分類(lèi)器完成特征分類(lèi)。直到2012年Alex Krizhevsky突破性的提出AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)，借助深度學(xué)習(xí)的算法，將圖像特征的提取、篩選和分類(lèi)三個(gè)模塊集成于一體，設(shè)計(jì)5層卷積層加3層全連接層的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，逐層對(duì)圖像信息進(jìn)行不同方向的挖掘提取，譬如淺層卷積通常獲取的是圖像邊緣等通用特征，深層卷積獲取的一般是特定數(shù)據(jù)集的特定分布特征。AlexNet以15.4%的創(chuàng)紀(jì)錄低失誤率奪得2012年ILSVRC（ImageNet大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽）的年度冠軍，值得一提的是當(dāng)年亞軍得主的錯(cuò)誤率為26.2%。AlexNet超越傳統(tǒng)機(jī)器學(xué)習(xí)的完美一役被公認(rèn)為是深度學(xué)習(xí)領(lǐng)域里程碑式的歷史事件，一舉吹響了深度學(xué)習(xí)在計(jì)算機(jī)領(lǐng)域爆炸發(fā)展的號(hào)角。

（圖為李飛飛博士和她的ImageNet數(shù)據(jù)集）

時(shí)間轉(zhuǎn)眼來(lái)到了2014年，GoogleNet橫空出世，此時(shí)的深度學(xué)習(xí)，已經(jīng)歷ZF-net，VGG-net的進(jìn)一步精煉，在網(wǎng)絡(luò)的深度，卷積核的尺寸，反向傳播中梯度消失問(wèn)題等技術(shù)細(xì)節(jié)部分已有了詳細(xì)的討論，Google在這些技術(shù)基礎(chǔ)上引入了Inception單元，大破了傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)各計(jì)算單元之間依次排列，即卷積層->激活層->池化層->下一卷積層的范式，將ImageNet分類(lèi)錯(cuò)誤率提高到了6.7%的高水平。

在網(wǎng)絡(luò)越來(lái)越深，網(wǎng)絡(luò)結(jié)構(gòu)越來(lái)越復(fù)雜的趨勢(shì)下，深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練越來(lái)越難，2015年Microsoft大神何愷明（現(xiàn)就職于Facebook AI Research）為了解決訓(xùn)練中準(zhǔn)確率先飽和后降低的問(wèn)題，將residual learning的概念引入深度學(xué)習(xí)領(lǐng)域，其核心思想是當(dāng)神經(jīng)網(wǎng)絡(luò)在某一層達(dá)到飽和時(shí)，利用接下來(lái)的所有層去映射一個(gè)f(x)=x的函數(shù)，由于激活層中非線性部分的存在，這一目標(biāo)幾乎是不可能實(shí)現(xiàn)的。

但ResNet中，將一部分卷積層短接，則當(dāng)訓(xùn)練飽和時(shí)，接下來(lái)的所有層的目標(biāo)變成了映射一個(gè)f(x)=0的函數(shù)，為了達(dá)到這一目標(biāo)，只需要訓(xùn)練過(guò)程中，各訓(xùn)練變量值收斂至0即可。Resdiual learning的出現(xiàn)，加深網(wǎng)絡(luò)深度提高模型表現(xiàn)的前提下保證了網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。2015年，ResNet也以3.6%的超低錯(cuò)誤率獲得了2015年ImageNet挑戰(zhàn)賽的冠軍，這一技術(shù)也超越了人類(lèi)的平均識(shí)別水平，意味著人工智能在人類(lèi)舞臺(tái)中崛起的開(kāi)始。

二、圖像中的物體檢測(cè)

圖像分類(lèi)任務(wù)的實(shí)現(xiàn)可以讓我們粗略的知道圖像中包含了什么類(lèi)型的物體，但并不知道物體在圖像中哪一個(gè)位置，也不知道物體的具體信息，在一些具體的應(yīng)用場(chǎng)景比如車(chē)牌識(shí)別、交通違章檢測(cè)、人臉識(shí)別、運(yùn)動(dòng)捕捉，單純的圖像分類(lèi)就不能完全滿(mǎn)足我們的需求了。

這時(shí)候，需要引入圖像領(lǐng)域另一個(gè)重要任務(wù)：物體的檢測(cè)與識(shí)別。在傳統(tǒng)機(jī)器領(lǐng)域，一個(gè)典型的案例是利用HOG（Histogram of Gradient）特征來(lái)生成各種物體相應(yīng)的“濾波器”，HOG濾波器能完整的記錄物體的邊緣和輪廓信息，利用這一濾波器過(guò)濾不同圖片的不同位置，當(dāng)輸出響應(yīng)值幅度超過(guò)一定閾值，就認(rèn)為濾波器和圖片中的物體匹配程度較高，從而完成了物體的檢測(cè)。這一項(xiàng)工作由Pedro F. Felzenszalb，Ross B. Girshick，David Mcallester還有Deva Ramanan以O(shè)bject Detection with Discriminatively Trained Part-Based Models共同發(fā)表在2010年9月的IEEE Transactions on Pattern Analysis and Machine Interlligence期刊上。

（傳統(tǒng)機(jī)器學(xué)習(xí)典型案例，HOG特征濾波器完整的記錄了人的整體輪廓以及一些如眼睛、軀干、四肢等特征部位的細(xì)節(jié)信息）

時(shí)間如白駒過(guò)隙，驚鴻一瞥，四年過(guò)去，Ross B. Girishick已由當(dāng)年站在巨人肩膀上的IEEE Student Member成長(zhǎng)為了AI行業(yè)內(nèi)獨(dú)當(dāng)一面的神級(jí)人物，繼承了深度學(xué)習(xí)先驅(qū)的意志，在2014年CVPR會(huì)議上發(fā)表題為Rich Feature Hirarchies for Accurate Object Detection and Semantic Segmentation文章。RCNN，一時(shí)無(wú)兩，天下皆知。

（圖為深度學(xué)習(xí)“上古四杰”，從左向右依次為[1]卷積神經(jīng)網(wǎng)絡(luò)的提出者Yan Lecun，[2]被譽(yù)為“深度學(xué)習(xí)之父”、深度學(xué)習(xí)領(lǐng)路人，近期逆流而行提出深度網(wǎng)絡(luò)Capsule概念的Geoffery Hinton，[3]《Deep Learning》一書(shū)作者Yoshua Bengio，[4]前斯坦福人工智能實(shí)驗(yàn)室主任Andrew Ng（吳恩達(dá)））

RCNN的核心思想在于將一個(gè)物體檢測(cè)任務(wù)轉(zhuǎn)化為分類(lèi)任務(wù)，RCNN的輸入為一系列利用selective search算法從圖像中抽取的圖像塊，我們稱(chēng)之為region proposal。經(jīng)過(guò)warping處理，region proposals被標(biāo)準(zhǔn)化到相同的尺寸大小，輸入到預(yù)先訓(xùn)練好并精細(xì)調(diào)參的卷積神經(jīng)網(wǎng)絡(luò)中，提取CNN特征。得到了每一個(gè)proposal的CNN特征后，針對(duì)每一個(gè)物體類(lèi)別，訓(xùn)練一個(gè)二分類(lèi)器，判斷該proposal是否屬于該物體類(lèi)別。2015年，為了縮短提取每一個(gè)proposal的CNN特征的時(shí)間，Girishick借鑒了Spatial Pooling Pyramid Network（SPPnet）中的pooling技術(shù)，首先利用一整幅圖像提取CNN特征圖譜，再在這張?zhí)卣鲌D譜上截取不同的位置的proposal，從而得到不同尺寸的feature proposals，最后將這些feature proposals通過(guò)SPPnet標(biāo)準(zhǔn)化到相同的尺寸，進(jìn)行分類(lèi)。這種改進(jìn)，解決了RCNN中每一個(gè)proposal都需要進(jìn)行CNN特征抽取的弊端，一次性在整圖上完成特征提取，極大的縮短了模型的運(yùn)行時(shí)間，因而被稱(chēng)作“Fast R-CNN”，同名文章發(fā)表于ICCV 2015會(huì)議。

2015年，Girishick大神持續(xù)發(fā)力，定義RPN（region-proposal-network）層，取代傳統(tǒng)的region proposal截取算法，將region proposal的截取嵌入深度神經(jīng)網(wǎng)絡(luò)中，進(jìn)一步提高了fast R-CNN的模型效率，因而被稱(chēng)作“Faster R-CNN”，在NIPS2015上Girishick發(fā)表了題為“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”的關(guān)鍵文章，完成了RCNN研究領(lǐng)域的三級(jí)跳壯舉。

(圖為RCNN算法流程，最終可識(shí)別“馬”以及騎在馬背上的“人”)

三、圖像生成

隨著時(shí)代的發(fā)展，科學(xué)家們不僅僅是技術(shù)的研究者，更是藝術(shù)的創(chuàng)造者。

在人工智能領(lǐng)域的另一位新一代靈魂人物，Ian Goodfellow在2014年提出了Generative Adversarial Net的概念，通過(guò)定義一個(gè)生成器（generator）和一個(gè)判別器（discriminator）來(lái)完成圖像生成任務(wù)。其原理在于生成器的任務(wù)是從隨機(jī)噪聲中“創(chuàng)造”出接近目標(biāo)圖像的“假圖像”去欺騙判別器，而判別器的任務(wù)是去甄別哪一些圖像是來(lái)自于真實(shí)的數(shù)據(jù)集，哪一些圖像是來(lái)自于生成器，在生成器和判別器的互相對(duì)抗中，通過(guò)合理的損失函數(shù)設(shè)計(jì)完成訓(xùn)練，最終模型收斂后，判別器的概率輸出為常數(shù)0.5，即一幅圖像來(lái)自于生成器和真實(shí)數(shù)據(jù)集的概率相同，生成器生成的圖像的概率分布無(wú)限趨近于真實(shí)數(shù)據(jù)集。

GAN技術(shù)成為2015，2016年深度學(xué)習(xí)研究的熱門(mén)領(lǐng)域，在圖像恢復(fù)、降噪、超分辨重建等方向獲得了極佳的表現(xiàn)，衍生出一系列諸如WGAN，Info-GAN，DCGAN，Conditional-GAN等技術(shù)，引領(lǐng)了一波風(fēng)潮。

(圖為利用Cycle-GAN技術(shù)，由一幅普通的照片生成莫奈、梵高等風(fēng)格的油畫(huà))

四、圖像的故事才剛剛開(kāi)始

當(dāng)我們把一幀幀圖像串聯(lián)在一起，變成流動(dòng)的光影，我們研究的問(wèn)題就從空間維度上擴(kuò)展到了時(shí)間維度，我們不僅需要關(guān)心物體在圖像中的位置、類(lèi)別、輪廓形狀、語(yǔ)義信息，我們更要關(guān)心圖像幀與幀之間的時(shí)間關(guān)系，去捕捉、識(shí)別一個(gè)物體的運(yùn)動(dòng)，去提取視頻的摘要，去分析視頻所表達(dá)的含義，去考慮除了圖像之外的聲音、文本標(biāo)注，去處理一系列的自然語(yǔ)言，我們的研究一步一步，邁向了更廣闊的星辰與大海。

圖像和視頻，都是虛擬的一串串?dāng)?shù)字，一個(gè)個(gè)字節(jié)，但卻讓這個(gè)世界更加真實(shí)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

圖像簡(jiǎn)史——程序員眼中的圖像發(fā)展史

圖像簡(jiǎn)史——程序員眼中的圖像發(fā)展史

一、圖像分類(lèi)

二、圖像中的物體檢測(cè)

三、圖像生成

四、圖像的故事才剛剛開(kāi)始

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

圖像簡(jiǎn)史——程序員眼中的圖像發(fā)展史

一、圖像分類(lèi)

二、圖像中的物體檢測(cè)

三、圖像生成

四、圖像的故事才剛剛開(kāi)始

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、圖像分類(lèi)

二、圖像中的物體檢測(cè)

四、圖像的故事才剛剛開(kāi)始