【劃重點(diǎn)】Deep Learning of Binary Hash Codes for Fast Image Retrieval

Abstract

??????? 最近鄰檢索是一個(gè)適用于大規(guī)模圖像檢索的有效策略。基于最近CNNs網(wǎng)絡(luò)的流行,本文提出一個(gè)有效的深度學(xué)習(xí)框架去生成二值哈希碼,運(yùn)用于快速圖像檢索。文章的想法是,當(dāng)數(shù)據(jù)標(biāo)簽可用時(shí),通過(guò)利用隱層表示控制類別標(biāo)簽的潛在概念,可以學(xué)習(xí)到一個(gè)二進(jìn)制碼。CNN的利用也可以學(xué)習(xí)到圖像表示,不同于其他監(jiān)督策略需要成對(duì)的輸入來(lái)學(xué)習(xí)二進(jìn)制碼,本文的方法通過(guò)“點(diǎn)對(duì)”的方式學(xué)習(xí)哈希碼和圖像表示,使其更適用于大規(guī)模的數(shù)據(jù)庫(kù)。實(shí)驗(yàn)結(jié)果表明本文策略在CIFAR10和MNIST數(shù)據(jù)庫(kù)上優(yōu)于state-of-the-art的哈希算法。

1.Introduction

??????? 基于內(nèi)容的圖像檢索旨在通過(guò)分析圖像內(nèi)容來(lái)尋找相似圖像,因此圖像表示和相似度度量方法成為此課題的關(guān)鍵。因循這樣的研究路線,最有挑戰(zhàn)性的問(wèn)題是聯(lián)系像素級(jí)別的信息和來(lái)自于人類感知的語(yǔ)義信息。盡管一些手工制作的特征被用來(lái)表征圖像,但這些視覺(jué)描述自仍然有所局限,一直到深度學(xué)習(xí)的突破。進(jìn)來(lái)的研究表明深度CNN在許多課題上顯著提升了性能,例如目標(biāo)檢測(cè),圖像分類,分割。這些成果都?xì)w功于深度CNN學(xué)習(xí)了豐富的中層圖像表示。

??????? 因?yàn)樯疃菴NN學(xué)習(xí)了豐富的圖像的中層特征描述子,Krizhevsky等人將CNN第七個(gè)layer的特征向量用于圖像檢索,在ImageNet上得到了不錯(cuò)的效果。但也因?yàn)镃NN特征維度較高,直接計(jì)算4096維向量之間的相似性效率很低,Babenko等人提出采用PCA降維的方法,取得了不錯(cuò)的效果。

??????? 在CBIR(content based image retrieval ,基于內(nèi)容的圖像檢索)中,圖像表示和計(jì)算開(kāi)銷騎著額至關(guān)重要的作用,由于近來(lái)視覺(jué)內(nèi)容的增長(zhǎng),基于大規(guī)模數(shù)據(jù)庫(kù)的快速搜索成為迫切需要。許多研究致力于解決怎樣在大規(guī)模數(shù)據(jù)庫(kù)上有效地檢索出相關(guān)數(shù)據(jù)。因?yàn)榇罅康挠?jì)算開(kāi)銷,傳統(tǒng)的線性搜索(或者窮舉搜索)不再適用于大規(guī)模的數(shù)據(jù)搜索。取而代之的是ANN(Approximate Nearest Neighbor ,近似最近鄰)和基于散列(hashing)的方法來(lái)提高速度。這種方法將高維特征映射到地位空間,產(chǎn)生簡(jiǎn)潔的二進(jìn)制碼。通過(guò)這些二進(jìn)制碼,快速圖像搜索能夠通過(guò)二進(jìn)制模式匹配或者漢明距離來(lái)進(jìn)行,顯著降低計(jì)算開(kāi)銷并且優(yōu)化搜索效率。這些策略一部分屬于“配對(duì)”策略,通過(guò)利用相似矩陣描述圖像對(duì)(或者數(shù)據(jù)對(duì))之間的關(guān)系,利用這種相似信息取學(xué)習(xí)hash函數(shù)。但當(dāng)處理一個(gè)大規(guī)模數(shù)據(jù)庫(kù)時(shí),需要構(gòu)建矩陣和碼。

??????? 本文利用CNN來(lái)實(shí)現(xiàn)hashing的想法,通過(guò)深度CNN產(chǎn)生簡(jiǎn)潔的二進(jìn)制codes。在數(shù)據(jù)被標(biāo)記的前提下,設(shè)計(jì)CNN模型能夠同時(shí)產(chǎn)生圖像藐視和二進(jìn)制碼,也就是有監(jiān)督的學(xué)習(xí)。我們認(rèn)為深度CNN能夠?qū)W習(xí)并且數(shù)據(jù)標(biāo)簽可用,二進(jìn)制編碼能夠通過(guò)利用一些隱層所代表的決定了結(jié)構(gòu)中的類別標(biāo)簽的潛在概念實(shí)現(xiàn)學(xué)習(xí)(通過(guò)sigmoid等二進(jìn)制激活函數(shù))。這和其他一些監(jiān)督策略不同,其他策略需要成對(duì)的輸入以考慮數(shù)據(jù)標(biāo)簽來(lái)實(shí)現(xiàn)學(xué)習(xí)。也就是說(shuō)本文以“點(diǎn)對(duì)”的方式學(xué)習(xí)哈希編碼,利用了CNN的增量學(xué)習(xí)性質(zhì)(隨機(jī)梯度下降)。深度框架的采用也實(shí)現(xiàn)了高效率的檢索特征的學(xué)習(xí)。適用于大規(guī)模的數(shù)據(jù)集。

??????? 本文方法具有以下特性:

??????? `引入了一種簡(jiǎn)單有效的監(jiān)督學(xué)習(xí)框架適用于圖像檢索

??????? `通過(guò)網(wǎng)絡(luò)模型的微調(diào),能夠同時(shí)學(xué)習(xí)區(qū)域特定的圖像表示和一系列hashing-like函數(shù)

??????? `提出的方法超過(guò)了現(xiàn)有的baseline

??????? `本文方法通過(guò)“點(diǎn)對(duì)”的方式學(xué)習(xí)hashing編碼,相比于傳統(tǒng)的“成對(duì)”策略更易于擴(kuò)展

3.Method

??????? 下圖是本文提出的框架。3個(gè)主要部分。

? ? ? ? 1.在ImageNet上進(jìn)行有監(jiān)督的預(yù)訓(xùn)練

??????? 2.利用隱層進(jìn)行fine-tune,同時(shí)學(xué)習(xí)特定區(qū)域的特征表示和hash-like函數(shù)

? ? ? ? 3.通過(guò)分層深度搜索進(jìn)行圖片檢索

upload-byScharlie

??????? 圖注:本文通過(guò)分層的深度搜索提出圖片檢索框架.首先在ImageNet上預(yù)訓(xùn)練CNN以學(xué)習(xí)到豐富的中層圖像表示;其次在通過(guò)添加隱層并在隱層中設(shè)置神經(jīng)元,在目標(biāo)數(shù)據(jù)庫(kù)上fine-tune時(shí)學(xué)習(xí)到hashes-like表示;最后基于由粗到細(xì)的策略,利用學(xué)習(xí)到的hashes-like二進(jìn)制碼和F7層特征,實(shí)現(xiàn)圖片檢索。

3.1 Learning Hash-like Binary Codes

??????? 近來(lái)研究表明,由輸入圖片引入的F6-F8的特征激活可以當(dāng)做視覺(jué)特征。這些中層圖像表示可以提高圖像分類、檢索的精度。然而這些特征維度較高,不適用于大規(guī)模的圖像檢索。為了提高圖片檢索的效率,一個(gè)降低運(yùn)算量的有效方法是將特征向量轉(zhuǎn)化為二進(jìn)制碼。這種精巧的二進(jìn)制碼能夠通過(guò)hashing或者漢明距離很快比較。

??????? 本文試圖同時(shí)學(xué)習(xí)特定區(qū)域的圖像表示和一系列的hash-like函數(shù)。假設(shè)最后一個(gè)F8層的輸出依賴一系列隱藏的有on和off狀態(tài)的屬性h。即是說(shuō),圖片誘導(dǎo)相似的二進(jìn)制激活有同樣的label(標(biāo)簽)。為了實(shí)現(xiàn)該想法,在F7和F8之間部署一個(gè)隱層H,H是一個(gè)全連接層,受后面編碼語(yǔ)義特征和實(shí)現(xiàn)分類的F8層的調(diào)整。H層不僅提供對(duì)F7層豐富特征的抽象,也是中層特征和高層語(yǔ)義的橋梁(承上啟 下)。H層的神經(jīng)元通過(guò)Sigmoid函數(shù)激活近似到{0,1}。

? ? ? ? 為了實(shí)現(xiàn)領(lǐng)域適應(yīng),通過(guò)在目標(biāo)數(shù)據(jù)集上反向傳播fine-tune。CNN的初始化權(quán)重為ImageNet的預(yù)訓(xùn)練模型,H層和F8層的權(quán)重隨機(jī)初始化。H層的初始化隨機(jī)權(quán)重類似與LSH,在構(gòu)建hashing位時(shí)使用隨機(jī)映射。在監(jiān)督學(xué)習(xí)下,編碼能夠從LSH(局部敏感度哈希)調(diào)整為更好匹配數(shù)據(jù)的形式。不用通過(guò)大規(guī)模的網(wǎng)絡(luò)模型修改,該模型能夠同時(shí)學(xué)習(xí)特定區(qū)域的視覺(jué)表示和hashing-like函數(shù)以用于圖片檢索。

3.2 Image Retrieval via Hierarchical Deep Search

??????? Zeiler和Fergus研究過(guò)CNN的淺層學(xué)習(xí)局部視覺(jué)表示,高層捕捉語(yǔ)義信息能更好地用于識(shí)別。采用由粗到細(xì)的搜索策略以滿足圖片檢索的速度和精度。首先通過(guò)相似的高層語(yǔ)義檢索出一系列的候選圖片,他們?cè)陔[層H上具有相似的二進(jìn)制激活;隨后進(jìn)一步篩選在中層特征上具有相似性的圖片。

??????? Coarse-level Search.給定圖片I,首先提取隱層H的輸出作為圖片標(biāo)簽,用Out(H)表示。隱層的激活通過(guò)一個(gè)門限,二進(jìn)制化,得到二進(jìn)制碼。對(duì)于每一個(gè)位j=1```h(h是隱層節(jié)點(diǎn)的個(gè)數(shù)),輸出隱層H的二進(jìn)制編碼如下:

uploadby-Scharlie

??????? 假設(shè)有n幅待選圖片{I 1 , I 2 , . . . , I n },相關(guān)聯(lián)的二進(jìn)制碼{H 1 , H 2 , . . . , H n }。H i ∈ {0, 1} 。給定一個(gè)查詢圖像Iq和它的二進(jìn)制碼Hq,能是別處它的m個(gè)候選圖片{I 1 c , I 2 c , . . . , I mc},如果Hq和{H 1 , H 2 , . . . , H n }中的漢明距離小于某一個(gè)門限。

??????? Fine-level Search.給定一個(gè)待檢索圖片Iq和候選集P,通過(guò)F7層的特征提取找出前k個(gè)最相似的圖片,Vq表示帶檢索圖片的F7層特征,Vip表示候選集的F7層特征,是通過(guò)比較待檢索圖片和候選集中的圖片的歐氏距離得到相似性。距離越小越相似。

?????????????????????????????????????????????????????? s i = ∥V q ? V i P ∥.

4. Experimental Results

作者在MNIST Dataset、CIFAR-10 Dataset、Yahoo-1M Dataset上進(jìn)行了實(shí)驗(yàn)。分別是0-9的手寫(xiě)體數(shù)據(jù)庫(kù)、包含10類的數(shù)據(jù)庫(kù)、包含116類衣物的數(shù)據(jù)庫(kù)。

MNIST Dataset

upload-byScharlie
upload-byScharlie

CIFAR-10 Dataset

upload-byScharlie
upload-byScharlie

Yahoo-1M Dataset

upload-byScharlie
upload-byScharlie

Yahoo-1M上的檢索示例

upload-byScharlie

PS:文中的hashing-like function可以理解為一種得到二值檢索向量的方式。通過(guò)對(duì)圖片的二進(jìn)制編碼實(shí)現(xiàn)對(duì)圖片高層語(yǔ)義特征的表達(dá)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容