av中文在线日韩,日本女人操必

Abstract

??????? 最近鄰檢索是一個(gè)適用于大規(guī)模圖像檢索的有效策略。基于最近CNNs網(wǎng)絡(luò)的流行，本文提出一個(gè)有效的深度學(xué)習(xí)框架去生成二值哈希碼，運(yùn)用于快速圖像檢索。文章的想法是，當(dāng)數(shù)據(jù)標(biāo)簽可用時(shí)，通過(guò)利用隱層表示控制類別標(biāo)簽的潛在概念，可以學(xué)習(xí)到一個(gè)二進(jìn)制碼。CNN的利用也可以學(xué)習(xí)到圖像表示，不同于其他監(jiān)督策略需要成對(duì)的輸入來(lái)學(xué)習(xí)二進(jìn)制碼，本文的方法通過(guò)“點(diǎn)對(duì)”的方式學(xué)習(xí)哈希碼和圖像表示，使其更適用于大規(guī)模的數(shù)據(jù)庫(kù)。實(shí)驗(yàn)結(jié)果表明本文策略在CIFAR10和MNIST數(shù)據(jù)庫(kù)上優(yōu)于state-of-the-art的哈希算法。

1.Introduction

??????? 基于內(nèi)容的圖像檢索旨在通過(guò)分析圖像內(nèi)容來(lái)尋找相似圖像，因此圖像表示和相似度度量方法成為此課題的關(guān)鍵。因循這樣的研究路線，最有挑戰(zhàn)性的問(wèn)題是聯(lián)系像素級(jí)別的信息和來(lái)自于人類感知的語(yǔ)義信息。盡管一些手工制作的特征被用來(lái)表征圖像，但這些視覺(jué)描述自仍然有所局限，一直到深度學(xué)習(xí)的突破。進(jìn)來(lái)的研究表明深度CNN在許多課題上顯著提升了性能，例如目標(biāo)檢測(cè)，圖像分類，分割。這些成果都?xì)w功于深度CNN學(xué)習(xí)了豐富的中層圖像表示。

??????? 因?yàn)樯疃菴NN學(xué)習(xí)了豐富的圖像的中層特征描述子，Krizhevsky等人將CNN第七個(gè)layer的特征向量用于圖像檢索，在ImageNet上得到了不錯(cuò)的效果。但也因?yàn)镃NN特征維度較高，直接計(jì)算4096維向量之間的相似性效率很低，Babenko等人提出采用PCA降維的方法，取得了不錯(cuò)的效果。

??????? 在CBIR（content based image retrieval ，基于內(nèi)容的圖像檢索）中，圖像表示和計(jì)算開(kāi)銷騎著額至關(guān)重要的作用，由于近來(lái)視覺(jué)內(nèi)容的增長(zhǎng)，基于大規(guī)模數(shù)據(jù)庫(kù)的快速搜索成為迫切需要。許多研究致力于解決怎樣在大規(guī)模數(shù)據(jù)庫(kù)上有效地檢索出相關(guān)數(shù)據(jù)。因?yàn)榇罅康挠?jì)算開(kāi)銷，傳統(tǒng)的線性搜索（或者窮舉搜索）不再適用于大規(guī)模的數(shù)據(jù)搜索。取而代之的是ANN（Approximate Nearest Neighbor ，近似最近鄰)和基于散列（hashing）的方法來(lái)提高速度。這種方法將高維特征映射到地位空間，產(chǎn)生簡(jiǎn)潔的二進(jìn)制碼。通過(guò)這些二進(jìn)制碼，快速圖像搜索能夠通過(guò)二進(jìn)制模式匹配或者漢明距離來(lái)進(jìn)行，顯著降低計(jì)算開(kāi)銷并且優(yōu)化搜索效率。這些策略一部分屬于“配對(duì)”策略，通過(guò)利用相似矩陣描述圖像對(duì)（或者數(shù)據(jù)對(duì)）之間的關(guān)系，利用這種相似信息取學(xué)習(xí)hash函數(shù)。但當(dāng)處理一個(gè)大規(guī)模數(shù)據(jù)庫(kù)時(shí)，需要構(gòu)建矩陣和碼。

??????? 本文利用CNN來(lái)實(shí)現(xiàn)hashing的想法，通過(guò)深度CNN產(chǎn)生簡(jiǎn)潔的二進(jìn)制codes。在數(shù)據(jù)被標(biāo)記的前提下，設(shè)計(jì)CNN模型能夠同時(shí)產(chǎn)生圖像藐視和二進(jìn)制碼，也就是有監(jiān)督的學(xué)習(xí)。我們認(rèn)為深度CNN能夠?qū)W習(xí)并且數(shù)據(jù)標(biāo)簽可用，二進(jìn)制編碼能夠通過(guò)利用一些隱層所代表的決定了結(jié)構(gòu)中的類別標(biāo)簽的潛在概念實(shí)現(xiàn)學(xué)習(xí)（通過(guò)sigmoid等二進(jìn)制激活函數(shù)）。這和其他一些監(jiān)督策略不同，其他策略需要成對(duì)的輸入以考慮數(shù)據(jù)標(biāo)簽來(lái)實(shí)現(xiàn)學(xué)習(xí)。也就是說(shuō)本文以“點(diǎn)對(duì)”的方式學(xué)習(xí)哈希編碼，利用了CNN的增量學(xué)習(xí)性質(zhì)（隨機(jī)梯度下降）。深度框架的采用也實(shí)現(xiàn)了高效率的檢索特征的學(xué)習(xí)。適用于大規(guī)模的數(shù)據(jù)集。

??????? 本文方法具有以下特性：

??????? `引入了一種簡(jiǎn)單有效的監(jiān)督學(xué)習(xí)框架適用于圖像檢索

??????? `通過(guò)網(wǎng)絡(luò)模型的微調(diào)，能夠同時(shí)學(xué)習(xí)區(qū)域特定的圖像表示和一系列hashing-like函數(shù)

??????? `提出的方法超過(guò)了現(xiàn)有的baseline

??????? `本文方法通過(guò)“點(diǎn)對(duì)”的方式學(xué)習(xí)hashing編碼，相比于傳統(tǒng)的“成對(duì)”策略更易于擴(kuò)展

3.Method

??????? 下圖是本文提出的框架。3個(gè)主要部分。

? ? ? ? 1.在ImageNet上進(jìn)行有監(jiān)督的預(yù)訓(xùn)練

??????? 2.利用隱層進(jìn)行fine-tune，同時(shí)學(xué)習(xí)特定區(qū)域的特征表示和hash-like函數(shù)

? ? ? ? 3.通過(guò)分層深度搜索進(jìn)行圖片檢索

upload-byScharlie

??????? 圖注：本文通過(guò)分層的深度搜索提出圖片檢索框架.首先在ImageNet上預(yù)訓(xùn)練CNN以學(xué)習(xí)到豐富的中層圖像表示；其次在通過(guò)添加隱層并在隱層中設(shè)置神經(jīng)元，在目標(biāo)數(shù)據(jù)庫(kù)上fine-tune時(shí)學(xué)習(xí)到hashes-like表示；最后基于由粗到細(xì)的策略，利用學(xué)習(xí)到的hashes-like二進(jìn)制碼和F7層特征，實(shí)現(xiàn)圖片檢索。

3.1 Learning Hash-like Binary Codes

??????? 近來(lái)研究表明，由輸入圖片引入的F6-F8的特征激活可以當(dāng)做視覺(jué)特征。這些中層圖像表示可以提高圖像分類、檢索的精度。然而這些特征維度較高，不適用于大規(guī)模的圖像檢索。為了提高圖片檢索的效率，一個(gè)降低運(yùn)算量的有效方法是將特征向量轉(zhuǎn)化為二進(jìn)制碼。這種精巧的二進(jìn)制碼能夠通過(guò)hashing或者漢明距離很快比較。

??????? 本文試圖同時(shí)學(xué)習(xí)特定區(qū)域的圖像表示和一系列的hash-like函數(shù)。假設(shè)最后一個(gè)F8層的輸出依賴一系列隱藏的有on和off狀態(tài)的屬性h。即是說(shuō)，圖片誘導(dǎo)相似的二進(jìn)制激活有同樣的label（標(biāo)簽）。為了實(shí)現(xiàn)該想法，在F7和F8之間部署一個(gè)隱層H，H是一個(gè)全連接層，受后面編碼語(yǔ)義特征和實(shí)現(xiàn)分類的F8層的調(diào)整。H層不僅提供對(duì)F7層豐富特征的抽象，也是中層特征和高層語(yǔ)義的橋梁（承上啟下）。H層的神經(jīng)元通過(guò)Sigmoid函數(shù)激活近似到{0,1}。

? ? ? ? 為了實(shí)現(xiàn)領(lǐng)域適應(yīng)，通過(guò)在目標(biāo)數(shù)據(jù)集上反向傳播fine-tune。CNN的初始化權(quán)重為ImageNet的預(yù)訓(xùn)練模型，H層和F8層的權(quán)重隨機(jī)初始化。H層的初始化隨機(jī)權(quán)重類似與LSH，在構(gòu)建hashing位時(shí)使用隨機(jī)映射。在監(jiān)督學(xué)習(xí)下，編碼能夠從LSH（局部敏感度哈希）調(diào)整為更好匹配數(shù)據(jù)的形式。不用通過(guò)大規(guī)模的網(wǎng)絡(luò)模型修改，該模型能夠同時(shí)學(xué)習(xí)特定區(qū)域的視覺(jué)表示和hashing-like函數(shù)以用于圖片檢索。

3.2 Image Retrieval via Hierarchical Deep Search

??????? Zeiler和Fergus研究過(guò)CNN的淺層學(xué)習(xí)局部視覺(jué)表示，高層捕捉語(yǔ)義信息能更好地用于識(shí)別。采用由粗到細(xì)的搜索策略以滿足圖片檢索的速度和精度。首先通過(guò)相似的高層語(yǔ)義檢索出一系列的候選圖片，他們?cè)陔[層H上具有相似的二進(jìn)制激活；隨后進(jìn)一步篩選在中層特征上具有相似性的圖片。

??????? Coarse-level Search.給定圖片I，首先提取隱層H的輸出作為圖片標(biāo)簽，用Out(H)表示。隱層的激活通過(guò)一個(gè)門限，二進(jìn)制化，得到二進(jìn)制碼。對(duì)于每一個(gè)位j=1```h（h是隱層節(jié)點(diǎn)的個(gè)數(shù)），輸出隱層H的二進(jìn)制編碼如下：

uploadby-Scharlie

??????? 假設(shè)有n幅待選圖片{I 1 , I 2 , . . . , I n }，相關(guān)聯(lián)的二進(jìn)制碼{H 1 , H 2 , . . . , H n }。H i ∈ {0, 1} 。給定一個(gè)查詢圖像Iq和它的二進(jìn)制碼Hq，能是別處它的m個(gè)候選圖片{I 1 c , I 2 c , . . . , I mc}，如果Hq和{H 1 , H 2 , . . . , H n }中的漢明距離小于某一個(gè)門限。

??????? Fine-level Search.給定一個(gè)待檢索圖片Iq和候選集P，通過(guò)F7層的特征提取找出前k個(gè)最相似的圖片，Vq表示帶檢索圖片的F7層特征，Vip表示候選集的F7層特征，是通過(guò)比較待檢索圖片和候選集中的圖片的歐氏距離得到相似性。距離越小越相似。

?????????????????????????????????????????????????????? s i = ∥V q ? V i P ∥.

4. Experimental Results

作者在MNIST Dataset、CIFAR-10 Dataset、Yahoo-1M Dataset上進(jìn)行了實(shí)驗(yàn)。分別是0-9的手寫(xiě)體數(shù)據(jù)庫(kù)、包含10類的數(shù)據(jù)庫(kù)、包含116類衣物的數(shù)據(jù)庫(kù)。

MNIST Dataset