1.論文:
題目:Person Search with Natural Language Description
作者:Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang, The Chinese University of Hong Kong
原文連接:https://arxiv.org/abs/1702.05729
2.論文內容

摘要
用自然語言描述查詢大型圖像數(shù)據(jù)庫中的人員在視頻監(jiān)控中具有重要的應用?,F(xiàn)有的方法主要集中在基于圖像的方法或基于屬性的方法,這對于實際使用具有重要的局限性。在本文中,我們用自然語言描述研究人物搜索的問題。給定個人的文本描述,需要人物搜索算法對個人數(shù)據(jù)庫中的所有樣本進行排名,然后檢索與查詢描述相對應的最相關樣本。由于沒有可用的文本描述人物數(shù)據(jù)集,我們收集了一個大型人物描述數(shù)據(jù)集,其中包含了各種來源的詳細自然語言注釋和人物樣本,稱為CUHK-PEDES。我們還提出了門結構控神經注意機制(GNA-RNN)的RNN達到了人物搜索方面時下最優(yōu)性能。
引入和相關工作
傳統(tǒng)的人員搜索有兩種方法:基于圖片的方法和基于屬性的方法。
??基于圖片的人員搜索方法在計算機視覺當中也叫做“人物重新識別任務“。給出查詢圖像,算法獲得查詢與圖像數(shù)據(jù)庫中的查詢之間的親和度??梢愿鶕?jù)親和度值從數(shù)據(jù)庫檢索最相似的人員。然而,這樣的問題設置在實踐中有很大的局限性,因為它需要至少一張被查詢者的照片。在許多刑事案件中,可能只有口頭上描述嫌犯的外表。
??人員搜索也可以通過基于屬性的查詢來完成。一組預定義的語義屬性用于描述人的外觀。然后對每個屬性對分類器進行訓練。給定一個查詢,數(shù)據(jù)庫中的類似的人可以被檢索為具有相似屬性的人。然而,這些屬性也具有許多實際的限制。一方面,屬性描述人的外表的能力有限。例如,PETA數(shù)據(jù)集定義了61個二分類和4個多類人物屬性,然而描述一個人的外觀可以有數(shù)百個單詞。另一方面,即使有一套可以窮盡的屬性系統(tǒng),將它們標記為大型人物圖像數(shù)據(jù)集也是一個極為昂貴的過程。
??針對兩種模式的局限性,我們建議使用自然語言描述來搜索人。它不需要像這些基于圖像的查詢方法那樣預先給出照片。自然語言也可以精確地描述人物的細節(jié)。由于沒有現(xiàn)有的數(shù)據(jù)集專注于用自然語言描述人物,我們首先從現(xiàn)有人員重新識別數(shù)據(jù)集中構建了一個大型語言數(shù)據(jù)集,共有40,206個圖像,13,003個人。每個人的形象用兩個獨立的工作人員Amazon Mechanical Turk(AMT)來描述。在視覺方面,來自各種重新識別數(shù)據(jù)集的人物圖像在不同的場景,觀點和攝像機規(guī)格下,增加了圖像內容的多樣性。在語言方面,數(shù)據(jù)集有80,412個句子描述,包含豐富的詞匯,短語和句子模式和結構。數(shù)據(jù)集的描述如下圖。

??本文的貢獻有三點:1)我們提出研究用自然語言搜索人員的問題。這個問題設置對于現(xiàn)實世界的場景更為實用。為了支持這一研究方向,收集了具有豐富語言注釋的大規(guī)模人物描述數(shù)據(jù)集,并給出了用戶對自然語言描述的研究。 2)我們根據(jù)不同的視覺和語言框架,包括圖像字幕,視覺質量檢查和視覺語義嵌入,研究廣泛的合理解決方案,并建立人員搜索基準的基線。 3)我們進一步提出了一種具有門控神經注意力的新型循環(huán)神經網絡(GNA-RNN),用于人員搜索,以及對人員搜索基準的最先進的表現(xiàn)。
用GNA-RNN進行人員搜索
作者做了一個用戶研究。首先,作者發(fā)現(xiàn)在語言和屬性兩種類型的圖片描述中,語言描述更容忍為人所接收,并且搜索結果更準確。所以這說明,用自然語言來搜索人員比較好。其次,作者發(fā)現(xiàn)描述時句子越長,單詞越多,越容易為人所接收。這說明我們在描述圖片時,用長一點的句子描述比較好。最后,作者發(fā)現(xiàn),對于單詞詞性,名詞包含的信息量最大,對我們搜索最優(yōu)幫助,其次是形容詞,最后是動詞。這說明我們在使用描述性語言來搜索人員時,應該給名詞更多權重,動詞較少的權重。
??以上這些對人們進行的研究,對我們構造模型有很大的幫助?;谏厦娴难芯拷Y論,作者提出了自己的網絡結構,如下。

??整個網絡分為兩個分支,左邊是自然語言處理子網絡,右邊藍色的分支是視覺圖像處理子網絡。
??右邊視覺圖像處理子網絡比較簡單,注意最后將VGG-16的“drop7”后又加了兩個全連接層,cls-fc1,cls-fc2,最后產生一個包含512個視覺單元的視覺向量。
??左邊的自然語言處理子網絡中,最后產生兩個輸出:unit-level attention和word-level gate。
??首先我們介紹unit-level attention。對于輸入的第t個單詞,會生成一個unit-level attention向量A_t,它用來控制每個單詞對圖片內容的注意力。對于不同的輸入單詞,網絡對圖片各部分內容的注意力不同,均滿足如下特點。

??A_t(n)表示A_t的第n維(A_t也是512維),v_n表示視覺特征的第n維。不同單詞,對圖片有不同的注意力。如果單詞產生的注意力A,和圖片本身的視覺特征v很相近,那么他們的乘積就很大,這樣的話,說明它們的親和度a越大,即這個單詞描述的內容和圖片描述的內容很相近。而包含t個單詞的一句話最終和一張圖片的總的親和度,就是它各個單詞和圖片的親和度之和,如下。

??其次,我們還要介紹word-level gate。看樣子上面的a已經能表示最終的親和度了,但是別忘了,我們進行的“用戶研究”的實驗表明,不同單詞的重要程度是不一樣的,所以這么直接相加并不是最好的,因為這其實默認各個單詞的權重都為1。所以,我們還要針對每個單詞,生成一個控制門,作為這個單詞的權重。那么第t個單詞調整后的親和度,即可以用以下公式表示。

而調整以后的總親和度,即可表示為以下。

實驗

