不卡少妇一二三区,欧美日韩一级视频

1.論文：

題目：Person Search with Natural Language Description
作者：Shuang Li， Tong Xiao， Hongsheng Li， Bolei Zhou， Dayu Yue， Xiaogang Wang， The Chinese University of Hong Kong
原文連接：https://arxiv.org/abs/1702.05729

2.論文內容

image.png

摘要

用自然語言描述查詢大型圖像數(shù)據(jù)庫中的人員在視頻監(jiān)控中具有重要的應用?，F(xiàn)有的方法主要集中在基于圖像的方法或基于屬性的方法，這對于實際使用具有重要的局限性。在本文中，我們用自然語言描述研究人物搜索的問題。給定個人的文本描述，需要人物搜索算法對個人數(shù)據(jù)庫中的所有樣本進行排名，然后檢索與查詢描述相對應的最相關樣本。由于沒有可用的文本描述人物數(shù)據(jù)集，我們收集了一個大型人物描述數(shù)據(jù)集，其中包含了各種來源的詳細自然語言注釋和人物樣本，稱為CUHK-PEDES。我們還提出了門結構控神經注意機制（GNA-RNN）的RNN達到了人物搜索方面時下最優(yōu)性能。

引入和相關工作

傳統(tǒng)的人員搜索有兩種方法：基于圖片的方法和基于屬性的方法。
??基于圖片的人員搜索方法在計算機視覺當中也叫做“人物重新識別任務“。給出查詢圖像，算法獲得查詢與圖像數(shù)據(jù)庫中的查詢之間的親和度?？梢愿鶕?jù)親和度值從數(shù)據(jù)庫檢索最相似的人員。然而，這樣的問題設置在實踐中有很大的局限性，因為它需要至少一張被查詢者的照片。在許多刑事案件中，可能只有口頭上描述嫌犯的外表。
??人員搜索也可以通過基于屬性的查詢來完成。一組預定義的語義屬性用于描述人的外觀。然后對每個屬性對分類器進行訓練。給定一個查詢，數(shù)據(jù)庫中的類似的人可以被檢索為具有相似屬性的人。然而，這些屬性也具有許多實際的限制。一方面，屬性描述人的外表的能力有限。例如，PETA數(shù)據(jù)集定義了61個二分類和4個多類人物屬性，然而描述一個人的外觀可以有數(shù)百個單詞。另一方面，即使有一套可以窮盡的屬性系統(tǒng)，將它們標記為大型人物圖像數(shù)據(jù)集也是一個極為昂貴的過程。
??針對兩種模式的局限性，我們建議使用自然語言描述來搜索人。它不需要像這些基于圖像的查詢方法那樣預先給出照片。自然語言也可以精確地描述人物的細節(jié)。由于沒有現(xiàn)有的數(shù)據(jù)集專注于用自然語言描述人物，我們首先從現(xiàn)有人員重新識別數(shù)據(jù)集中構建了一個大型語言數(shù)據(jù)集，共有40,206個圖像，13,003個人。每個人的形象用兩個獨立的工作人員Amazon Mechanical Turk（AMT）來描述。在視覺方面，來自各種重新識別數(shù)據(jù)集的人物圖像在不同的場景，觀點和攝像機規(guī)格下，增加了圖像內容的多樣性。在語言方面，數(shù)據(jù)集有80,412個句子描述，包含豐富的詞匯，短語和句子模式和結構。數(shù)據(jù)集的描述如下圖。

??本文的貢獻有三點：1）我們提出研究用自然語言搜索人員的問題。這個問題設置對于現(xiàn)實世界的場景更為實用。為了支持這一研究方向，收集了具有豐富語言注釋的大規(guī)模人物描述數(shù)據(jù)集，并給出了用戶對自然語言描述的研究。 2）我們根據(jù)不同的視覺和語言框架，包括圖像字幕，視覺質量檢查和視覺語義嵌入，研究廣泛的合理解決方案，并建立人員搜索基準的基線。 3）我們進一步提出了一種具有門控神經注意力的新型循環(huán)神經網絡（GNA-RNN），用于人員搜索，以及對人員搜索基準的最先進的表現(xiàn)。

用GNA-RNN進行人員搜索

作者做了一個用戶研究。首先，作者發(fā)現(xiàn)在語言和屬性兩種類型的圖片描述中，語言描述更容忍為人所接收，并且搜索結果更準確。所以這說明，用自然語言來搜索人員比較好。其次，作者發(fā)現(xiàn)描述時句子越長，單詞越多，越容易為人所接收。這說明我們在描述圖片時，用長一點的句子描述比較好。最后，作者發(fā)現(xiàn)，對于單詞詞性，名詞包含的信息量最大，對我們搜索最優(yōu)幫助，其次是形容詞，最后是動詞。這說明我們在使用描述性語言來搜索人員時，應該給名詞更多權重，動詞較少的權重。
??以上這些對人們進行的研究，對我們構造模型有很大的幫助?；谏厦娴难芯拷Y論，作者提出了自己的網絡結構，如下。

image.png

??整個網絡分為兩個分支，左邊是自然語言處理子網絡，右邊藍色的分支是視覺圖像處理子網絡。
??右邊視覺圖像處理子網絡比較簡單，注意最后將VGG-16的“drop7”后又加了兩個全連接層，cls-fc1,cls-fc2，最后產生一個包含512個視覺單元的視覺向量。
??左邊的自然語言處理子網絡中，最后產生兩個輸出：unit-level attention和word-level gate。
??首先我們介紹unit-level attention。對于輸入的第t個單詞，會生成一個unit-level attention向量A_t，它用來控制每個單詞對圖片內容的注意力。對于不同的輸入單詞，網絡對圖片各部分內容的注意力不同，均滿足如下特點。

image.png

??A_t(n)表示A_t的第n維（A_t也是512維），v_n表示視覺特征的第n維。不同單詞，對圖片有不同的注意力。如果單詞產生的注意力A，和圖片本身的視覺特征v很相近，那么他們的乘積就很大，這樣的話，說明它們的親和度a越大，即這個單詞描述的內容和圖片描述的內容很相近。而包含t個單詞的一句話最終和一張圖片的總的親和度，就是它各個單詞和圖片的親和度之和，如下。

image.png

??其次，我們還要介紹word-level gate。看樣子上面的a已經能表示最終的親和度了，但是別忘了，我們進行的“用戶研究”的實驗表明，不同單詞的重要程度是不一樣的，所以這么直接相加并不是最好的，因為這其實默認各個單詞的權重都為1。所以，我們還要針對每個單詞，生成一個控制門，作為這個單詞的權重。那么第t個單詞調整后的親和度，即可以用以下公式表示。

image.png

而調整以后的總親和度，即可表示為以下。

image.png

實驗

image.png

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Person Search with Natural Language Description用自然語言來搜索圖片中的人

Person Search with Natural Language Description用自然語言來搜索圖片中的人

1.論文：

2.論文內容

摘要

引入和相關工作

用GNA-RNN進行人員搜索

實驗

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Person Search with Natural Language Description用自然語言來搜索圖片中的人

1.論文：

2.論文內容

摘要

引入和相關工作

用GNA-RNN進行人員搜索

實驗

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av