- PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer
- Cross-domain Correspondence Learning for Exemplar-based Image Translation
- Convolutional neural network architecture for geometric matching
相關(guān)性矩陣(correlation matrix)是一個(gè)簡(jiǎn)單的范式,矩陣中的每個(gè)元素 Cij 用來(lái)表示一個(gè)特征圖(feature map)中的第 i 個(gè)局部特征向量和另一個(gè)特征圖中的第 j 個(gè)局部特征向量之間的相關(guān)性,通常是由兩個(gè)局部特征向量的點(diǎn)積來(lái)表示(包含一個(gè) L2 歸一化)。兩個(gè)尺寸為 H * W * d 的特征圖的相關(guān)性矩陣的尺寸即為(H * W)*(H * W)。相關(guān)性是衡量特征匹配程度的依據(jù),特征則會(huì)根據(jù)不同的任務(wù)有著不同的表示,通常是基于形狀、顏色、紋理的語(yǔ)義特征。
語(yǔ)義特征相關(guān)性
語(yǔ)義特征與結(jié)構(gòu)位置信息結(jié)合
PSGAN 在妝容遷移(makeup transfer)時(shí)會(huì)對(duì)人臉中相應(yīng)位置進(jìn)行妝容遷移,為此 PSGAN 使用了 Attentive Matrix 來(lái)衡量?jī)蓚€(gè)人臉局部位置之間的語(yǔ)義信息和人臉空間結(jié)構(gòu)位置的相似性,并引入了 Attentive Makeup Morphing(AMM)模塊來(lái)圍繞 Attentive Matrix 進(jìn)行妝容的遷移。

在計(jì)算 Attentive Matrix 時(shí),使用到的不僅是局部的特征向量,還有基于當(dāng)前局部位置到以68個(gè)人臉關(guān)鍵點(diǎn)(landmark)作為錨點(diǎn)(anchor)的坐標(biāo)位置的偏差信息。特征圖與坐標(biāo)偏差合并(concat)成一個(gè)張量進(jìn)行 Attentive Matrix 的計(jì)算。

從生成的 Attention Map 上看,相應(yīng)的人臉位置區(qū)域有著很好的響應(yīng),對(duì)關(guān)注對(duì)應(yīng)的人臉位置也使得 PSGAN 相對(duì)于其他妝容遷移算法對(duì)姿態(tài)變化更為魯棒。
跨域語(yǔ)義對(duì)應(yīng)
CoCosNet 是基于范例(exemplar-based)的圖像翻譯(image translation)技術(shù),網(wǎng)絡(luò)在接受輸入域圖片的同時(shí),也接受一張目標(biāo)域的范例圖片,該范例圖片與輸入圖有相似的語(yǔ)義且具有用戶期望的目標(biāo)風(fēng)格。CoCosNet 提出建立兩個(gè)域圖片之間的密集語(yǔ)義對(duì)應(yīng)(dense correspondence),進(jìn)而依賴這樣的對(duì)應(yīng),定位輸入圖在范例中相應(yīng)位置的顏色、紋理信息,使得生成圖片風(fēng)格精細(xì)匹配范例中相同語(yǔ)義的物體。

于是,CoCosNet 的生成任務(wù)歸結(jié)于,如何精準(zhǔn)地找到輸入及范例之間的語(yǔ)義對(duì)應(yīng)。這里有兩大挑戰(zhàn):一是輸入圖和范例來(lái)自不同的域,它們的圖像塊(image patch)有著巨大的圖片域差異(domain gap);另一方面,不同域圖片之間的語(yǔ)義對(duì)應(yīng)的標(biāo)注信息很難取得,并拿來(lái)作為網(wǎng)絡(luò)訓(xùn)練的監(jiān)督信息。如上圖,建立自然人臉與油畫(huà)人像之間的密集對(duì)應(yīng),事實(shí)上是困難的,而這樣的跨域語(yǔ)義對(duì)應(yīng)(cross-domain semantic correspondence)問(wèn)題也是首次被提出。

CoCosNet 聯(lián)合訓(xùn)練跨域?qū)?yīng)和圖像生成,其中跨域?qū)?yīng)通過(guò)弱監(jiān)督學(xué)習(xí)(weakly supervised learning)的方式建立。整個(gè)網(wǎng)絡(luò)由兩個(gè)子網(wǎng)絡(luò)構(gòu)成。第一部分為跨域?qū)?yīng)(cross-domain correspondence)子網(wǎng)絡(luò),其用于找到來(lái)自于不同的域的輸入圖 x_A 與范例圖 y_B 之間的密集對(duì)應(yīng)。兩個(gè)域的特征提取器 (F_(A→B) 和 F_(B→A))利用訓(xùn)練集中 x_A 和它在目標(biāo)域的配對(duì) x_B 來(lái)訓(xùn)練,使它們提取到的特征可以適應(yīng)到一個(gè)對(duì)齊的隱空間,這里的域自適應(yīng)損失函數(shù)定義為:

之后,再用處于共同域上的特征進(jìn)行相關(guān)性矩陣的計(jì)算,進(jìn)行語(yǔ)義匹配。相關(guān)性矩陣中的元素為對(duì)應(yīng)特征的向量的余弦相似度。
幾何特征匹配
在 Convolutional neural network architecture for geometric matching 這篇論文中提出了一個(gè)用于幾何匹配的 CNN 架構(gòu)

幾何匹配的過(guò)程是將兩張圖像A、B輸入進(jìn)CNN模型后得到一個(gè)變換參數(shù) theta,然后圖A根據(jù)參數(shù) theta 進(jìn)行變換后即和圖B的幾何特征相匹。

在該 CNN 模型中,ImageA 和 ImageB 兩張圖像輸入到同一個(gè)特征提取的 CNN 里得到 feature map A 和 feature map B。之后兩個(gè) feature map 進(jìn)行相關(guān)性匹配(matching)得到 feature map AB,再經(jīng)過(guò)一個(gè) CNN 回歸得到用以幾何匹配的仿射變換參數(shù) theta。
輸入圖像經(jīng)過(guò)CNN提取特征后得到的 feature map 的尺寸是 w * h * d,相當(dāng)于是由 w * h 個(gè) d 維的局部特征向量組成的。

在相關(guān)性匹配時(shí),兩個(gè) feature 中的任意兩個(gè)局部特征向量的點(diǎn)積用來(lái)表示這兩個(gè)局部特征之間的相關(guān)性。最后可以看作是產(chǎn)生了一個(gè)(w * h)*(w * h)的相關(guān)性矩陣 cAB,cAB實(shí)際表示為一個(gè) w * h *(w * h)的三維張量相關(guān)性圖。cAB 中某個(gè)位置的向量中的第 k 個(gè)元素表示的是 feature map B 中對(duì)應(yīng)位置的向量和 feature map A 中的第 k 個(gè)向量的相似度。

這個(gè)相關(guān)性圖(correlation map)中的其中一個(gè)向量表示為 feature map A 中的所有特征向量與 feature map B 中的某個(gè)向量的相關(guān)程度。最后,相關(guān)性圖中的每個(gè)向量還會(huì)進(jìn)行 L2 歸一化得到歸一化的相關(guān)性圖,即為 feature map AB。

feature map AB 再經(jīng)過(guò)一個(gè)回歸 CNN 得到變換參數(shù) theta。

考慮到復(fù)雜的幾何對(duì)齊可能會(huì)難以一步到位的實(shí)現(xiàn),論文中還提出了一個(gè)兩階段的匹配流程:先在第一個(gè)階段使用仿射變換進(jìn)行粗略匹配,然后在此基礎(chǔ)上,第二階段再使用 tps 變化進(jìn)行一個(gè)精細(xì)的匹配。

兩階段中回歸 CNN 的輸出維度需要根據(jù)變換的自由度進(jìn)行調(diào)整。

簡(jiǎn)單的仿射變換。

復(fù)雜的 tps 變換。
由于缺少公開(kāi)數(shù)據(jù),訓(xùn)練數(shù)據(jù)將從公開(kāi)數(shù)據(jù)中生成。


生成隨機(jī)的 theta GT
損失函數(shù)定義為,在gird上衡量

在gird上衡量

該自監(jiān)督模型作為weakalign的預(yù)訓(xùn)練模型。






