GAN的評價:An empirical study on evaluation metrics of generative adversarial networks

這篇paper的作者評價了各自度量GAN優(yōu)劣性的指標,并給出了實際工程方面的經(jīng)驗。

現(xiàn)有GAN評價指標存在哪些問題?

  • 評價指標本身好壞,缺乏一個評價體系
  • 現(xiàn)有許多評價指標雖然和人的主觀比較一致??墒桥c人的主觀一致并不一定就代表GAN是好的。

現(xiàn)有的一些評價指標,比如Inception score和MMD等,雖然可以在一定程度上評價GAN。但是這些評價指標的適用場景卻依然是一個疑問。換句話說,什么場景下,Inception score評價有效,什么時候Inception score會誤導卻未知。此外,如果一個GAN過擬合了,那么生成的樣本會非常真實,人類主觀評價得分會非常高,可是這并不是一個好的GAN。

這里也就引出了作者的目的了,那就是如何評價GAN的這些評價指標!

作者做了哪些工作?

作者通過進行大量實驗,比較了現(xiàn)在example-based的評價方法。嘗試回答了一下問題:

  • 現(xiàn)有指標哪個會更加合理,科學?
  • 現(xiàn)有指標的優(yōu)缺點,應該首選哪些指標?

實際實驗發(fā)現(xiàn),MMD和1-NN two-sample test是最為合適的評價指標,這兩個指標可以較好的區(qū)分:真實樣本和生成的樣本,mode dropping, mode collapsing。且計算高效。

什么是mode collapsing?

某個模式(mode)出現(xiàn)大量重復樣本,例如:


model collpsing

上圖左側的藍色五角星表示真實樣本空間,黃色的是生成的。生成樣本缺乏多樣性,存在大量重復。比如上圖右側中,紅框里面人物反復出現(xiàn)。

什么是mode dropping?

這個相對于好理解一下,顧名思義,某些模式(mode)沒有,同樣也缺乏多樣性。例如下圖中的人物,除了膚色變化,人物沒有任何變化。


mode dropping

GAN的常見評價指標

符號對照

P_g:生成數(shù)據(jù)分布,P_r表示真實數(shù)據(jù)分布
E:數(shù)學期望
x:輸入樣本,x\sim P_g表示x為生成樣本的采樣,x\sim P_r表示x為真實樣本的采樣。
y:樣本標簽
M:分類網(wǎng)絡,通常選擇Inception network

現(xiàn)有的example-based(顧名思義,基于樣本層面做評價。)方法,均是對生成樣本與真實樣本提取特征,然后在特征空間做距離度量。具體框架如下:


example-based評價方法的框架

下面分別對常見的評價指標進行一一介紹:

Inception Score:

對于一個在ImageNet訓練良好的GAN,其生成的樣本丟給Inception網(wǎng)絡進行測試的時候,得到的判別概率應該具有如下特性:

  • 對于同一個類別的圖片,其輸出的概率分布應該趨向于一個脈沖分布??梢员WC生成樣本的準確性。
  • 對于所有類別,其輸出的概率分布應該趨向于一個均勻分布,這樣才不會出現(xiàn)mode dropping等,可以保證生成樣本的多樣性。

因此,可以設計如下指標:
IS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})]}
根據(jù)前面分析,如果是一個訓練良好的GAN,p_M(y|x)趨近于脈沖分布,p_M(y)趨近于均勻分布。二者KL散度會很大。Inception Score自然就高。實際實驗表明,Inception Score和人的主觀判別趨向一致。IS的計算沒有用到真實數(shù)據(jù),具體值取決于模型M的選擇

特點:可以一定程度上衡量生成樣本的多樣性和準確性,但是無法檢測過擬合。Mode Score也是如此。不推薦在和ImageNet數(shù)據(jù)集差別比較大的數(shù)據(jù)上使用。

Mode Score:

Mode Score作為Inception Score的改進版本,添加了關于生成樣本和真實樣本預測的概率分布相似性度量一項。具體公式如下:
MS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})-KL(p_M(y)\Vert p_M(y^*))]}

Kernel MMD (Maximum Mean Discrepancy)

計算公式如下:
MMD^2(P_r,P_g)=E_{x_r\sim{P_r},x_g\sim{P_g}}[\lVert\Sigma_{i=1}^{n1}k(x_r)-\Sigma_{i=1}^{n2}k(x_g)\rVert]
對于Kernel MMD值的計算,首先需要選擇一個核函數(shù)k,這個核函數(shù)把樣本映射到再生希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS) ,RKHS相比于歐幾里得空間有許多優(yōu)點,對于函數(shù)內積的計算是完備的。將上述公式展開即可得到下面的計算公式:
MMD^2(P_r,P_g)=E_{x_r,x_r{'}\sim{P_r},x_g,x_g{'}\sim{P_g}}[k(x_r,x_r{'})-2k(x_r,x_g)+k(x_g,x_g{'})]
MMD值越小,兩個分布越接近。

特點:可以一定程度上衡量模型生成圖像的優(yōu)劣性,計算代價小。推薦使用。

Wasserstein distance

Wasserstein distance在最優(yōu)傳輸問題中通常也叫做推土機距離。這個距離的介紹在WGAN中有詳細討論。公式如下:
WD(P_r,P_g)=min_{\omega\in\mathbb{R}^{m\times n}}\Sigma_{i=1}^n\Sigma_{i=1}^m\omega_{ij}d(x_i^r,x_j^g)
s.t. \Sigma_{i=1}^mw_{i,j}=p_r(x_i^r), \forall i;\Sigma_{j=1}^nw_{i,j}=p_g(x_j^g), \forall j
Wasserstein distance可以衡量兩個分布之間的相似性。距離越小,分布越相似。

特點:如果特征空間選擇合適,會有一定的效果。但是計算復雜度為O(n^3)太高

Fre?chet Inception Distance (FID)

FID距離計算真實樣本,生成樣本在特征空間之間的距離。首先利用Inception網(wǎng)絡來提取特征,然后使用高斯模型對特征空間進行建模。根據(jù)高斯模型的均值和協(xié)方差來進行距離計算。具體公式如下:
FID(\mathbb P_r,\mathbb P_g)=\lVert\mu_r-\mu_g\rVert+Tr(C_r+C_g-2(C_rC_g)^{1/2})
\mu,C分別代表協(xié)方差和均值。

特點:盡管只計算了特征空間的前兩階矩,但是魯棒,且計算高效。

1-Nearest Neighbor classifier

使用留一法,結合1-NN分類器(別的也行)計算真實圖片,生成圖像的精度。如果二者接近,則精度接近50%,否則接近0%。對于GAN的評價問題,作者分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性,多樣性。

  • 對于真實樣本x_r,進行1-NN分類的時候,如果生成的樣本越真實。則真實樣本空間\mathbb R將被生成的樣本x_g包圍。那么x_r的精度會很低。
  • 對于生成的樣本x_g,進行1-NN分類的時候,如果生成的樣本多樣性不足。由于生成的樣本聚在幾個mode,則x_g很容易就和x_r區(qū)分,導致精度會很高。

特點:理想的度量指標,且可以檢測過擬合。

其他評價方法

AIS,KDE方法也可以用于評價GAN,但這些方法不是model agnostic metrics。也就是說,這些評價指標的計算無法只利用:生成的樣本,真實樣本來計算。

實驗

實驗部分進行了詳細對比。此處不表。
值得注意的是,上述指標對于特征空間的選擇尤其重要,特征空間選擇不當,可能得出相反的結果。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容