這篇paper的作者評價了各自度量GAN優(yōu)劣性的指標，并給出了實際工程方面的經(jīng)驗。

現(xiàn)有GAN評價指標存在哪些問題？

評價指標本身好壞，缺乏一個評價體系
現(xiàn)有許多評價指標雖然和人的主觀比較一致?？墒桥c人的主觀一致并不一定就代表GAN是好的。

現(xiàn)有的一些評價指標，比如Inception score和MMD等，雖然可以在一定程度上評價GAN。但是這些評價指標的適用場景卻依然是一個疑問。換句話說，什么場景下，Inception score評價有效，什么時候Inception score會誤導卻未知。此外，如果一個GAN過擬合了，那么生成的樣本會非常真實，人類主觀評價得分會非常高，可是這并不是一個好的GAN。

這里也就引出了作者的目的了，那就是如何評價GAN的這些評價指標！

作者做了哪些工作？

作者通過進行大量實驗，比較了現(xiàn)在example-based的評價方法。嘗試回答了一下問題：

現(xiàn)有指標哪個會更加合理，科學？
現(xiàn)有指標的優(yōu)缺點，應該首選哪些指標？

實際實驗發(fā)現(xiàn)，MMD和1-NN two-sample test是最為合適的評價指標，這兩個指標可以較好的區(qū)分：真實樣本和生成的樣本，mode dropping, mode collapsing。且計算高效。

什么是mode collapsing？

某個模式(mode)出現(xiàn)大量重復樣本，例如：

model collpsing

上圖左側的藍色五角星表示真實樣本空間，黃色的是生成的。生成樣本缺乏多樣性，存在大量重復。比如上圖右側中，紅框里面人物反復出現(xiàn)。

什么是mode dropping？

這個相對于好理解一下，顧名思義，某些模式（mode）沒有，同樣也缺乏多樣性。例如下圖中的人物，除了膚色變化，人物沒有任何變化。

mode dropping

GAN的常見評價指標

符號對照

$P_g$ :生成數(shù)據(jù)分布， $P_r$ 表示真實數(shù)據(jù)分布
$E$ :數(shù)學期望
$x$ :輸入樣本， $x\sim P_g$ 表示 $x$ 為生成樣本的采樣， $x\sim P_r$ 表示 $x$ 為真實樣本的采樣。
$y$ :樣本標簽
$M$ :分類網(wǎng)絡，通常選擇Inception network

現(xiàn)有的example-based（顧名思義，基于樣本層面做評價。）方法，均是對生成樣本與真實樣本提取特征，然后在特征空間做距離度量。具體框架如下：

example-based評價方法的框架

下面分別對常見的評價指標進行一一介紹：

Inception Score:

對于一個在ImageNet訓練良好的GAN，其生成的樣本丟給Inception網(wǎng)絡進行測試的時候，得到的判別概率應該具有如下特性：

對于同一個類別的圖片，其輸出的概率分布應該趨向于一個脈沖分布?？梢员ＷC生成樣本的準確性。
對于所有類別，其輸出的概率分布應該趨向于一個均勻分布，這樣才不會出現(xiàn)mode dropping等，可以保證生成樣本的多樣性。

因此，可以設計如下指標：
$IS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})]}$
根據(jù)前面分析，如果是一個訓練良好的GAN， $p_M(y|x)$ 趨近于脈沖分布， $p_M(y)$ 趨近于均勻分布。二者KL散度會很大。Inception Score自然就高。實際實驗表明，Inception Score和人的主觀判別趨向一致。IS的計算沒有用到真實數(shù)據(jù)，具體值取決于模型M的選擇

特點：可以一定程度上衡量生成樣本的多樣性和準確性，但是無法檢測過擬合。Mode Score也是如此。不推薦在和ImageNet數(shù)據(jù)集差別比較大的數(shù)據(jù)上使用。

Mode Score:

Mode Score作為Inception Score的改進版本，添加了關于生成樣本和真實樣本預測的概率分布相似性度量一項。具體公式如下：
$MS(P_g)=e^{E_{x\sim P_g}[KL(p_M(y|x)\Vert{p_M(y)})-KL(p_M(y)\Vert p_M(y^*))]}$

Kernel MMD (Maximum Mean Discrepancy)

計算公式如下：
$MMD^2(P_r,P_g)=E_{x_r\sim{P_r},x_g\sim{P_g}}[\lVert\Sigma_{i=1}^{n1}k(x_r)-\Sigma_{i=1}^{n2}k(x_g)\rVert]$
對于Kernel MMD值的計算，首先需要選擇一個核函數(shù) $k$ ，這個核函數(shù)把樣本映射到再生希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS) ，RKHS相比于歐幾里得空間有許多優(yōu)點，對于函數(shù)內積的計算是完備的。將上述公式展開即可得到下面的計算公式：
$MMD^2(P_r,P_g)=E_{x_r,x_r{'}\sim{P_r},x_g,x_g{'}\sim{P_g}}[k(x_r,x_r{'})-2k(x_r,x_g)+k(x_g,x_g{'})]$
MMD值越小，兩個分布越接近。

特點：可以一定程度上衡量模型生成圖像的優(yōu)劣性，計算代價小。推薦使用。

Wasserstein distance

Wasserstein distance在最優(yōu)傳輸問題中通常也叫做推土機距離。這個距離的介紹在WGAN中有詳細討論。公式如下：
$WD(P_r,P_g)=min_{\omega\in\mathbb{R}^{m\times n}}\Sigma_{i=1}^n\Sigma_{i=1}^m\omega_{ij}d(x_i^r,x_j^g)$
$s.t. \Sigma_{i=1}^mw_{i,j}=p_r(x_i^r), \forall i;\Sigma_{j=1}^nw_{i,j}=p_g(x_j^g), \forall j$
Wasserstein distance可以衡量兩個分布之間的相似性。距離越小，分布越相似。

特點：如果特征空間選擇合適，會有一定的效果。但是計算復雜度為 $O(n^3)$ 太高

Fre?chet Inception Distance (FID)

FID距離計算真實樣本，生成樣本在特征空間之間的距離。首先利用Inception網(wǎng)絡來提取特征，然后使用高斯模型對特征空間進行建模。根據(jù)高斯模型的均值和協(xié)方差來進行距離計算。具體公式如下：
$FID(\mathbb P_r,\mathbb P_g)=\lVert\mu_r-\mu_g\rVert+Tr(C_r+C_g-2(C_rC_g)^{1/2})$
$\mu,C$ 分別代表協(xié)方差和均值。

特點：盡管只計算了特征空間的前兩階矩，但是魯棒，且計算高效。

1-Nearest Neighbor classifier

使用留一法，結合1-NN分類器（別的也行）計算真實圖片，生成圖像的精度。如果二者接近，則精度接近50%，否則接近0%。對于GAN的評價問題，作者分別用正樣本的分類精度，生成樣本的分類精度去衡量生成樣本的真實性，多樣性。

對于真實樣本 $x_r$ ，進行1-NN分類的時候，如果生成的樣本越真實。則真實樣本空間 $\mathbb R$ 將被生成的樣本 $x_g$ 包圍。那么 $x_r$ 的精度會很低。
對于生成的樣本 $x_g$ ，進行1-NN分類的時候，如果生成的樣本多樣性不足。由于生成的樣本聚在幾個mode，則 $x_g$ 很容易就和 $x_r$ 區(qū)分，導致精度會很高。

特點：理想的度量指標，且可以檢測過擬合。

其他評價方法

AIS，KDE方法也可以用于評價GAN，但這些方法不是model agnostic metrics。也就是說，這些評價指標的計算無法只利用：生成的樣本，真實樣本來計算。

實驗

實驗部分進行了詳細對比。此處不表。
值得注意的是，上述指標對于特征空間的選擇尤其重要，特征空間選擇不當，可能得出相反的結果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GAN的評價：An empirical study on evaluation metrics of generative adversarial networks

GAN的評價：An empirical study on evaluation metrics of generative adversarial networks

現(xiàn)有GAN評價指標存在哪些問題？

作者做了哪些工作？

什么是mode collapsing？

什么是mode dropping？

GAN的常見評價指標

符號對照

Inception Score:

Mode Score:

Kernel MMD (Maximum Mean Discrepancy)

Wasserstein distance

Fre?chet Inception Distance (FID)

1-Nearest Neighbor classifier

其他評價方法

實驗

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GAN的評價：An empirical study on evaluation metrics of generative adversarial networks

現(xiàn)有GAN評價指標存在哪些問題？

作者做了哪些工作？

什么是mode collapsing？

什么是mode dropping？

GAN的常見評價指標

符號對照

Inception Score:

Mode Score:

Kernel MMD (Maximum Mean Discrepancy)

Wasserstein distance

Fre?chet Inception Distance (FID)

1-Nearest Neighbor classifier

其他評價方法

實驗

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

現(xiàn)有GAN評價指標存在哪些問題？

作者做了哪些工作？

什么是mode dropping？