Image Caption 常用評價指標

BLEU、Meteor、ROUGE、CIDEr 和 SPICE。前兩個是評測機器翻譯的,第三個是評測自動摘要的,最后兩個評價 caption 的。

  1. Perplexity

    Perplexity

    其中,L是句子的長度,PPL(w_{1:L}|I) 就是根據(jù)圖像 I 給出的描述句子 w_{1:L} 的 perplexity。而P(w_n|w_{1:n-1},I) 是根據(jù)圖像 I 和前面的單詞序列 w_{1:n-1} 生成下一個單詞 w_n 的概率。
    一句話:Perplexity 得分越低越好。

  2. BLEU
    Bilingual Evaluation Understudy,雙語互評輔助工具。 用于分析候選譯文(待評價的譯文)和參考譯文中 N 元組共同出現(xiàn)的程度,IBM 于2002年提出的。
    BLEU的優(yōu)點是它考慮的粒度是 n-gram 而不是詞,考慮了更長的匹配信息;BLEU的缺點是不管什么樣的 n-gram 被匹配上了,都會被同等對待。比如說動詞匹配上的重要性從直覺上講應(yīng)該是大于冠詞的。BLEU是做不到百分百的準確的,它只能做到個大概判斷,它的目標也只是給出一個快且不差自動評估解決方案。
    優(yōu)點很明顯:方便、快速、結(jié)果有參考價值 。
    缺點也不少,主要有: 1. 不考慮語言表達(語法)上的準確性; 2. 測評精度會受常用詞的干擾; 3. 短譯句的測評精度有時會較高(長度懲罰); 4. 沒有考慮同義詞或相似表達的情況,可能會導(dǎo)致合理翻譯被否定;

    各階N-gram的精度
    Hk(Ci) 表示W(wǎng)k翻譯選譯文Ci中出現(xiàn)的次數(shù),
    Hk(Sij) 表示W(wǎng)k在標準答案Sij中出現(xiàn)的次數(shù),
    maxi∈mhk(sij)表示某n-gram在多條標準答案中出現(xiàn)最多的次數(shù),
    ∑i∑kmin(hk(ci),maxj∈mhk(sij))表示取n-gram在翻譯譯文和標準答案中出現(xiàn)的最小次數(shù)。
    由于各N-gram統(tǒng)計量的精度隨著階數(shù)的升高而呈指數(shù)形式遞減,所以為了平衡各階統(tǒng)計量的作用,對其采用幾何平均形式求平均值然后加權(quán),再乘以長度懲罰因子,得到最后的評價公式:
    Bleu

    懲罰因子

    參考文獻:Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
    一句話:基于準確率,BLEU 得分越高越好。

  3. METEOR
    METEOR 是基于BLEU進行了一些改進,其目的是解決一些 BLEU 標準中固有的缺陷 。使用 WordNet 計算特定的序列匹配,同義詞,詞根和詞綴,釋義之間的匹配關(guān)系,改善了BLEU的效果,使其跟人工判別共更強的相關(guān)性。
    METEOR 也包括其他指標沒有發(fā)現(xiàn)一些其他功能,如同義詞匹配等 。

    Meteor

    參考文獻:Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
    一句話:基于準確率和召回率,METEOR 得分越高越好。

  4. ROUGE
    ROUGE 是出于召回率來計算,所以是自動摘要任務(wù)的評價標準。其中有3個評價標準,分別是 ROUGE-N,ROUGE-L 和 ROUGE-S.

    ROUGE

    參考文獻:Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
    一句話:ROUGE 得分越高越好。

  5. CIDEr
    CIDEr 是專門設(shè)計出來用于圖像標注問題的。這個指標將每個句子都看作“文檔”,將其表示成 Term Frequency Inverse Document Frequency(tf-idf)向量的形式,通過對每個n元組進行(TF-IDF) 權(quán)重計算,計算參考 caption 與模型生成的 caption 的余弦相似度,來衡量圖像標注的一致性的。
    從直觀上來說,如果一些n元組頻繁地出現(xiàn)在描述圖像的參考標注中,TF對于這些n元組將給出更高的權(quán)重,而IDF則降低那些在所有描述語句中都常常出現(xiàn)的n元組的權(quán)重。也就是說,IDF提供了一種測量單詞顯著性的方法,這就是將那些容易常常出現(xiàn),但是對于視覺內(nèi)容信息沒有多大幫助的單詞的重要性打折。
    考慮一張圖片是Ii€I(I:全部測試集圖片的集合),對于一個n-gram Wk和參考caption 8ij,tf-idf計算方式是

    tf-idf
    式中的 Ω是全部 n-gram 構(gòu)成的詞表??梢钥闯?idf 的分母部分代表的是Wk出現(xiàn)于參考caption的圖片個數(shù)。
    那么,CIDEr的值可以用余弦相似度的平均值來計算:
    CIDEr
    類似于BLEU的做法:
    CIDEr
    這個指標的motivation之一是剛才提到的BLEU的一個缺點,就是對所有匹配上的詞都同等對待,而實際上有些詞應(yīng)該更加重要。
    CIDEr-D 是修改版本,為的是讓 CIDEr 對于 gaming 問題更加魯棒。什么是 Gaming 問題?它是一種現(xiàn)象,就是一個句子經(jīng)過人工判斷得分很低,但是在自動計算標準中卻得分很高的情況。為了避免這種情況,CIDEr-D 增加了截斷(clipping)和基于長度的高斯懲罰。
    參考文獻:Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
    一句話:CIDEr 得分越高越好。

  6. SPICE
    SPICE 也是專門設(shè)計出來用于 image caption 問題的。全稱是 Semantic Propositional Image Caption Evaluation。前面四個方法都是基于 n-gram 計算的,所以 SPICE 設(shè)計出來解決這個問題。
    SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評價 caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs。最后計算待評價的 caption 中 objects, attributes 和 relationships 的 F-score 值。
    參考文獻:Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
    一句話:SPICE 得分越高越好。

    參考 captions 它的 scene graph

    待評價 caption 和它的 dependency tree及scene graph

    計算 F-score 的 objects, attributes and relationships

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容