精品991区2区3区,牡丹江女人操逼,成人亚洲国产精品

BLEU、Meteor、ROUGE、CIDEr 和 SPICE。前兩個是評測機器翻譯的，第三個是評測自動摘要的，最后兩個評價 caption 的。

Perplexity

Perplexity

其中，L是句子的長度，PPL(w_{1:L}|I) 就是根據(jù)圖像 I 給出的描述句子 w_{1:L} 的 perplexity。而P(w_n|w_{1:n-1},I) 是根據(jù)圖像 I 和前面的單詞序列 w_{1:n-1} 生成下一個單詞 w_n 的概率。
一句話：Perplexity 得分越低越好。
BLEU
Bilingual Evaluation Understudy，雙語互評輔助工具。用于分析候選譯文（待評價的譯文）和參考譯文中 N 元組共同出現(xiàn)的程度，IBM 于2002年提出的。
BLEU的優(yōu)點是它考慮的粒度是 n-gram 而不是詞，考慮了更長的匹配信息；BLEU的缺點是不管什么樣的 n-gram 被匹配上了，都會被同等對待。比如說動詞匹配上的重要性從直覺上講應(yīng)該是大于冠詞的。BLEU是做不到百分百的準確的，它只能做到個大概判斷，它的目標也只是給出一個快且不差自動評估解決方案。
優(yōu)點很明顯：方便、快速、結(jié)果有參考價值。
缺點也不少，主要有： 1. 不考慮語言表達（語法）上的準確性； 2. 測評精度會受常用詞的干擾； 3. 短譯句的測評精度有時會較高（長度懲罰）； 4. 沒有考慮同義詞或相似表達的情況，可能會導(dǎo)致合理翻譯被否定；

各階N-gram的精度

Hk(Ci) 表示W(wǎng)k翻譯選譯文Ci中出現(xiàn)的次數(shù)，
Hk(Sij) 表示W(wǎng)k在標準答案Sij中出現(xiàn)的次數(shù)，
maxi∈mhk(sij)表示某n-gram在多條標準答案中出現(xiàn)最多的次數(shù)，
∑i∑kmin(hk(ci),maxj∈mhk(sij))表示取n-gram在翻譯譯文和標準答案中出現(xiàn)的最小次數(shù)。
由于各N-gram統(tǒng)計量的精度隨著階數(shù)的升高而呈指數(shù)形式遞減，所以為了平衡各階統(tǒng)計量的作用，對其采用幾何平均形式求平均值然后加權(quán)，再乘以長度懲罰因子，得到最后的評價公式：

Bleu

懲罰因子

參考文獻：Papineni, K., Roukos, S., Ward, T., & Zhu, W. J. (2002, July). BLEU: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311-318). Association for Computational Linguistics.
一句話：基于準確率，BLEU 得分越高越好。
METEOR
METEOR 是基于BLEU進行了一些改進，其目的是解決一些 BLEU 標準中固有的缺陷。使用 WordNet 計算特定的序列匹配，同義詞，詞根和詞綴，釋義之間的匹配關(guān)系，改善了BLEU的效果，使其跟人工判別共更強的相關(guān)性。
METEOR 也包括其他指標沒有發(fā)現(xiàn)一些其他功能，如同義詞匹配等。

Meteor

參考文獻：Banerjee, S., & Lavie, A. (2005). METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization (pp. 65-72).
一句話：基于準確率和召回率，METEOR 得分越高越好。
ROUGE
ROUGE 是出于召回率來計算，所以是自動摘要任務(wù)的評價標準。其中有3個評價標準，分別是 ROUGE-N，ROUGE-L 和 ROUGE-S.

ROUGE

參考文獻：Lin, C. Y. (2004). Rouge: A package for automatic evaluation of summaries. Text Summarization Branches Out.
一句話：ROUGE 得分越高越好。
CIDEr
CIDEr 是專門設(shè)計出來用于圖像標注問題的。這個指標將每個句子都看作“文檔”，將其表示成 Term Frequency Inverse Document Frequency（tf-idf）向量的形式，通過對每個n元組進行(TF-IDF) 權(quán)重計算，計算參考 caption 與模型生成的 caption 的余弦相似度，來衡量圖像標注的一致性的。
從直觀上來說，如果一些n元組頻繁地出現(xiàn)在描述圖像的參考標注中，TF對于這些n元組將給出更高的權(quán)重，而IDF則降低那些在所有描述語句中都常常出現(xiàn)的n元組的權(quán)重。也就是說，IDF提供了一種測量單詞顯著性的方法，這就是將那些容易常常出現(xiàn)，但是對于視覺內(nèi)容信息沒有多大幫助的單詞的重要性打折。
考慮一張圖片是Ii€I（I：全部測試集圖片的集合），對于一個n-gram Wk和參考caption 8ij，tf-idf計算方式是

tf-idf

式中的 Ω是全部 n-gram 構(gòu)成的詞表?？梢钥闯?idf 的分母部分代表的是Wk出現(xiàn)于參考caption的圖片個數(shù)。
那么，CIDEr的值可以用余弦相似度的平均值來計算：

CIDEr

類似于BLEU的做法：

CIDEr

這個指標的motivation之一是剛才提到的BLEU的一個缺點，就是對所有匹配上的詞都同等對待，而實際上有些詞應(yīng)該更加重要。
CIDEr-D 是修改版本，為的是讓 CIDEr 對于 gaming 問題更加魯棒。什么是 Gaming 問題？它是一種現(xiàn)象，就是一個句子經(jīng)過人工判斷得分很低，但是在自動計算標準中卻得分很高的情況。為了避免這種情況，CIDEr-D 增加了截斷（clipping）和基于長度的高斯懲罰。
參考文獻：Vedantam, R., Lawrence Zitnick, C., & Parikh, D. (2015). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566-4575).
一句話：CIDEr 得分越高越好。
SPICE
SPICE 也是專門設(shè)計出來用于 image caption 問題的。全稱是 Semantic Propositional Image Caption Evaluation。前面四個方法都是基于 n-gram 計算的，所以 SPICE 設(shè)計出來解決這個問題。
SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評價 caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees，然后用基于規(guī)則的方法把 dependency tree 映射成 scene graphs。最后計算待評價的 caption 中 objects, attributes 和 relationships 的 F-score 值。
參考文獻：Anderson, P., Fernando, B., Johnson, M., & Gould, S. (2016, October). Spice: Semantic propositional image caption evaluation. In European Conference on Computer Vision (pp. 382-398). Springer, Cham.
一句話：SPICE 得分越高越好。

參考 captions 它的 scene graph

待評價 caption 和它的 dependency tree及scene graph

計算 F-score 的 objects, attributes and relationships