基于排序的評價指標
TODO
2 基于分類的評價指標
2.1 document-pivoted binary
針對每個document來畫混淆矩陣。
針對document來畫: 若預(yù)測集合為PS,真實集合為GS,所有的label的集合為LS,則:
- TP為預(yù)測為真(在PS中)的且預(yù)測正確(在GS中)的標簽個數(shù)
- FP為預(yù)測為真(在PS中)但是預(yù)測錯誤(不在GS)的標簽個數(shù)
- FN為預(yù)測為假(不在PS中)但是預(yù)測錯誤(在GS中)的標簽個數(shù)
則對單文檔,precision(預(yù)測中正確的個數(shù))即
recall為(找出的正確的標簽占總的gold的比例)
之后可以使用Macro或者用Micro的對所有文檔進行混合。Macro-averaging就是先算F1值,再進行平均。
換一個思路, 若label空間維度為N,將對單文檔的評價看作是對N個instance進行二元分類,此時混淆矩陣的計算的TP,F(xiàn)P,F(xiàn)N與之計算結(jié)果完全一致。也就是說Macro-F1對每個文檔是權(quán)值相同的。
若是將所有M個樣本看作是M*N個instance的二分類,整體畫混淆矩陣,計算的結(jié)果就是documnet-pivoted binary的Micro-F1 score。(Micro-F1是先把混淆矩陣對應(yīng)位置元素加起來再計算F1,此時擁有標簽更多的文檔容易占據(jù)更多的權(quán)重)
2.2 label-pivoted binary
針對每個label來畫混淆矩陣。
抽取標簽為的樣本計算混淆矩陣。其中,gold為在所有M個樣本中gold標簽集中出現(xiàn)
的樣本集合,predict為在M個樣本中predict標簽集中出現(xiàn)
的樣本集合。
仿照上述,依此兩個集合計算混淆矩陣的值。