實體識別-1(評測指標-0)

評測結(jié)果.png

上圖是經(jīng)過實體識別-0跑起來之后的評測結(jié)果。
如圖所示,每一個類別包含了三個指標值:precision、recall和FB1,并且源代碼評測指標使用的是一個基于perl語言的腳本,從readme中發(fā)現(xiàn),使用的是conll2003的評測腳本。
評測腳本-1.png

評測腳本-2.png

但是這是基于perl寫的,找了一下基于python語言,但是這里還沒有細看代碼。先對評測指標和這三個指標值做了簡單的了解。

評測指標

評測,其實就是對結(jié)果的表現(xiàn)做個數(shù)值上的說明。如果但從NER的實驗結(jié)果來看,得到的是一個個token對應(yīng)的標簽,那么最直觀的結(jié)果表現(xiàn)就是去分析token對應(yīng)的標簽是否準確,即直接從標簽層面去進行分析。但是對于NER這個具有實際意義的任務(wù),這樣直接分析顯得意義不大,或者意義不明顯。如果考慮到實體邊界和實體類別,那么就對應(yīng)到了這一任務(wù)所真正要做的事情,評測結(jié)果對應(yīng)的也有了相應(yīng)的意義。即,這是從命名實體這個層面來進行分析。
這篇文章描述了幾種評測標準,內(nèi)容很詳細清晰。下面內(nèi)容只提到我所參考代碼中使用到的評測標準,即conll2003。
評測,就是代碼輸出標注和真實標注的比較。那么分為這幾種情況(Golden Standard表示真實標注,System Prediction表示代碼輸出標注)
1)標注正確

標注正確.png

2)預(yù)測出的實體實際不存在
預(yù)測出的實體實際不存在.png

3)是實體但是沒有被預(yù)測出來
是實體但是沒有被預(yù)測出來.png

僅考慮這3種情況,并放棄所有其他可能的情況(匹配不完全),有一個簡單的分類評估,可以根據(jù)假陰性、真陽性和假陽性進行測量,然后計算每個命名實體類型的精確度、召回率和f1分數(shù)。
并且按照conll2003中的描述,關(guān)于precision,recall和F1值
conll2003評測標準.png

可以簡單(只考慮完全匹配)得到這樣的公式
precision.png
recall.png
F1(β=1).png

看到一個解釋TP、FP、FN
單實體評價指標.png

(注:我的理解其實也是在完成了評測指標-1部分,才真正看懂了,回來更新了這一部分。)
我的理解:TF,是否正確識別正例(某類實體),T,完全匹配(邊界和類別),F(xiàn),未識別出來或者識別不完全(邊界或類別判定錯誤);PN,正例(某類實體)是否被識別出來,識別出來就是P,未識別出來就是N。因此,TP和FP加起來就是所有被識別出的正例,包括識別完全正確和識別部分正確,即從完全匹配的角度表達識別的準確性,被識別出來的有多少是真正的被識別出來(完全匹配)即precision;TP和FN加起來就是,所有被完全正確識別的實體和未被識別出來(識別不完全也算未被識別出來)的實體,即recall,即正例有多少被識別出來。
知道了某類實體的評價指標,往往需要計算整體,非單一類別實體的評價指標,因此有兩種計算思路
多實體評價指標.png

根據(jù)TP、FP、FN可以得到precision、recall和f1值。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容