日本精品一区99,久久亚洲色图中文字幕,欧美三级图片自拍

評測結(jié)果.png

上圖是經(jīng)過實體識別-0跑起來之后的評測結(jié)果。
如圖所示，每一個類別包含了三個指標值：precision、recall和FB1，并且源代碼評測指標使用的是一個基于perl語言的腳本，從readme中發(fā)現(xiàn)，使用的是conll2003的評測腳本。

評測腳本-1.png

評測腳本-2.png

但是這是基于perl寫的，找了一下基于python語言，但是這里還沒有細看代碼。先對評測指標和這三個指標值做了簡單的了解。

評測指標

評測，其實就是對結(jié)果的表現(xiàn)做個數(shù)值上的說明。如果但從NER的實驗結(jié)果來看，得到的是一個個token對應(yīng)的標簽，那么最直觀的結(jié)果表現(xiàn)就是去分析token對應(yīng)的標簽是否準確，即直接從標簽層面去進行分析。但是對于NER這個具有實際意義的任務(wù)，這樣直接分析顯得意義不大，或者意義不明顯。如果考慮到實體邊界和實體類別，那么就對應(yīng)到了這一任務(wù)所真正要做的事情，評測結(jié)果對應(yīng)的也有了相應(yīng)的意義。即，這是從命名實體這個層面來進行分析。
這篇文章描述了幾種評測標準，內(nèi)容很詳細清晰。下面內(nèi)容只提到我所參考代碼中使用到的評測標準，即conll2003。
評測，就是代碼輸出標注和真實標注的比較。那么分為這幾種情況（Golden Standard表示真實標注，System Prediction表示代碼輸出標注）
1）標注正確

標注正確.png

2）預(yù)測出的實體實際不存在

預(yù)測出的實體實際不存在.png

3）是實體但是沒有被預(yù)測出來

是實體但是沒有被預(yù)測出來.png

僅考慮這3種情況，并放棄所有其他可能的情況（匹配不完全），有一個簡單的分類評估，可以根據(jù)假陰性、真陽性和假陽性進行測量，然后計算每個命名實體類型的精確度、召回率和f1分數(shù)。
并且按照conll2003中的描述，關(guān)于precision，recall和F1值

conll2003評測標準.png

可以簡單（只考慮完全匹配）得到這樣的公式

precision.png

recall.png

F1（β=1）.png

看到一個解釋TP、FP、FN：

單實體評價指標.png

（注：我的理解其實也是在完成了評測指標-1部分，才真正看懂了，回來更新了這一部分。）
我的理解：TF，是否正確識別正例（某類實體），T，完全匹配（邊界和類別），F(xiàn)，未識別出來或者識別不完全（邊界或類別判定錯誤）；PN，正例（某類實體）是否被識別出來，識別出來就是P，未識別出來就是N。因此，TP和FP加起來就是所有被識別出的正例，包括識別完全正確和識別部分正確，即從完全匹配的角度表達識別的準確性，被識別出來的有多少是真正的被識別出來（完全匹配）即precision；TP和FN加起來就是，所有被完全正確識別的實體和未被識別出來（識別不完全也算未被識別出來）的實體，即recall，即正例有多少被識別出來。
知道了某類實體的評價指標，往往需要計算整體，非單一類別實體的評價指標，因此有兩種計算思路

多實體評價指標.png

根據(jù)TP、FP、FN可以得到precision、recall和f1值。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

實體識別-1（評測指標-0）

實體識別-1（評測指標-0）

評測指標

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

實體識別-1（評測指標-0）

評測指標

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av