AUC的理解

曾經(jīng)面試的時候被問到過這么一個問題,怎么向一個沒有任何計算機、數(shù)學、統(tǒng)計等基礎(chǔ)的人介紹下什么是AUC,當時我敗北了。不過后來我有一天頓悟了,為了檢驗我的頓悟是否有效,特此一答。

我給出的答案是 AUC是指 隨機給定一個正樣本和一個負樣本,分類器輸出的正樣本的概率 比 分類器出去負樣本的概率 大的可能性。(這里要感謝下 @付笑晗大兄弟的嚴謹)。

詳細解釋如下:

隨機抽取一個樣本, 對應每一潛在可能值X都對應有一個判定位正樣本的概率P。

對一批已知正負的樣本集合進行分類,

按概率從高到矮排個降序, 對于正樣本中概率最高的,排序為rank_1, 比它概率小的有M-1個正樣本(M為正樣本個數(shù)), (rank_1 - M) 個負樣本。

正樣本概率第二高的, 排序為rank_2, 比它概率小的有M-2個正樣本,(rank_2 - M + 1) 個 負樣本。

以此類推

正樣本中概率最小的, 排序為rank_M,比它概率小的有0個正樣本,rank_M - 1 個負樣本。

總共有MxN個正負樣本對(N為負樣本個數(shù))。把所有比較中 正樣本概率大于負樣本概率 的例子都算上, 得到公式(rank_1 - M + rank_2 - M + 1 ....? + rank_M - 1) / (MxN) 就是正樣本概率大于負樣本概率的可能性了。 化簡后(因為后面是個等差數(shù)列)得:


這就是傳說中的AUC公式。這只是用于理解,具體計算時候需要考慮rank平列的情況

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容