Look-alike 模型好壞要關(guān)注 AUC 和 KS

有時(shí)候知道要做一個(gè)監(jiān)督學(xué)習(xí)的分類模型, 但是沒有直接的正反例。

往往會(huì)根據(jù)業(yè)務(wù)人員的經(jīng)驗(yàn),根據(jù)一些規(guī)則來篩選一批正反例,然后根據(jù)已有的特征庫(kù)和這些正反例來訓(xùn)練模型。

模型干的事就是跟正反例 Lookalike 的情況劃分。

這種模型我們?cè)趺丛u(píng)估?召回和準(zhǔn)確率不再能直接反應(yīng)模型的好壞,因?yàn)橐?guī)則的正例可能混入了很多反例。

所以我們更關(guān)注AUC, 它代表跟正例相似分?jǐn)?shù)高于跟負(fù)例相似的樣本的概率;

還可以計(jì)算雙樣本?Kolmogorov-Smirnov test (Wikipedia), 一個(gè)樣本是正例的分?jǐn)?shù)集合,一個(gè)樣本是負(fù)例的分?jǐn)?shù)集合。

D值越大,代表兩個(gè)分布越不同,即代表通過模型將兩個(gè)樣本集的區(qū)分情況越強(qiáng),一般D值是>=20 , 模型可用。

這類模型的優(yōu)化可以以AUC 和K-S Test 中D值的提高來作為標(biāo)準(zhǔn)。

Spark 里面有K-S Test 的計(jì)算

為什么看D值, 這里有解釋

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容