業(yè)務中如何結(jié)合人力降低場景作弊率

一個反作弊風控團隊,往往需要配備一定人力的審核團隊,主要的作用有兩個

1)對已發(fā)現(xiàn)的樣本進行人工確認和樣本標記,從而用于各種監(jiān)督學習模型的訓練
2)對疑似作弊但無法機器自動封禁的case進行人工確認和處理
為了保證業(yè)務場景的作弊率低于一定標準,需要使用策略+人工雙規(guī)方式才能比較好的滿足要求,尤其人力審核,這個即便是再牛的大廠如Facebook也沒法免俗,具體參考:
https://zhuanlan.zhihu.com/p/130489814?utm_source=wechat_session&utm_medium=social&utm_oi=818144965241757696&from=timeline&isappinstalled=0&wechatShare=1&s_s_i=sshhET7OXug%2FXLbfWHGruqk11mvC8BZrJ0TWDlTPjsA%3D&s_r=0

具體的風控流程大致有幾個步驟
1)首先需要對作弊有比較明確的定義,比如色情問題,就需要界定其他類似的如低俗直播類,模特泳裝類算不算色情問題,等
2)熟悉業(yè)務,反作弊業(yè)務是服務業(yè)務的,是業(yè)務和數(shù)據(jù)分析的結(jié)合,所以一定要熟悉業(yè)務場景,這是也分析數(shù)據(jù)所必須的。
2)對問題有了明確定義以及熟悉業(yè)務場景之后,就需要對線上的作弊問題進行分析,在這個過程中還需要大量的標注數(shù)據(jù),因為目前主要的風控策略和機器學習算法大多是有監(jiān)督學習,這個過程中可以對整體的作弊問題類型有大致的了解,也便于分析人員更好的總結(jié)有哪些特征可能會比較有用,從而用戶后續(xù)特征工程的建設。當然絕大部分的標準工作還是需要審核標注團隊來完成,量級可能從幾千到幾十萬甚至上百萬級別。這也就是審核人力的第一個重要作用(標注準確率是一個非常重要的指標,一次錯誤的標注都可能對策略造成巨大影響)
3)通過各場景的特征工程建設拉取需要的數(shù)據(jù)并整合出盡量多的特征,當然這里要權衡獲取數(shù)據(jù)的難度和收益。
以下部分可以參考下圖:


image.png

4)對于線上場景,首先需要一個高召回策略進行覆蓋,保證線上遺漏的作弊問題在一個可接受的范圍(這個要看對具體作弊類型的容忍度)。當然這個策略的精確率要盡可能高這樣才好節(jié)省審核人力。(我們業(yè)務的高召回場景召回率一般在80%+,精確率一般在30%-60%,看具體召回率的要求)
5)高召回策略召回的數(shù)據(jù),再經(jīng)過高精確策略進行自動化處理(為了降低審核人力成本),由于這個高精確策略是自動處理的,因此對精確率(precision)要求比較高,具體也要看業(yè)務的需求,我們業(yè)務一般要求99.9%+,再高的話很可能出現(xiàn)過擬合。
6)對于高召回命中但是高精確沒有命中的部分,就需要審核人力進行覆蓋,從而保證相關問題得到及時解決,同時也提供更多的無法確定的正樣本數(shù)據(jù)集。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容