數(shù)據(jù)|連續(xù)還是離散

互聯(lián)網(wǎng)產(chǎn)品行為每月點擊次數(shù)或支付金額,都是非離散分布,而且產(chǎn)品關(guān)鍵指標(biāo)通常在這里。要分析用戶哪些維度對產(chǎn)品指標(biāo)有較大影響,線性回歸與樹模型權(quán)重是常用手段。問題在于分析百萬級以上用戶,用回歸得到的 R^2 解釋率往往不到 80% 強(qiáng)相關(guān),說明現(xiàn)有數(shù)據(jù)量或維度無法解釋清楚。但不能增加數(shù)據(jù)量、又或者引入新的維度來提升,即使采用特征工程(基于現(xiàn)有維度提取、組合等方式創(chuàng)造新維度)和引入新維度,也不是一件容易和快速事情,換上 SVM 、深度學(xué)習(xí)框架會喪失解釋性。

不過觀察目標(biāo)字段會發(fā)現(xiàn),大多數(shù)用戶行為次數(shù)會集中分布在1 - 5 自然數(shù)上,則每月核心行為 1 - 5 次左右。百萬用戶目標(biāo)行為集合基數(shù)只有 200 多個(集合元素個數(shù)),不足 1 % —— 數(shù)據(jù)呈現(xiàn)長尾分布,大多數(shù)集中在個別數(shù)字,只有少數(shù)剩余數(shù)據(jù)不集中。

要區(qū)分每月核心行為 1 次、 2次、3次,對于大多數(shù)產(chǎn)品意義不是很大。倒不如將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散,比如 5 次以下歸為一類,5 次以上歸為另一類。更好的做法用「二八」劃分,比如以累計貢獻(xiàn)度達(dá) 80 % 的用戶核心操作數(shù)值作為界線劃分「高低」用戶。即使 1、2、3次意義重大,那轉(zhuǎn)為離散會更合適,每個數(shù)值能區(qū)分出不同意義。

這樣使用分類方法,各種常用指標(biāo)均達(dá)到 80% 以上,遠(yuǎn)超商業(yè)最少 70% 設(shè)定(標(biāo)準(zhǔn)來自《 Data Analytics Made Accessible》)。至于為何二分預(yù)測比回歸模型好,可以用這篇論文來解釋 On the Difference between Binary Prediction and
True Exposure With Implications For Forecasting
Tournaments and Decision Making Research

簡單來說,二元分布(yes/no)比多樣分布(1、2、3...n)在預(yù)測上,對于黑天鵝(超級極值)、模型錯誤不太敏感,出錯概率較低。比如目標(biāo)數(shù)據(jù)呈現(xiàn)極值分布,用連續(xù)回歸分析得出的殘差(預(yù)測值-實際值),會發(fā)現(xiàn)值越大,偏離得越高(>>0),就是這部分導(dǎo)致模型錯誤較大。即使樹模型回歸思路依然是轉(zhuǎn)化為離散分類預(yù)測,但分的數(shù)目超過 2 類,準(zhǔn)確率在正常情況下不會好于二類預(yù)測。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容