1 推薦系統(tǒng)簡介
推薦系統(tǒng)介紹
見S0
推薦系統(tǒng)評估
顯式反饋和隱式反饋
- 準確性(學術界)
評分預測
topN推薦,準確和召回率 - 準備性(工業(yè)界)
信息流:時長 -> 用戶行為 -> 關注和付費
電商:瀏覽深度 -> 用戶行為 -> 付費 - 分層流量占比
銷量大于10000的占比多少
9000到10000的占比多少 - 多樣性 新穎性 驚喜性
推薦內(nèi)物品不一樣,推沒見過的關注,與歷史偏好不太一樣- Exploitation & Exploration
Bandit算法:
Epsilon-greedy, Upper Confidence Bound, Thompson Sampling
應用:
興趣探索,冷啟動探索,LinUCB加入特征信息,COFIBA和協(xié)同過濾結合
EE實踐:
興趣擴展,人群算法,Bandit,graph walking,平衡個性化和熱門推薦比例,隨機丟棄用戶行為歷史,隨機擾動模型參數(shù)
Trade off:
短期和長期
數(shù)據(jù)的真實性(ctr漲了,可能是很多用戶走了)
推薦可能越來越窄
- Exploitation & Exploration
評估方法:離線評估和在線評估相結合,定期做問卷調(diào)查
- 問卷調(diào)查
- 離線評估
- 在線評估:AB測試
推薦系統(tǒng)實踐
推薦系統(tǒng)的冷啟動問題
具體見S0
用戶冷啟動
物品冷啟動
系統(tǒng)冷啟動
2 召回算法和業(yè)界實踐
Item CF/User CF
- 改進版I2I
motivation:熱門用戶,哈利波特效應,用戶行為缺乏考慮
solution:熱門用戶降權,熱門Item降權 - 實時I2I
motivation:新品推薦問題
solution:實時增量i2i - Hybrid
motivation:無監(jiān)督學習,無法刻畫場景差異
solution:有監(jiān)督Hybrid多少i2i算法
3 搜索和推薦的matching技術
- 需求
理論基礎
代碼能力
業(yè)務sense+論文+經(jīng)驗 - 用的特征
user,item,u2i(用戶最近買了多少某個item),context - 方法
先用神經(jīng)網(wǎng)絡學然后得到Embedding,然后比較embedding相似度
或者直接傳入item,user計算相似度
Two power方法
Wide and deep方法 - 使用的一些深度模型算法
Based on DNN: DSSM
Based on CNN: CDSSM, ARC I, CNTN
Based on RNN: LSTM-RNN
4 推薦業(yè)務、feed流產(chǎn)品及推薦算法策略架構解析
- 特征
user,item,context
其中item特征最重要
統(tǒng)計特征也是重要的如7天,14天,21天,28天 - 模型
lr,gbdt樹模型,xgb,dnn,fm,ffm,deepfm,deep cross net,wide and deep - 注意點
latency:小于0.1s
召回 -> 精排
多路召回分支相當于dict
key(用戶歷史瀏覽的item/用戶的標簽/地域/時間。。。/主題topic/userid)
value(item/userid) - 指標
一般用AUC,測試集在0.7-0.8 - 冷啟動
用戶冷啟動:直接分發(fā)熱門,收集用戶特征分發(fā),制造粗粒度選項分發(fā),分享用戶數(shù)據(jù)分發(fā),最后用bandit算法;
物品冷啟動:對物品內(nèi)容tag2i,或者用bandit算法