一、概要
- 目標(biāo):將合適的內(nèi)容,在合適的場(chǎng)景,展示給合適的人
- 量化指標(biāo):CTR,Click-Through-Rate,點(diǎn)擊通過率
- 應(yīng)用場(chǎng)景:廣告展示、推薦、搜索結(jié)果排序
廣告,考慮ECPM指標(biāo)(earning cost per mille),每1000次曝光帶來(lái)收入,ECPM=1000 x CTR x 點(diǎn)擊出價(jià)。https://36kr.com/p/5150648.html
商品推薦,需要考慮轉(zhuǎn)化率、商品盈利能力等因素。
二、學(xué)習(xí)目標(biāo)
1.分類問題,1-點(diǎn)擊,0-沒點(diǎn)擊
2.回歸問題,具體的ctr數(shù)值
3.多分類問題,根據(jù)ctr數(shù)值分桶?
業(yè)界使用較多的是?幾種方式的優(yōu)劣?適用場(chǎng)景?
三、特征選取&處理
1.item特征
標(biāo)題、封面圖、品牌、分類、tag等等
2.用戶特征
年齡,性別,過往記錄
3.上下文(場(chǎng)景)特征?
特征處理?跟模型有關(guān),端到端的就不用處理了?
離散值 vs 連續(xù)值?
高維、稀疏、多Field
特征之間的關(guān)聯(lián)關(guān)系,獨(dú)立 vs 交叉?(例:衣服類型與性別?)
1.稀疏->稠密,特征獨(dú)立->特征與特征之間的關(guān)系
one-hot, embedding
- 如何實(shí)現(xiàn)Embedding
矩陣分解(MF)、因子分解機(jī)(FM)、神經(jīng)網(wǎng)絡(luò)
四、預(yù)估模型(損失函數(shù),優(yōu)化算法)
- 經(jīng)典機(jī)器學(xué)習(xí)
*. LR, 一般作為性能的benchmark? 線性-二階多項(xiàng)式,LR+正則化+特定優(yōu)化方法
缺點(diǎn):手工設(shè)計(jì)特征,需對(duì)特征離散化,歸一化,特征離散過程的邊界問題,特征組合。
*. GBDT + LR
Gradient Boosting Decision Tree
能處理連續(xù)值特征?具有一定的特征組合能力,可以對(duì)特征的重要性排序。
*. MLR,阿里,聚類+LR - 神經(jīng)網(wǎng)絡(luò)
image
https://www.jiqizhixin.com/articles/2018-07-22-19
https://zhuanlan.zhihu.com/p/32689178
https://zhuanlan.zhihu.com/p/32885978
https://github.com/nzc/dnn_ctr
| 簡(jiǎn)寫 | 日期 | 全稱 | 中文解釋 |
|---|---|---|---|
| FM | Factorization Machines | 因子分解機(jī),二次交叉特征 | |
| FFM | Field-aware Factorization Machines | 基于領(lǐng)域的因子分解機(jī) | |
| DCN | 2017 | Deep & Cross Network | 深度與交叉神經(jīng)網(wǎng)絡(luò) |
| FNN | 2016 | Factorisation Machine supported Neural Network | 因子分解機(jī)神經(jīng)網(wǎng)絡(luò) |
| DeepFM | - | ||
| NFM | Neural Factorization Machines | 神經(jīng)網(wǎng)絡(luò)因子分解機(jī) | |
| PNN | Product-based Neural Networks | 基于向量積的神經(jīng)網(wǎng)絡(luò) | |
| AFM | Attentional Factorization Machine | 注意力因子分解模型 | |
| MLP | 多層感知機(jī) | ||
| W&D | 2016 | wide & deep | 寬度與深度模型 |
| DIN | Deep Interest Network | 深度興趣網(wǎng)絡(luò) |
其他:
https://juejin.im/entry/5ae19299f265da0b796495c6
五、效果評(píng)估
參考文檔:
https://zhuanlan.zhihu.com/p/32689178
https://zhuanlan.zhihu.com/p/32885978
https://zhuanlan.zhihu.com/p/33045184
https://zhuanlan.zhihu.com/p/33177517
https://zhuanlan.zhihu.com/p/33479030
https://zhuanlan.zhihu.com/p/33540686
https://zhuanlan.zhihu.com/p/33587540
https://zhuanlan.zhihu.com/p/33619389
http://www.itdecent.cn/p/b69080c98a7a
http://www.itdecent.cn/p/2e3dc01a4680
https://cloud.baidu.com/doc/BML/ScenarioTutorial/3F.5C.E5.B9.BF.E5.91.8A.E7.82.B9.E5.87.BB.E7.8E.87.E9.A2.84.E4.BC.B0.html
https://juejin.im/entry/5ae19299f265da0b796495c6
https://blog.csdn.net/DanyHgc/article/details/78776558
https://juejin.im/entry/5ae19299f265da0b796495c6
協(xié)同過濾?Collaborative Filtering https://zh.wikipedia.org/wiki/%E5%8D%94%E5%90%8C%E9%81%8E%E6%BF%BE
參考資料:
推薦系統(tǒng)遇上深度學(xué)習(xí)
1.FM模型理論和實(shí)踐
FM(Factorization Machine) 因子分解機(jī), 嵌入矩陣?
2.FFM模型理論和實(shí)踐
FFM(Field-aware Factorization Machine)
3.DeepFM模型理論和實(shí)踐
4.多值離散特征的embedding解決方案
5.Deep&Cross Network模型理論和實(shí)踐Deep&Cross Network
6.PNN模型理論和實(shí)踐PNN,全稱為Product-based Neural Network,認(rèn)為在embedding輸入到MLP之后學(xué)習(xí)的交叉特征表達(dá)并不充分,提出了一種product layer的思想,既基于乘法的運(yùn)算來(lái)體現(xiàn)體征交叉的DNN網(wǎng)絡(luò)結(jié)構(gòu)。
7.NFM模型理論和實(shí)踐
8.AFM模型理論和實(shí)踐
9.評(píng)價(jià)指標(biāo)AUC原理及實(shí)踐
10.GBDT+LR融合方案實(shí)戰(zhàn)
11.神經(jīng)協(xié)同過濾NCF原理及實(shí)戰(zhàn)
12.推薦系統(tǒng)中的EE問題及基本Bandit算法
13.linUCB方法淺析及實(shí)現(xiàn)
14.《DRN:A Deep Reinforcement Learning Framework for News Recommendation》
15.強(qiáng)化學(xué)習(xí)在京東推薦中的探索
16.解推薦系統(tǒng)中的常用評(píng)測(cè)指標(biāo)
17.探秘阿里之MLR算法淺析及實(shí)現(xiàn)
18.秘阿里之深度興趣網(wǎng)絡(luò)(DIN)淺析及實(shí)現(xiàn)
19.探秘阿里之完整空間多任務(wù)模型ESSM
20.貝葉斯個(gè)性化排序(BPR)算法原理及實(shí)戰(zhàn)
21.階段性回顧
22.DeepFM升級(jí)版XDeepFM模型強(qiáng)勢(shì)來(lái)襲!
23.大一統(tǒng)信息檢索模型IRGAN在推薦領(lǐng)域的應(yīng)用
24.深度興趣進(jìn)化網(wǎng)絡(luò)DIEN原理及實(shí)戰(zhàn)!
25.當(dāng)知識(shí)圖譜遇上個(gè)性化推薦
CTR預(yù)估(二)
LR與GBDT融合方案
