what is
點擊率預估指,預測一個用戶對候選集目標的點擊率, 進而決定對用戶展示哪一個目標。
why
在推薦、搜索、計算廣告中, 這都是處于樞紐位置的核心角色, 堪稱重中之重。
點擊率、轉化率、回訪率直接決定了網(wǎng)站的收入、粘度, 反映了其長期和短期的健康狀況。
how
點擊率預估的典型場景是預估用戶對一個目標(商品、廣告、搜索結果)的點擊率, 以推薦為例我們講述下常見的處理方式。
step
一個標準的機器學習點擊率預估模型包含如下步驟:
- 用戶特征矩陣構建
- 商品特征矩陣構建
- 訓練數(shù)據(jù)、訓練目標構建
feature
用戶的特征數(shù)據(jù)主要包含:
- demographics信息 :性別、年齡、職業(yè)、寶寶年齡、地域
- 歷史行為信息:用戶對目標商品對應的品牌、類目、店鋪以及商品本身的行為數(shù)據(jù)
- 商品信息:
- 所屬的店鋪、品牌、類目
- 銷量、收藏量、加購量、購買周期
- 趨勢
- 性別比例、年齡比例、地域比例
特征基本通過以上交叉組合、一階函數(shù)、二階函數(shù)產(chǎn)出。
訓練數(shù)據(jù)以曝光數(shù)據(jù)額采集為主, 在曝光數(shù)據(jù)有偏的情況下可以采用預測曝光的技術增加訓練數(shù)據(jù)量。
model
點擊率預估主流以ltr模型為主, 比如lambdamart、ranksvm、pairwise-lr等。
這個比較好理解, 我們并不是真的要知道點擊率是多少, 而是在候選集中選出用戶最有可能點擊的那一個,所以一個排序模型遠比lr或者gbdt來的有效。
考慮到數(shù)據(jù)規(guī)模, 因為id特征的引入輕松能將特征提升到百億-千億的量級, 所以基于參數(shù)服務器架構的模型有天然的優(yōu)勢。
pairwise的模型比較常見的問題是數(shù)據(jù)規(guī)模, 因為正負樣本組合的量級比較恐怖, 有效的做法是將正樣本和最正的負樣本組對。
label
雖然是點擊率預估, 其實還是包含了用戶的一個興趣的潛在含義。
因此我們可以通過豐富的行為組件ltr模型的label, 例如:購買>加購>收藏>點擊>不點擊。
系統(tǒng)
業(yè)界比較通行的在線學習的算法是ftrl, 考慮到運算速度和存儲數(shù)據(jù)的平衡, 一般采用用戶、商品矩陣離線構建, 交互特征在線運算的方式。
用戶、商品的特征矩陣存放在一個kv存儲中,而交互特征通過計算的方式解決。
summary
以上是點擊率預估step by step的一份說明, 但是其中包含的江湖野技巧和黑科技才是大家最津津樂道的部分。