點擊率預估簡史

what is

點擊率預估指,預測一個用戶對候選集目標的點擊率, 進而決定對用戶展示哪一個目標。

why

在推薦、搜索、計算廣告中, 這都是處于樞紐位置的核心角色, 堪稱重中之重。

點擊率、轉化率、回訪率直接決定了網(wǎng)站的收入、粘度, 反映了其長期和短期的健康狀況。

how

點擊率預估的典型場景是預估用戶對一個目標(商品、廣告、搜索結果)的點擊率, 以推薦為例我們講述下常見的處理方式。

step

一個標準的機器學習點擊率預估模型包含如下步驟:

  • 用戶特征矩陣構建
  • 商品特征矩陣構建
  • 訓練數(shù)據(jù)、訓練目標構建

feature

用戶的特征數(shù)據(jù)主要包含:

  • demographics信息 :性別、年齡、職業(yè)、寶寶年齡、地域
  • 歷史行為信息:用戶對目標商品對應的品牌、類目、店鋪以及商品本身的行為數(shù)據(jù)
  • 商品信息:
    • 所屬的店鋪、品牌、類目
    • 銷量、收藏量、加購量、購買周期
    • 趨勢
    • 性別比例、年齡比例、地域比例

特征基本通過以上交叉組合、一階函數(shù)、二階函數(shù)產(chǎn)出。
訓練數(shù)據(jù)以曝光數(shù)據(jù)額采集為主, 在曝光數(shù)據(jù)有偏的情況下可以采用預測曝光的技術增加訓練數(shù)據(jù)量。

model

點擊率預估主流以ltr模型為主, 比如lambdamart、ranksvm、pairwise-lr等。

這個比較好理解, 我們并不是真的要知道點擊率是多少, 而是在候選集中選出用戶最有可能點擊的那一個,所以一個排序模型遠比lr或者gbdt來的有效。

考慮到數(shù)據(jù)規(guī)模, 因為id特征的引入輕松能將特征提升到百億-千億的量級, 所以基于參數(shù)服務器架構的模型有天然的優(yōu)勢。

pairwise的模型比較常見的問題是數(shù)據(jù)規(guī)模, 因為正負樣本組合的量級比較恐怖, 有效的做法是將正樣本和最正的負樣本組對。

label

雖然是點擊率預估, 其實還是包含了用戶的一個興趣的潛在含義。

因此我們可以通過豐富的行為組件ltr模型的label, 例如:購買>加購>收藏>點擊>不點擊。

系統(tǒng)

業(yè)界比較通行的在線學習的算法是ftrl, 考慮到運算速度和存儲數(shù)據(jù)的平衡, 一般采用用戶、商品矩陣離線構建, 交互特征在線運算的方式。

用戶、商品的特征矩陣存放在一個kv存儲中,而交互特征通過計算的方式解決。

summary

以上是點擊率預估step by step的一份說明, 但是其中包含的江湖野技巧和黑科技才是大家最津津樂道的部分。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容