ctr預(yù)估筆記

廣告創(chuàng)意特征:

  • 圖片,標(biāo)題文字,價(jià)格,銷量
  • 推廣商品所屬類目,包含屬性
  • 創(chuàng)意組,推廣計(jì)劃,廣告主

Query信息:

  • 包含的Terms
  • Query分析:類目,屬性
  • Query擴(kuò)展:同義詞,相似query

環(huán)境特征:

  • 用戶,時(shí)間
  • 如年齡,性別,婚姻狀況,職業(yè),興趣等
  • 用戶歷史CTR, user組合特征(User-Ad, User-Query)

名義特征

  • 時(shí)間,創(chuàng)意ID等
    ? 點(diǎn)擊反饋特征
  • 計(jì)算歷史上包含該特征的(query, ad)的點(diǎn)擊率
  • E.g., ad所屬?gòu)V告計(jì)劃的歷史點(diǎn)擊率

組合特征

  • query與ad標(biāo)題匹配的term個(gè)數(shù)

1個(gè)月數(shù)據(jù)訓(xùn)練,接下來(lái)的1天數(shù)據(jù)測(cè)試

推薦系統(tǒng) 或 ctr預(yù)估中,可以先對(duì)用戶聚類,對(duì)用戶進(jìn)行分組,把cluster_id當(dāng)作新特征,每個(gè)用戶有一個(gè)cluster_id。
時(shí)間特征處理:分段
freq處理:



頻次特別低的用one-hot編碼 ,浪費(fèi)維度。
出現(xiàn)頻次非常低的樣本可以拿出來(lái)看一下是不是可以通過(guò)規(guī)則直接做判定。
可以把頻次高的作為一列(high-freq),頻次低的作為一列(2,18這種合并作為low-freq)

長(zhǎng)尾數(shù)據(jù)離散化
對(duì)每一維度求方差,如果波動(dòng)大,可能對(duì)結(jié)果作用大。

廣告業(yè)務(wù)和推薦系統(tǒng)的區(qū)別
廣告:三方
推薦:兩方

Revenue models from online advertising:
CPM(cost per mille)
CPC(cost per click)
CPA(cost per action)



CTR * price

LR:

  • 結(jié)果表示點(diǎn)擊率
  • 用LR做base_line
  • 模型簡(jiǎn)單,可解釋性高(工業(yè)運(yùn)作中,遇到問(wèn)題可以找到是哪個(gè)特征對(duì)應(yīng)的權(quán)重出現(xiàn)問(wèn)題)
  • 大多公司還在用LR或用LR和其他模型混合

平時(shí)用pandas但吃內(nèi)存
工業(yè)界用LIBLINEAR(libsvm),省內(nèi)存

組合特征非常有用。FFM適合用于組合特征,用矩陣分解減小開銷。
one-hot編碼數(shù)據(jù)會(huì)非常稀疏,組合特征更會(huì)暴增
稀疏性會(huì)帶來(lái)什么問(wèn)題:

  • 內(nèi)存壓力大
  • 組合特征出現(xiàn)1的次數(shù)少,樣本不足,結(jié)果不準(zhǔn)

L1正則項(xiàng)能使大量的無(wú)效特征權(quán)重為0,起到特征選擇作用

模型:LR--FM,F(xiàn)FM--GDBT--RF--DNN

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容