廣告創(chuàng)意特征:
- 圖片,標(biāo)題文字,價(jià)格,銷量
- 推廣商品所屬類目,包含屬性
- 創(chuàng)意組,推廣計(jì)劃,廣告主
Query信息:
- 包含的Terms
- Query分析:類目,屬性
- Query擴(kuò)展:同義詞,相似query
環(huán)境特征:
- 用戶,時(shí)間
- 如年齡,性別,婚姻狀況,職業(yè),興趣等
- 用戶歷史CTR, user組合特征(User-Ad, User-Query)
名義特征
- 時(shí)間,創(chuàng)意ID等
? 點(diǎn)擊反饋特征 - 計(jì)算歷史上包含該特征的(query, ad)的點(diǎn)擊率
- E.g., ad所屬?gòu)V告計(jì)劃的歷史點(diǎn)擊率
組合特征
- query與ad標(biāo)題匹配的term個(gè)數(shù)
1個(gè)月數(shù)據(jù)訓(xùn)練,接下來(lái)的1天數(shù)據(jù)測(cè)試
推薦系統(tǒng) 或 ctr預(yù)估中,可以先對(duì)用戶聚類,對(duì)用戶進(jìn)行分組,把cluster_id當(dāng)作新特征,每個(gè)用戶有一個(gè)cluster_id。
時(shí)間特征處理:分段
freq處理:

頻次特別低的用one-hot編碼 ,浪費(fèi)維度。
出現(xiàn)頻次非常低的樣本可以拿出來(lái)看一下是不是可以通過(guò)規(guī)則直接做判定。
可以把頻次高的作為一列(high-freq),頻次低的作為一列(2,18這種合并作為low-freq)
長(zhǎng)尾數(shù)據(jù)離散化
對(duì)每一維度求方差,如果波動(dòng)大,可能對(duì)結(jié)果作用大。
廣告業(yè)務(wù)和推薦系統(tǒng)的區(qū)別
廣告:三方
推薦:兩方
Revenue models from online advertising:
CPM(cost per mille)
CPC(cost per click)
CPA(cost per action)

CTR * price
LR:
- 結(jié)果表示點(diǎn)擊率
- 用LR做base_line
- 模型簡(jiǎn)單,可解釋性高(工業(yè)運(yùn)作中,遇到問(wèn)題可以找到是哪個(gè)特征對(duì)應(yīng)的權(quán)重出現(xiàn)問(wèn)題)
- 大多公司還在用LR或用LR和其他模型混合
平時(shí)用pandas但吃內(nèi)存
工業(yè)界用LIBLINEAR(libsvm),省內(nèi)存
組合特征非常有用。FFM適合用于組合特征,用矩陣分解減小開銷。
one-hot編碼數(shù)據(jù)會(huì)非常稀疏,組合特征更會(huì)暴增
稀疏性會(huì)帶來(lái)什么問(wèn)題:
- 內(nèi)存壓力大
- 組合特征出現(xiàn)1的次數(shù)少,樣本不足,結(jié)果不準(zhǔn)
L1正則項(xiàng)能使大量的無(wú)效特征權(quán)重為0,起到特征選擇作用
模型:LR--FM,F(xiàn)FM--GDBT--RF--DNN