微信公眾號廣告點擊率預估效果優(yōu)化_騰訊大數(shù)據(jù)
http://data.qq.com/article?id=2914
//
2.4廣告與文章內(nèi)容的相似度
由于微信公眾號位置的流量媒體的特殊性,微信公眾號廣告位有豐富的媒體信息。同時廣告內(nèi)容也有文本描述信息。廣告與文章的上下文內(nèi)容相關(guān)一方面能提高用戶的閱讀體驗,另一方面對用戶是否點擊廣告也有較大的影響[3]。我們嘗試將公眾號推送文章與廣告內(nèi)容的相似度作為特征加入pCTR模型,以期能取得提高用戶體驗和投放效果的作用,如圖4。

//

//
總結(jié)展望篇
目前微信公眾號位置的效果優(yōu)化方向的選擇依然較多,特征方面,除了繼續(xù)進一步精細化用分群特征,挖掘特殊人群,探索上下文特征外,還可以嘗試GBDT+LR[1],GLASSO(Group LASSO)[7]等方法進行自動化的特征選擇;算法方面,DNN算法仍有很多可挖掘和優(yōu)化的地方,通過進一步優(yōu)化參數(shù)和挖掘并行計算潛力,有望進一步提升效果;系統(tǒng)方面,框架的穩(wěn)定性和可靠性的提高將有利于更多算法思想的落地實現(xiàn)。
**1.背景 **
點擊率預估(pCTR)是廣告投放過程中的一個重要環(huán)節(jié),精準的點擊率預估對于廣告投放系統(tǒng)收益最大化具有重要意義。pCTR的優(yōu)化主要有算法優(yōu)化,系統(tǒng)改進,特征探索等幾種途徑。2015年下半年微信公眾號位置,在引入了多種新特征,優(yōu)化已有特征的準確度和覆蓋率,并使用深度學習的算法框架后,效果取得了明顯提升。A/B test結(jié)果顯示,2015下半年微信公眾號位置,CTR+ECPM有12%以上的提升。在此將最近微信公眾號pCTR特征優(yōu)化的一些經(jīng)歷和想法記錄下來,歡迎大家討論。
特征探索篇
一般而言,廣告推薦場景中的特征包括:用戶側(cè)特征(包括用戶的年齡、性別、地域等),廣告?zhèn)忍卣鳎◤V告所屬的類別等),廣告位側(cè)特征(廣告位上下文等)。2015年下半年在微信公眾號位置,做了較多特征方面的嘗試,其中包括引入微信商業(yè)興趣、基于主題模型的訂閱興趣、提高了反饋特征和用戶畫像的準確度和覆蓋率等,這些嘗試都取得了較明顯的效果。本節(jié)先簡要敘述實驗前的特征選擇和實驗后的效果分析的一般方法,再以基于主題模型的訂閱興趣特征和廣告文本相關(guān)性特征為例,列舉說明2015下半年公眾號位置的兩個重要特征的構(gòu)建。
2.1 特征的選擇方法特征選擇按照先計算信息增益,再計算離線AUC,并綜合[1][2]所列的特征選擇方法,選出有效特征加入模型進行實驗。特征選擇遵循先粗選再細選的方法。
信息增益:信息增益反應的是特征對點擊行為的區(qū)分度,計算公式為:
H(y)表示目標y的信息熵,H(y|f)表示引入了特征f后的信息熵通過計算特征f的IG(即信息熵的增加量)來判斷對點擊率的區(qū)分性,從而確定是否加入點擊率預估模型當中去。信息增益存在的一個問題是無法體現(xiàn)對廣告的區(qū)分性,這里我們使用了二階信息增益:設(shè)?為某特征,ad為某廣告,y為目標值(y=-1,1)即代表用戶點擊或者不點擊廣告。
此處IG可理解為針對某確定的廣告,某特征的信息增益。也即將廣告出現(xiàn)的概率作為先驗信息引入,計算某特征區(qū)分廣告的信息增益。引入先驗信息后,針對某廣告的點擊行為的后驗概率計算如下:
前向特征選擇:關(guān)于前向特征選擇,已經(jīng)文章進行了專門的詳細論述[2],在此不展開介紹。我們在使用該方法時,是在原有特征集合的基礎(chǔ)上從候選特征集合中逐步挑選特征添加入當前模型。
2.2特征效果的分析
特征實驗A/B test一般會進行一周左右的時間,將實驗時間窗口調(diào)為一周是因為一周之內(nèi)不同天用戶的行為可能有變化。積累到一周數(shù)據(jù)后,對實驗效果進行分析,找出實驗效果有提升或者無提升甚至變差的原因,為以后的優(yōu)化做準備。以用戶特征為例,在上線用戶側(cè)特征之后,我們將會著重觀察在新特征劃分的各個用戶群體上訂單投放情況的變化。以用戶興趣為例,該興趣將用戶分為了“汽車”、“服飾”、“數(shù)碼產(chǎn)品”等近百個用戶群體,pCTR模型在加入這個特征之后,在“服飾”興趣群體上投放出了更多的女裝訂單,從而使得這個人群的CTR有較大提高,如圖2所示。
圖 2 加入了用戶興趣之后A/B test中“服飾”人群上的top訂單有比較大的變化,實驗組的top1“女裝絲襪”在對照組沒有進top10。其余幾個女裝訂單在實驗組的曝光也高于對照組。136是實驗算法,137是對照算法。
2.3基于主題模型的用戶訂閱興趣
用戶在點擊、閱讀、轉(zhuǎn)發(fā)微信公眾號圖文信息的行為隱含著大量的信息,能夠反映出用戶的興趣,挖掘出這些隱含信息,構(gòu)建出一套適用于廣告投放的興趣體系對于推薦算法無疑是十分有利的。
圖 3 基于主題模型的公眾號聚類興趣標簽的產(chǎn)生方式示意圖,公眾號的聚類主要由訂閱關(guān)系來產(chǎn)生
我們嘗試了一種新的訂閱興趣體系的方法:基于主題模型的興趣人群挖掘方法。對于N個用戶訂閱M個公眾號的場景,我們采用類似LDA的方法,從中抽取出k個隱含的訂閱興趣。其效果如圖3所示,對于一個N*M的user-item矩陣,有相似粉絲用戶(user)的公眾號(相當于item)會歸為相似的topic,訂閱了屬于某類topic公眾號的用戶會被賦予相應的興趣權(quán)重(圖3中省略了權(quán)重部分)。A/B test結(jié)果顯示,這種主題模型的興趣挖掘方法在廣告推薦場景比較有效。
2.4廣告與文章內(nèi)容的相似度
由于微信公眾號位置的流量媒體的特殊性,微信公眾號廣告位有豐富的媒體信息。同時廣告內(nèi)容也有文本描述信息。廣告與文章的上下文內(nèi)容相關(guān)一方面能提高用戶的閱讀體驗,另一方面對用戶是否點擊廣告也有較大的影響[3]。我們嘗試將公眾號推送文章與廣告內(nèi)容的相似度作為特征加入pCTR模型,以期能取得提高用戶體驗和投放效果的作用,如圖4。
圖 4 廣告與文章內(nèi)容相似度加入pCTR模型提高投放效果和閱讀體驗
算法優(yōu)化篇
CMU的李沐在2014年的博文中提到,“線性模型+特征工程”的機器學習方法,隨著數(shù)據(jù)量的增長和特征的不斷挖掘會面臨瓶頸的到來[4]。大數(shù)據(jù)時代,我們需要更好的自動學習的算法。深度學習算法,能更好地抽取特征中的信息,更好的發(fā)揮特征的作用。在探索特征的同時,我們也在向復雜的非線性模型轉(zhuǎn)向。深度學習是我們嘗試的方向之一。DNN(深度神經(jīng)網(wǎng)絡(luò))有多種開源工具 [5-6],在此不再敘述DNN的原理與實現(xiàn)。在微信公眾號位置,DNN算法能較好的實現(xiàn)特征數(shù)據(jù)的端到端學習,一定程度上減低了特征選擇的工作量。
系統(tǒng)架構(gòu)篇
全流程實時計算,是承載算法和數(shù)據(jù)的框架。框架的優(yōu)化以及重構(gòu),雖然不能直接帶來效果提升,但是更加可靠的系統(tǒng)和框架使得算法運行更加穩(wěn)定更加易于維護。目前我們承載推薦系統(tǒng)的系統(tǒng)架構(gòu)如圖5。
總結(jié)展望篇
目前微信公眾號位置的效果優(yōu)化方向的選擇依然較多,特征方面,除了繼續(xù)進一步精細化用分群特征,挖掘特殊人群,探索上下文特征外,還可以嘗試GBDT+LR[1],GLASSO(Group LASSO)[7]等方法進行自動化的特征選擇;算法方面,DNN算法仍有很多可挖掘和優(yōu)化的地方,通過進一步優(yōu)化參數(shù)和挖掘并行計算潛力,有望進一步提升效果;系統(tǒng)方面,框架的穩(wěn)定性和可靠性的提高將有利于更多算法思想的落地實現(xiàn)。
參考文獻
[1] CTR預估中GBDT與LR融合方案,騰訊大數(shù)據(jù),2015-08-27
[2]Singh S, Kubica J, Larsen S, et al. Parallel Large ScaleFeature Selection for Logistic Regression[C]//SDM. 2009: 1172-1183.
[3] 《計算廣告學》,http://study.163.com/course/introduction.htm?courseId=321007#/courseDetail
[4] 大數(shù)據(jù):“人工特征工程+線性模型”的盡頭, http://www.36dsj.com/archives/15621
[5] http://torch.ch/
[6] http://caffe.berkeleyvision.org
[7] A note on the group lasso and a sparse group Lasso, http://statweb.stanford.edu/~tibs/ftp/sparse-grlasso.pdf