
?作者|黃崇遠(yuǎn)(數(shù)據(jù)蟲巢)?
01?
接上篇文章《數(shù)據(jù)與廣告系列六:一圖讀懂在線廣告產(chǎn)品交互關(guān)系》,上篇邏輯里核心是從產(chǎn)品邏輯的角度,來闡述整體廣告生態(tài)中不同的產(chǎn)品以及平臺的角色。而這篇,我們則從偏技術(shù)以及數(shù)據(jù)邏輯來了解整體的在線廣告系統(tǒng)的技術(shù)架構(gòu)以及數(shù)據(jù)流向來做分析。
在做正式的分析之前,我們先把《計算廣告》中涉及的技術(shù)架構(gòu)圖來一張(重新繪制就沒有必要了,手拍一張,湊合著看先,后面有數(shù)據(jù)蟲巢這邊按邏輯理解的再繪圖):

從整體的角度來看,其實(shí)相對還是比較完善的了,基本把整個廣告技術(shù)邏輯,以及各個部分的角色闡述清晰了,但從個人的角度來看,更期望的是更偏技術(shù)的邏輯,甚至是數(shù)據(jù)流轉(zhuǎn)的邏輯來理解這么個整個技術(shù)體系。
所以,我們圍繞具體一些的技術(shù)選型方案以及數(shù)據(jù)流轉(zhuǎn)的動向來理解整個在線廣告的技術(shù)架構(gòu)邏輯可能會更容易理解一些。
02
在看我們重新理解繪制的“在線廣告技術(shù)架構(gòu)圖”之前,我們來看一張數(shù)據(jù)蟲巢這邊之前做推薦系統(tǒng)的時候繪制的推薦系統(tǒng)架構(gòu)邏輯圖(如果要使用俺的圖請先聯(lián)系我,手繪,請勿亂用,下面手繪圖同樣):

之前我們就一直有提到過,推薦系統(tǒng)和廣告系統(tǒng)有著天然的一些聯(lián)系,關(guān)于業(yè)務(wù)邏輯這塊,我們可以參考第二篇《數(shù)據(jù)與廣告系列二:計算廣告和推薦系統(tǒng)》。這里我們回到技術(shù)維度,我們從推薦的技術(shù)架構(gòu)來推演廣告的技術(shù)架構(gòu),以及類似的數(shù)據(jù)流轉(zhuǎn)邏輯。
回到上圖,推薦的核心幾個邏輯步驟是:
1.做推薦候選的召回處理
2.做推薦候選的排序邏輯
3.進(jìn)行推薦的策略規(guī)則干預(yù)邏輯
4.進(jìn)行推薦的服務(wù)化輸出
其中召回部分有很多推薦相對專用的召回算法或者召回邏輯,這是一個候選初篩的邏輯,關(guān)于工程實(shí)現(xiàn)部分的差異,當(dāng)然,大部分都是離線模式下的召回,也有強(qiáng)依賴于工程數(shù)據(jù)流轉(zhuǎn)的實(shí)時召回邏輯。這部分應(yīng)對的是廣告的候選初篩,當(dāng)然邏輯會有些不一樣,并且可能實(shí)時性要求更強(qiáng)一些,所以在算法復(fù)雜度上會弱一些,但對于標(biāo)簽體系的要求會高很多。
在排序部分,實(shí)際上就是根據(jù)特征做點(diǎn)擊預(yù)估的計算,追求的點(diǎn)擊轉(zhuǎn)化率。這個維度跟廣告相似度是非常之高的,只不過廣告對于點(diǎn)擊預(yù)估的要求會更高,畢竟涉及的都是真金白銀,所以在點(diǎn)擊預(yù)估這邊投入的技術(shù)成本會多很多,不管是對于特征的處理,或者對于算法的復(fù)雜度都會有所提升,核心目標(biāo)就是點(diǎn)擊預(yù)估率要高。
規(guī)則引擎邏輯部分,其實(shí)說白了就是各種人工因素的干預(yù)部分,這部分跟廣告部分幾乎較少關(guān)聯(lián),因?yàn)橥扑]是介于用戶體驗(yàn)和廣告中間態(tài)的一種邏輯,所以必然要考慮一些人為的因素。
而服務(wù)化的部分,其實(shí)跟廣告的最終服務(wù)化差異性不大,承擔(dān)并發(fā)壓力,各種實(shí)驗(yàn)標(biāo)志的傳遞輸出等等。
還有一部分非常核心的就是推薦的實(shí)驗(yàn)平臺,核心承擔(dān)目標(biāo)是推薦的效果優(yōu)化,類似廣告邏輯里也有類似的優(yōu)化核心承擔(dān)的邏輯模塊,包括數(shù)據(jù)BI分析邏輯和策略優(yōu)化邏輯。差異點(diǎn)較大的是,廣告的BI數(shù)據(jù)邏輯部分是需要開放給廣告主的,不單純需要內(nèi)部使用,還需要封裝成對外的數(shù)據(jù)查看邏輯,而推薦則基本都是自用輔助實(shí)驗(yàn)平臺。
這是核心主邏輯的技術(shù)邏輯結(jié)構(gòu)差異部分,更多的邏輯我們結(jié)合著數(shù)據(jù)蟲巢重新理解的“在線廣告技術(shù)架構(gòu)圖”來闡述,畢竟我們的主體是廣告。
03
我們來看一下具體的技術(shù)邏輯架構(gòu)圖(請勿亂用俺的手繪架構(gòu)圖,若用請先聯(lián)系):

先來看一下在線廣告的主邏輯部分(深橙色部分):
1.廣告檢索
2.點(diǎn)擊預(yù)估部分
3.廣告排序部分
4.廣告輸出的服務(wù)化
針對于廣告檢索,其實(shí)就是廣告的召回部分,做廣告資源的候選召回,這里的廣告檢索召回,很多時候?qū)τ趯?shí)時性要求會高一些,有別于推薦的各種離線推薦召回算法,這里更多依賴于auc三源(a廣告,u用戶,c投放環(huán)境)的標(biāo)簽,直接通過標(biāo)簽匹配來做快速檢索,所以很多時候這里會大規(guī)模使用倒排索引相關(guān)的技術(shù),如果是開源的解決方案推薦的就是ElasticSearch等檢索引擎。
在點(diǎn)擊預(yù)估部分,追求的是單次廣告輸出的轉(zhuǎn)化率,由于在最終排序的邏輯里,點(diǎn)擊轉(zhuǎn)化率起到了非常核心的影響作用(沒有轉(zhuǎn)化保證,其他的因素都可以忽略),所以這里不管對于CTR模型輸出的算法要求也好,對于特征的處理要求也好都非常嚴(yán)格,并且大部分時候?yàn)榱吮WCCTR的準(zhǔn)確率,都要求對于實(shí)時性的特征流轉(zhuǎn)要求很嚴(yán)格,要求能夠快速拿到實(shí)時的特征做特征輸入。
在特征部分,又是一個巨大的工程體系,涉及到實(shí)時和離線特征如何計算,特征如何進(jìn)行快速維度擴(kuò)增,而擴(kuò)增之后的十萬級百萬級甚至是千萬級維度的特征如何存儲,以及如何解決稀疏高效存儲計算的問題等。
在最終的排序部分,這部分跟推薦的差異性最大,需要綜合考慮上一步驟里的點(diǎn)擊預(yù)估轉(zhuǎn)化率,還要考慮商業(yè)因素(Money),以及對于平臺方來說要賺長遠(yuǎn)的錢(不是一次性的消耗),所以結(jié)合上個邏輯計算的CTR評分,結(jié)合用戶的競價(具體競價邏輯參考第四篇數(shù)據(jù)與廣告系列四:搜索廣告來源和競價策略),以及廣告主的質(zhì)量評估(優(yōu)質(zhì)可持續(xù)投入的廣告主,更受廣告平臺的歡迎),最終加權(quán)計算一個排序出來,通過排序來決定有效廣告位資源的歸屬問題。
特別需要提出來的是,在廣告主評分計算邏輯里,針對于有投放記錄的廣告主來說,評分相對容易,畢竟之前有各種投放記錄,甚至包括投入的預(yù)算等等,通過一個相對合理的預(yù)估是能夠評估出來廣告主的有效長期價值的,對于新的廣告主來說可能更多需要依賴于人工運(yùn)營/標(biāo)簽化,以及外部輿情的一些手段來做輔助判斷。當(dāng)然,從整體邏輯看以及結(jié)合前面文章的邏輯,我們可以預(yù)估的出來整個的質(zhì)量評分還是偏向于輔助作用的,更多依賴的是點(diǎn)擊預(yù)估和出價。
在服務(wù)化這層不多說,多出來的是與競價邏輯結(jié)合起來的預(yù)算管理模塊,一般在競價邏輯里實(shí)際上每次出價都是需要約束好預(yù)算的。
04
上面這些是主邏輯部分,而整個在線廣告技術(shù)邏輯架構(gòu)里比推薦邏輯相對還是復(fù)雜一些的,除此之外,還有幾個非常重要的部分。
先來看數(shù)據(jù)流向邏輯,廣告部分對于數(shù)據(jù)的實(shí)時性要求更高,不單純是實(shí)時特征部分的專門性要求,哪怕在數(shù)據(jù)BI維度上,實(shí)時性要求也非常高,除此之外由于Money結(jié)算涉及到多方結(jié)算,不同于推薦的單一主體平臺,所以在數(shù)據(jù)風(fēng)控上有很高的要求,比如進(jìn)行點(diǎn)擊異常數(shù)據(jù)的判別等。
外部的另外一部分就是整個廣告邏輯的優(yōu)化策略部分,針對于召回的策略,點(diǎn)擊預(yù)估的算法,排序的策略,競價的策略,甚至是與數(shù)據(jù)關(guān)系不大的創(chuàng)業(yè)自動生成策略等,都可以與推薦一樣做各種精細(xì)化的流量分發(fā)控制,再結(jié)合數(shù)據(jù)回流來做調(diào)整和優(yōu)化。
還有一部分就是非常核心的新客發(fā)現(xiàn)邏輯,即依賴于一方數(shù)據(jù)(廣告主數(shù)據(jù)),二方數(shù)據(jù)(廣告平臺累積數(shù)據(jù))以及三方數(shù)據(jù)(購買的第三方數(shù)據(jù))集成做的投放種子人群,通過種子人群計算種子人群的各種標(biāo)簽畫像,結(jié)合以有的用戶資源池做人群的擴(kuò)散計算。
而針對于Look-Alike人群的擴(kuò)散,其實(shí)方式方法也非常之多,比如單純計算人群的相似關(guān)系,看似很簡單,但規(guī)模一旦很大的情況下,計算相似關(guān)系也需要面對很多的挑戰(zhàn),比如數(shù)據(jù)的處理,相似關(guān)系計算的代價等等。當(dāng)然,也有很多應(yīng)對的方式,比如做人群聚群再進(jìn)行相似關(guān)系計算,標(biāo)簽的相似關(guān)系召回。以及,在當(dāng)前移動互聯(lián)網(wǎng)如此“橫行”的時代里,通過社交關(guān)系做的擴(kuò)散非常之有效,有興趣的可以去了解一下騰訊的人群擴(kuò)散的相關(guān)資料。
除了我們從技術(shù)架構(gòu)圖上可以看到的一些信息流通道,實(shí)時離線的計算,倉庫的應(yīng)用等等,針對于大規(guī)模使用的標(biāo)簽相關(guān)的問題解決也需要關(guān)注,比如標(biāo)簽如何做大規(guī)模的存儲和計算,以及相對麻煩的標(biāo)簽維護(hù)擴(kuò)充和維護(hù)等。
04
綜上,我們對于整體在線廣告的技術(shù)邏輯架構(gòu),以及圍繞技術(shù)架構(gòu)的數(shù)據(jù)流轉(zhuǎn)都應(yīng)該有了個認(rèn)知,當(dāng)然細(xì)究每個部分都有非常多的東西值得研究,比如單純標(biāo)簽,能做的事就很多。標(biāo)簽維度的設(shè)計,標(biāo)簽的計算存儲,維護(hù)更新,都可以成為一個研究的課題。還包括諸如重頭部分CTR如何做的更好,召回排序模型的優(yōu)化,服務(wù)化的并發(fā)承壓和效率等。
在后續(xù)的一段時間里,這個系列一定會繼續(xù)補(bǔ)充,并且甚至是做一些細(xì)節(jié)程度的分析和深入,但短時間內(nèi)這個系列可能先告一段落,大概幾個月后會做新的衍生補(bǔ)充。當(dāng)然,如果有時間的話,也可能會補(bǔ)充一篇關(guān)于廣告數(shù)據(jù)分析維度的東西,看時間了。
本系列的其他文章:
《數(shù)據(jù)與廣告系列二:計算廣告和推薦系統(tǒng)》
《數(shù)據(jù)與廣告系列三:合約廣告與與衍生的第三方廣告數(shù)據(jù)監(jiān)控》
《數(shù)據(jù)與廣告系列四:搜索廣告來源和競價策略》
《數(shù)據(jù)與廣告系列五:廣告生態(tài)的平衡與人群定向初探》
《數(shù)據(jù)與廣告系列六:一圖讀懂在線廣告產(chǎn)品交互關(guān)系》
歡迎關(guān)注我的簡書【數(shù)據(jù)蟲巢】