要提高在線廣告的效果,受眾定向是最重要的核心技術(shù)之一。
12.1 受眾定向技術(shù)分類
首先按照其有效性和在廣告信息接受過(guò)程中起作用的階段給出一些市場(chǎng)上比較流行的定向方式,如下圖所示。

注:這里建議結(jié)合計(jì)算廣告第二章提到的廣告接受過(guò)程來(lái)理解http://www.itdecent.cn/p/169256d037f4
總體上看,按照計(jì)算框架的不同,這些受眾定向技術(shù)可以分為以下三種類型。
(1)用戶標(biāo)簽,即可以表示成t(u)形式的標(biāo)簽,這是以用戶歷史行為數(shù)據(jù)為依據(jù),為用戶打上的標(biāo)簽。
(2)上下文標(biāo)簽,即可以表示成t(c)形式的標(biāo)簽,這是根據(jù)用戶當(dāng)前的訪問(wèn)行為得到的即時(shí)標(biāo)簽。
(3)定制化標(biāo)簽,即可以表示成t(a,u)形式的標(biāo)簽,這也是一種用戶標(biāo)簽,不同之處在于是針對(duì)某一特定廣告主而言的,因而必須根據(jù)廣告主的某些屬性或數(shù)據(jù)來(lái)加工。
以上各種定向中,地域定向、頻道定向和上下文定向?qū)儆趖(c)的定向方式;人口屬性定向、行為定向?qū)儆趖(u)的定向方式;而重定向和新客推薦(look-alike)則是t(a,u)的定向方式。各種定向的標(biāo)簽被應(yīng)用于根據(jù)用戶和環(huán)境信息選取廣告候選的過(guò)程,因而對(duì)廣告投送的結(jié)果有比較顯著的影響。t(c)和t(u)兩種定向方式,一個(gè)是根據(jù)當(dāng)前環(huán)境信息,一個(gè)是根據(jù)歷史日志數(shù)據(jù),因而在技術(shù)方案上有比較大的區(qū)別。
12.2 上下文定向(t(c))
從打標(biāo)簽的方法上來(lái)看,上下文定向主要有以下幾種思路。
(1)用規(guī)則將頁(yè)面歸類到一些頻道或主題分類。例如,將auto.sohu.com下的網(wǎng)頁(yè)歸在“汽車”這個(gè)分類中。這種方法相對(duì)簡(jiǎn)單。
(2)提取頁(yè)面中的關(guān)鍵詞。這是在將搜索引擎的關(guān)鍵詞匹配技術(shù)推廣到媒體廣告上時(shí)自然產(chǎn)生的,也是上下文定向的基本方法。
(3)提取頁(yè)面入鏈(即進(jìn)入當(dāng)前地址的源鏈接)錨文本中的關(guān)鍵詞。這需要一個(gè)全網(wǎng)的爬蟲作支持,因此已經(jīng)超出了一般意義下廣告系統(tǒng)的范疇,有興趣的讀者可以參考搜索引擎方面的有關(guān)文獻(xiàn)。
(4)提取頁(yè)面流量來(lái)源中的搜索關(guān)鍵詞。這種方法除了頁(yè)面內(nèi)容,也需要頁(yè)面訪問(wèn)的日志數(shù)據(jù)作支持,從技術(shù)方案上看更接近后面介紹的行為定向。
(5)用主題模型將頁(yè)面內(nèi)容映射到語(yǔ)義空間的一組主題上,這樣做的目的是為了泛化廣告主的需求,提高市場(chǎng)的流動(dòng)性和競(jìng)價(jià)水平。
確定了對(duì)上下文頁(yè)面打標(biāo)簽的方法以后,在在線廣告投放時(shí),頁(yè)面標(biāo)簽系統(tǒng)需要對(duì)廣告投放機(jī)查詢的某一個(gè)URL快速返回其對(duì)應(yīng)的標(biāo)簽。復(fù)雜的打標(biāo)簽計(jì)算是不可能馬上完成的,不過(guò)在廣告的問(wèn)題中,某一次展示時(shí)標(biāo)簽的缺失并不是致命性的。根據(jù)廣告的這一特點(diǎn),可以用一種半在線的方式實(shí)現(xiàn)頁(yè)面抓取和打標(biāo)簽的邏輯。
半在線抓取系統(tǒng)
半在線抓取系統(tǒng)的工作原理,簡(jiǎn)單來(lái)說(shuō)就是,當(dāng)在線的廣告請(qǐng)求到來(lái)時(shí)進(jìn)行如下操作。
(1)如果該請(qǐng)求的上下文URL在緩存中存在,那么直接返回其對(duì)應(yīng)的標(biāo)簽。
(2)如果該URL在服務(wù)中不存在,為了廣告請(qǐng)求能及時(shí)得到處理,當(dāng)時(shí)返回空的標(biāo)簽集合,同時(shí)立刻向后臺(tái)的抓取隊(duì)列中加入此URL,這樣在較短的一段時(shí)間(通常為秒至分鐘量級(jí))之后該URL就被抓取下來(lái)并打上標(biāo)簽存入緩存中。
(3)考慮到頁(yè)面內(nèi)容可能會(huì)不定期更新,可以設(shè)置緩存合適的TTL(Time to Live)以做到自動(dòng)更新標(biāo)簽。
半在線的上下文抓取系統(tǒng)非常典型地揭示了在線廣告系統(tǒng)弱一致的業(yè)務(wù)需求:只要保證大多數(shù)的廣告決策最優(yōu)正常,很少量的次優(yōu)決策甚至隨機(jī)決策都是可以接受的。
12.3 文本主題挖掘(t(c))
根據(jù)上下文內(nèi)容進(jìn)行受眾定向的粒度可以精細(xì)到關(guān)鍵詞,也可以粗略到頁(yè)面的類型。除了這兩種極端情況,我們也可以考慮將頁(yè)面內(nèi)容直接映射到一組有概括性意義的主題上,比如將一個(gè)講編程語(yǔ)言的博客頁(yè)面映射到“IT 技術(shù)”這樣的主題上。假設(shè)這一文檔集合主題模型對(duì)應(yīng)著{1,2,···,T}這一組主題,我們的目的就是對(duì)每個(gè)文檔得到其在這些主題上的強(qiáng)度{zn1,zn2,···,znT}。
LSA模型
通過(guò)對(duì)文檔和詞組成的矩陣進(jìn)行矩陣分解,找到這一矩陣的主要模式,這一方法稱為潛在語(yǔ)義分析。LSA的分解過(guò)程可以表示如下:

其中K為矩陣X的秩,s1,s2,...sk為X的K個(gè)奇異值。左側(cè)的矩陣就是將潛在語(yǔ)義空間中的主題映射到某個(gè)文檔的變換矩陣,而右側(cè)的矩陣則是主題映射到某個(gè)文檔詞表中某個(gè)詞的變換矩陣。最多可以得到的主題數(shù)目等于矩陣X 的秩K,不過(guò)一般情況下,都會(huì)選擇一個(gè)遠(yuǎn)小于K 的主題數(shù)目用來(lái)建模。
PLSI模型
LSA類似的思想也可以用概率建模的方式來(lái)表達(dá),這就是概率潛在語(yǔ)義索引PLSI。PLSI方法是通過(guò)對(duì)文檔生成的過(guò)程進(jìn)行概率建模來(lái)進(jìn)行主題分析。這一模型下的文檔生成過(guò)程可以表述為以下兩個(gè)步驟。
(1)根據(jù)每個(gè)文檔dn 生成對(duì)應(yīng)的一個(gè)主題z。
(2)給定主題,對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布p(wn|z,β),據(jù)此生成一個(gè)詞wi;其中的參數(shù)β=(β1,···,βK),而βk即為當(dāng)zk =1時(shí)對(duì)應(yīng)的多項(xiàng)式分布參數(shù)。
對(duì)應(yīng)于上面的生成過(guò)程,文檔集X 的生成似然值可以表達(dá)為:

LDA模型
貝葉斯方法也可以應(yīng)用于PLSI模型,這樣做的目的是在文檔信息不足或者噪聲較大時(shí)能夠利用貝葉斯的框架對(duì)結(jié)果進(jìn)行有效的平滑。這一思路也就產(chǎn)生了潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法 [10] 。在LDA方法中,我們視PLSI模型的參數(shù)為隨機(jī)變量,對(duì)于某一篇文檔,其生成過(guò)程可以描述如下。
(1)根據(jù)一個(gè)泊松分布選擇文檔的長(zhǎng)度M。
(2)根據(jù)ω 的先驗(yàn)分布Dir(α)生成ω。
(3)對(duì)每個(gè)文檔中的詞 m∈{1,···,M},根據(jù) Multi(ω)分布選擇一個(gè)主題 z;給定主題,對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布p(wm |z,β),據(jù)此生成一個(gè)詞wm。
把這一生成過(guò)程與 PLSI對(duì)比可以知道,這相當(dāng)于 PLSI的貝葉斯版本,即給 Topic的分布 w 加上了先驗(yàn)分布,而先驗(yàn)分布采用的是共軛形式,即狄利克雷分布。
如果采用經(jīng)驗(yàn)貝葉斯的方法來(lái)確定超參數(shù)α,那么此時(shí)原來(lái)的參數(shù)ω就變成了隱變量,優(yōu)化的參數(shù)除了α,還包括參數(shù)β,優(yōu)化的目標(biāo)函數(shù)可以寫成:

LDA 模型常用的更新方法是吉布斯采樣法。
詞嵌入word2vec
詞嵌入將詞級(jí)別的語(yǔ)義信息映射成稠密的實(shí)數(shù)向量來(lái)表達(dá)。具體來(lái)說(shuō),把詞典大小的維度降維到一個(gè)K維的特征空間,每個(gè)詞對(duì)應(yīng)特征空間內(nèi)的一個(gè)點(diǎn),即一個(gè)K維的稠密的實(shí)數(shù)向量。相近的詞會(huì)出現(xiàn)在特征空間中離得更近的地方,從而使詞的表示具有一定的泛化性。
word2vec一般有skip-gram和cbow兩種模型學(xué)習(xí)方式,由于較為通用,這里不再陳述。
12.4 行為定向(t(u))
t(u)的受眾定向方式包括從用戶網(wǎng)上瀏覽記錄加工得到的興趣定向以及根據(jù)用戶歷史所在的地域得到的用戶主要居住地的“Where on Earth”定向等。由于這些都是根據(jù)用戶的歷史行為進(jìn)行挖掘的問(wèn)題,因此把它們統(tǒng)稱為行為定向(Behaviorial Targeting,BT)。
行為定向需要進(jìn)行大規(guī)模的數(shù)據(jù)挖掘,是在線廣告中數(shù)據(jù)利用和變現(xiàn)最重要的計(jì)算問(wèn)題之一。行為定向的用到的標(biāo)簽體系、建模方法、特征生成和評(píng)測(cè)指標(biāo)等問(wèn)題將在下面分別討論。
行為定向建模問(wèn)題
行為定向問(wèn)題的目標(biāo)是找出在某個(gè)類型的廣告上 eCPM相對(duì)較高的人群。如果假設(shè)在該類型的廣告上點(diǎn)擊價(jià)值近似一致,那么問(wèn)題就轉(zhuǎn)化為找出在該類型廣告上點(diǎn)擊率較高的人群。
行為定向模型要做的就是把用戶的行為與頻繁性參數(shù)λt聯(lián)系起來(lái)。如果利用線性模型聯(lián)系用戶行為和λt,則有:

這里的wt=(wt1,···,wtN) 即為標(biāo)簽t對(duì)應(yīng)的行為定向模型需要優(yōu)化的參數(shù),n表示不同的行為類型,如搜索、網(wǎng)頁(yè)瀏覽、購(gòu)買等。將原始行為 b 先經(jīng)過(guò)特征選擇函數(shù) xtn(b),再將結(jié)果作為特征用在模型中。
這是工程上一種非常典型的建模思路:當(dāng)面對(duì)一個(gè)多自變量的回歸問(wèn)題時(shí),可以先根據(jù)目標(biāo)值的特性選擇合適的指數(shù)族分布來(lái)描述,并用線性模型將多個(gè)自變量和指數(shù)族分布的參數(shù)聯(lián)系起來(lái)。這樣做,可以利用線性模型更新簡(jiǎn)單和可解釋性強(qiáng)的特點(diǎn),同時(shí)又對(duì)目標(biāo)變量的類型有較強(qiáng)的適應(yīng)性。這種建模方法稱為廣義線性模型(Generalized Linear Model,GLM)。類似于邏輯回歸、softmax回歸都屬于廣義線性模型。
行為定向特征生成
行為定向特征的生成過(guò)程有兩點(diǎn)需要討論:一是特征選擇函數(shù) x tn 的確定,二是公式12.5對(duì)應(yīng)模型的訓(xùn)練集的組織和生成方式。行為定向的特征生成過(guò)程,由于樣本量比較大,處理的高效性是在工程中主要考慮的問(wèn)題。
最常用的特征選擇函數(shù)xtn(b)是將一段時(shí)間內(nèi)的原始用戶行為映射到確定的標(biāo)簽體系上,同時(shí)計(jì)算出各行為在對(duì)應(yīng)標(biāo)簽上的累積強(qiáng)度作為模型的特征輸入。模型中wtn的作用實(shí)際上就是在調(diào)整搜索、瀏覽等不同行為類型的重要程度。
這里要注意,我們考慮的是“一段時(shí)間內(nèi)的行為”,因?yàn)檫^(guò)于久遠(yuǎn)的行為對(duì)于用戶興趣的貢獻(xiàn)是很小的。如何將行為累計(jì)控制在一段時(shí)間以內(nèi),工程上有兩種常用的方法,分別是滑動(dòng)窗口法和時(shí)間衰減法,兩者的計(jì)算公式分別為:


一般而言,時(shí)間衰減法更為通用。
各類行為的標(biāo)簽化方法(xtn(b))
特征選擇函數(shù)x tn (b)的計(jì)算方法,即搜索、廣告點(diǎn)擊、網(wǎng)頁(yè)瀏覽等行為映射到一個(gè)或多個(gè)定向標(biāo)簽上。這是行為定向計(jì)算過(guò)程中最關(guān)鍵的環(huán)節(jié),以下介紹工程中的實(shí)用方案。
(1)網(wǎng)頁(yè)瀏覽、分享等與內(nèi)容相關(guān)的行為可以通過(guò) 之前提到的有監(jiān)督文本主題模型的方法,將其映射到預(yù)先定義好的標(biāo)簽體系上,也可以直接提取內(nèi)容中的關(guān)鍵詞作為標(biāo)簽。
(2)廣告點(diǎn)擊等與廣告活動(dòng)相關(guān)的行為可以轉(zhuǎn)化為對(duì)廣告落地頁(yè)內(nèi)容的分析,因此可以使用與網(wǎng)頁(yè)瀏覽相同的方法。
(3)最值得重視的是搜索、搜索點(diǎn)擊等與查詢相關(guān)的行為。由于查詢的信息量較少,很難直接提取標(biāo)簽??尚械姆桨赣袃煞N,都要用到搜索引擎:第一種方案是利用搜索引擎做內(nèi)容擴(kuò)展,即將查詢送入搜索引擎,用返回的若干結(jié)果描述或者鏈接頁(yè)的內(nèi)容作為該查詢對(duì)應(yīng)的內(nèi)容,這種方案借助通用搜索引擎即可;第二種方案是對(duì)查詢進(jìn)行某垂直領(lǐng)域分類時(shí),直接利用相應(yīng)垂直媒體的標(biāo)簽體系和搜索引擎。
(4)轉(zhuǎn)化、預(yù)轉(zhuǎn)化等需求方行為往往可以對(duì)應(yīng)到一個(gè)單品。同樣,利用該單品的分類信息可以將其映射到某個(gè)標(biāo)簽上,
12.5人口屬性預(yù)測(cè)
年齡、性別、教育程度、收入水平等人口屬性并不屬于用戶的興趣,而是用戶確定的特點(diǎn)描述。不過(guò)在實(shí)際定向廣告系統(tǒng)中,除了一些實(shí)名的社交網(wǎng)絡(luò)以外,規(guī)?;孬@得人口屬性比較困難,因此往往還是需要數(shù)據(jù)驅(qū)動(dòng)的模型,以用戶的行為為基礎(chǔ)自動(dòng)預(yù)測(cè)其人口屬性。
有很多機(jī)器學(xué)習(xí)模型都可以用于性別預(yù)測(cè)問(wèn)題,比如采用最大后驗(yàn)概率的框架,則預(yù)測(cè)問(wèn)題可以表示成:
其他的模型,如支持向量機(jī)(Support Vector Machine,SVM) 、AdaBoost 等,都可以考慮,需要根據(jù)自己的數(shù)據(jù)特點(diǎn)具體判斷哪種模型更合理。
除了性別以外的其他人口屬性用簡(jiǎn)單的分類模型并不太準(zhǔn)確。以年齡為例,假設(shè)我們把標(biāo)簽設(shè)定成五個(gè)年齡段,那么將第一個(gè)年齡段的認(rèn)錯(cuò)分到第二個(gè)年齡段與錯(cuò)分到第三個(gè)年齡段的代價(jià)應(yīng)該是不同的,而如果采用簡(jiǎn)單的5個(gè)類的分類模型,這一差別就被忽略了。因此,需要在分類模型中明確考慮不同類之間的錯(cuò)分代價(jià),其他的屬性如教育程度、收入水平也類似。不過(guò)總體上說(shuō),從用戶行為上預(yù)測(cè)非性別的人口屬性是比較困難的任務(wù)。
12.6數(shù)據(jù)管理平臺(tái)
略
章節(jié)相關(guān)名詞
*TTL 生存時(shí)間 time to live
*SVD 奇異值分解 singular value decomposition
*LSA 潛在語(yǔ)義分析 Latent Semantic Analysis
*PLSI 概率潛在語(yǔ)義索引 Probabilistic Latent Semantic Indexing
*LDA 潛在狄利克雷分配 Latent Dirichlet Allocation
*CBOW Continuous Bag of Words
*BT 行為定向 Behavioral Targeting
*GLM 廣義線性模型 Generalized Linear Model