激情四射一区二区三区,亚洲色图综合网址

要提高在線廣告的效果，受眾定向是最重要的核心技術(shù)之一。

12.1 受眾定向技術(shù)分類

首先按照其有效性和在廣告信息接受過(guò)程中起作用的階段給出一些市場(chǎng)上比較流行的定向方式，如下圖所示。

常見受眾定向方法

注：這里建議結(jié)合計(jì)算廣告第二章提到的廣告接受過(guò)程來(lái)理解http://www.itdecent.cn/p/169256d037f4

總體上看，按照計(jì)算框架的不同，這些受眾定向技術(shù)可以分為以下三種類型。

（1）用戶標(biāo)簽，即可以表示成t(u)形式的標(biāo)簽，這是以用戶歷史行為數(shù)據(jù)為依據(jù)，為用戶打上的標(biāo)簽。

（2）上下文標(biāo)簽，即可以表示成t(c)形式的標(biāo)簽，這是根據(jù)用戶當(dāng)前的訪問(wèn)行為得到的即時(shí)標(biāo)簽。

（3）定制化標(biāo)簽，即可以表示成t(a,u)形式的標(biāo)簽，這也是一種用戶標(biāo)簽，不同之處在于是針對(duì)某一特定廣告主而言的，因而必須根據(jù)廣告主的某些屬性或數(shù)據(jù)來(lái)加工。

以上各種定向中，地域定向、頻道定向和上下文定向?qū)儆趖(c)的定向方式；人口屬性定向、行為定向?qū)儆趖(u)的定向方式；而重定向和新客推薦（look-alike）則是t(a,u)的定向方式。各種定向的標(biāo)簽被應(yīng)用于根據(jù)用戶和環(huán)境信息選取廣告候選的過(guò)程，因而對(duì)廣告投送的結(jié)果有比較顯著的影響。t(c)和t(u)兩種定向方式，一個(gè)是根據(jù)當(dāng)前環(huán)境信息，一個(gè)是根據(jù)歷史日志數(shù)據(jù)，因而在技術(shù)方案上有比較大的區(qū)別。

12.2 上下文定向(t(c))

從打標(biāo)簽的方法上來(lái)看，上下文定向主要有以下幾種思路。

（1）用規(guī)則將頁(yè)面歸類到一些頻道或主題分類。例如，將auto.sohu.com下的網(wǎng)頁(yè)歸在“汽車”這個(gè)分類中。這種方法相對(duì)簡(jiǎn)單。

（2）提取頁(yè)面中的關(guān)鍵詞。這是在將搜索引擎的關(guān)鍵詞匹配技術(shù)推廣到媒體廣告上時(shí)自然產(chǎn)生的，也是上下文定向的基本方法。

（3）提取頁(yè)面入鏈（即進(jìn)入當(dāng)前地址的源鏈接）錨文本中的關(guān)鍵詞。這需要一個(gè)全網(wǎng)的爬蟲作支持，因此已經(jīng)超出了一般意義下廣告系統(tǒng)的范疇，有興趣的讀者可以參考搜索引擎方面的有關(guān)文獻(xiàn)。

（4）提取頁(yè)面流量來(lái)源中的搜索關(guān)鍵詞。這種方法除了頁(yè)面內(nèi)容，也需要頁(yè)面訪問(wèn)的日志數(shù)據(jù)作支持，從技術(shù)方案上看更接近后面介紹的行為定向。

（5）用主題模型將頁(yè)面內(nèi)容映射到語(yǔ)義空間的一組主題上，這樣做的目的是為了泛化廣告主的需求，提高市場(chǎng)的流動(dòng)性和競(jìng)價(jià)水平。

確定了對(duì)上下文頁(yè)面打標(biāo)簽的方法以后，在在線廣告投放時(shí)，頁(yè)面標(biāo)簽系統(tǒng)需要對(duì)廣告投放機(jī)查詢的某一個(gè)URL快速返回其對(duì)應(yīng)的標(biāo)簽。復(fù)雜的打標(biāo)簽計(jì)算是不可能馬上完成的，不過(guò)在廣告的問(wèn)題中，某一次展示時(shí)標(biāo)簽的缺失并不是致命性的。根據(jù)廣告的這一特點(diǎn)，可以用一種半在線的方式實(shí)現(xiàn)頁(yè)面抓取和打標(biāo)簽的邏輯。

半在線抓取系統(tǒng)

半在線抓取系統(tǒng)的工作原理，簡(jiǎn)單來(lái)說(shuō)就是，當(dāng)在線的廣告請(qǐng)求到來(lái)時(shí)進(jìn)行如下操作。

（1）如果該請(qǐng)求的上下文URL在緩存中存在，那么直接返回其對(duì)應(yīng)的標(biāo)簽。

（2）如果該URL在服務(wù)中不存在，為了廣告請(qǐng)求能及時(shí)得到處理，當(dāng)時(shí)返回空的標(biāo)簽集合，同時(shí)立刻向后臺(tái)的抓取隊(duì)列中加入此URL，這樣在較短的一段時(shí)間（通常為秒至分鐘量級(jí)）之后該URL就被抓取下來(lái)并打上標(biāo)簽存入緩存中。

（3）考慮到頁(yè)面內(nèi)容可能會(huì)不定期更新，可以設(shè)置緩存合適的TTL（Time to Live）以做到自動(dòng)更新標(biāo)簽。

半在線的上下文抓取系統(tǒng)非常典型地揭示了在線廣告系統(tǒng)弱一致的業(yè)務(wù)需求：只要保證大多數(shù)的廣告決策最優(yōu)正常，很少量的次優(yōu)決策甚至隨機(jī)決策都是可以接受的。

12.3 文本主題挖掘(t(c))

根據(jù)上下文內(nèi)容進(jìn)行受眾定向的粒度可以精細(xì)到關(guān)鍵詞，也可以粗略到頁(yè)面的類型。除了這兩種極端情況，我們也可以考慮將頁(yè)面內(nèi)容直接映射到一組有概括性意義的主題上，比如將一個(gè)講編程語(yǔ)言的博客頁(yè)面映射到“IT 技術(shù)”這樣的主題上。假設(shè)這一文檔集合主題模型對(duì)應(yīng)著{1，2，···，T}這一組主題，我們的目的就是對(duì)每個(gè)文檔得到其在這些主題上的強(qiáng)度{zn1,zn2,···,znT}。

LSA模型

通過(guò)對(duì)文檔和詞組成的矩陣進(jìn)行矩陣分解，找到這一矩陣的主要模式，這一方法稱為潛在語(yǔ)義分析。LSA的分解過(guò)程可以表示如下：

LSA

其中K為矩陣X的秩，s1,s2,...sk為X的K個(gè)奇異值。左側(cè)的矩陣就是將潛在語(yǔ)義空間中的主題映射到某個(gè)文檔的變換矩陣，而右側(cè)的矩陣則是主題映射到某個(gè)文檔詞表中某個(gè)詞的變換矩陣。最多可以得到的主題數(shù)目等于矩陣X 的秩K，不過(guò)一般情況下，都會(huì)選擇一個(gè)遠(yuǎn)小于K 的主題數(shù)目用來(lái)建模。

PLSI模型

LSA類似的思想也可以用概率建模的方式來(lái)表達(dá)，這就是概率潛在語(yǔ)義索引PLSI。PLSI方法是通過(guò)對(duì)文檔生成的過(guò)程進(jìn)行概率建模來(lái)進(jìn)行主題分析。這一模型下的文檔生成過(guò)程可以表述為以下兩個(gè)步驟。
（1）根據(jù)每個(gè)文檔dn 生成對(duì)應(yīng)的一個(gè)主題z。
（2）給定主題，對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布p(wn|z,β)，據(jù)此生成一個(gè)詞wi；其中的參數(shù)β=(β1,···,βK)，而βk即為當(dāng)zk =1時(shí)對(duì)應(yīng)的多項(xiàng)式分布參數(shù)。

對(duì)應(yīng)于上面的生成過(guò)程，文檔集X 的生成似然值可以表達(dá)為：

PLSI

LDA模型

貝葉斯方法也可以應(yīng)用于PLSI模型，這樣做的目的是在文檔信息不足或者噪聲較大時(shí)能夠利用貝葉斯的框架對(duì)結(jié)果進(jìn)行有效的平滑。這一思路也就產(chǎn)生了潛在狄利克雷分配（Latent Dirichlet Allocation，LDA）方法 [10] 。在LDA方法中，我們視PLSI模型的參數(shù)為隨機(jī)變量，對(duì)于某一篇文檔，其生成過(guò)程可以描述如下。

（1）根據(jù)一個(gè)泊松分布選擇文檔的長(zhǎng)度M。
（2）根據(jù)ω 的先驗(yàn)分布Dir(α)生成ω。
（3）對(duì)每個(gè)文檔中的詞 m∈{1，···，M}，根據(jù) Multi(ω)分布選擇一個(gè)主題 z；給定主題，對(duì)應(yīng)一個(gè)詞的多項(xiàng)式分布p(wm |z,β)，據(jù)此生成一個(gè)詞wm。

把這一生成過(guò)程與 PLSI對(duì)比可以知道，這相當(dāng)于 PLSI的貝葉斯版本，即給 Topic的分布 w 加上了先驗(yàn)分布，而先驗(yàn)分布采用的是共軛形式，即狄利克雷分布。

如果采用經(jīng)驗(yàn)貝葉斯的方法來(lái)確定超參數(shù)α，那么此時(shí)原來(lái)的參數(shù)ω就變成了隱變量，優(yōu)化的參數(shù)除了α，還包括參數(shù)β，優(yōu)化的目標(biāo)函數(shù)可以寫成：

LDA

LDA 模型常用的更新方法是吉布斯采樣法。

詞嵌入word2vec

詞嵌入將詞級(jí)別的語(yǔ)義信息映射成稠密的實(shí)數(shù)向量來(lái)表達(dá)。具體來(lái)說(shuō)，把詞典大小的維度降維到一個(gè)K維的特征空間，每個(gè)詞對(duì)應(yīng)特征空間內(nèi)的一個(gè)點(diǎn)，即一個(gè)K維的稠密的實(shí)數(shù)向量。相近的詞會(huì)出現(xiàn)在特征空間中離得更近的地方，從而使詞的表示具有一定的泛化性。

word2vec一般有skip-gram和cbow兩種模型學(xué)習(xí)方式，由于較為通用，這里不再陳述。

12.4 行為定向(t(u))

t(u)的受眾定向方式包括從用戶網(wǎng)上瀏覽記錄加工得到的興趣定向以及根據(jù)用戶歷史所在的地域得到的用戶主要居住地的“Where on Earth”定向等。由于這些都是根據(jù)用戶的歷史行為進(jìn)行挖掘的問(wèn)題，因此把它們統(tǒng)稱為行為定向（Behaviorial Targeting，BT）。

行為定向需要進(jìn)行大規(guī)模的數(shù)據(jù)挖掘，是在線廣告中數(shù)據(jù)利用和變現(xiàn)最重要的計(jì)算問(wèn)題之一。行為定向的用到的標(biāo)簽體系、建模方法、特征生成和評(píng)測(cè)指標(biāo)等問(wèn)題將在下面分別討論。

行為定向建模問(wèn)題

行為定向問(wèn)題的目標(biāo)是找出在某個(gè)類型的廣告上 eCPM相對(duì)較高的人群。如果假設(shè)在該類型的廣告上點(diǎn)擊價(jià)值近似一致，那么問(wèn)題就轉(zhuǎn)化為找出在該類型廣告上點(diǎn)擊率較高的人群。

行為定向模型要做的就是把用戶的行為與頻繁性參數(shù)λt聯(lián)系起來(lái)。如果利用線性模型聯(lián)系用戶行為和λt，則有：

行為定向模型

這里的wt=(wt1,···,wtN) 即為標(biāo)簽t對(duì)應(yīng)的行為定向模型需要優(yōu)化的參數(shù)，n表示不同的行為類型，如搜索、網(wǎng)頁(yè)瀏覽、購(gòu)買等。將原始行為 b 先經(jīng)過(guò)特征選擇函數(shù) xtn(b)，再將結(jié)果作為特征用在模型中。

這是工程上一種非常典型的建模思路：當(dāng)面對(duì)一個(gè)多自變量的回歸問(wèn)題時(shí)，可以先根據(jù)目標(biāo)值的特性選擇合適的指數(shù)族分布來(lái)描述，并用線性模型將多個(gè)自變量和指數(shù)族分布的參數(shù)聯(lián)系起來(lái)。這樣做，可以利用線性模型更新簡(jiǎn)單和可解釋性強(qiáng)的特點(diǎn)，同時(shí)又對(duì)目標(biāo)變量的類型有較強(qiáng)的適應(yīng)性。這種建模方法稱為廣義線性模型（Generalized Linear Model，GLM）。類似于邏輯回歸、softmax回歸都屬于廣義線性模型。

行為定向特征生成

行為定向特征的生成過(guò)程有兩點(diǎn)需要討論：一是特征選擇函數(shù) x tn 的確定，二是公式12.5對(duì)應(yīng)模型的訓(xùn)練集的組織和生成方式。行為定向的特征生成過(guò)程，由于樣本量比較大，處理的高效性是在工程中主要考慮的問(wèn)題。

最常用的特征選擇函數(shù)xtn(b)是將一段時(shí)間內(nèi)的原始用戶行為映射到確定的標(biāo)簽體系上，同時(shí)計(jì)算出各行為在對(duì)應(yīng)標(biāo)簽上的累積強(qiáng)度作為模型的特征輸入。模型中wtn的作用實(shí)際上就是在調(diào)整搜索、瀏覽等不同行為類型的重要程度。

這里要注意，我們考慮的是“一段時(shí)間內(nèi)的行為”，因?yàn)檫^(guò)于久遠(yuǎn)的行為對(duì)于用戶興趣的貢獻(xiàn)是很小的。如何將行為累計(jì)控制在一段時(shí)間以內(nèi)，工程上有兩種常用的方法，分別是滑動(dòng)窗口法和時(shí)間衰減法，兩者的計(jì)算公式分別為：

滑動(dòng)窗口法

時(shí)間衰減法

一般而言，時(shí)間衰減法更為通用。

各類行為的標(biāo)簽化方法（xtn(b)）

特征選擇函數(shù)x tn （b）的計(jì)算方法，即搜索、廣告點(diǎn)擊、網(wǎng)頁(yè)瀏覽等行為映射到一個(gè)或多個(gè)定向標(biāo)簽上。這是行為定向計(jì)算過(guò)程中最關(guān)鍵的環(huán)節(jié)，以下介紹工程中的實(shí)用方案。

（1）網(wǎng)頁(yè)瀏覽、分享等與內(nèi)容相關(guān)的行為可以通過(guò) 之前提到的有監(jiān)督文本主題模型的方法，將其映射到預(yù)先定義好的標(biāo)簽體系上，也可以直接提取內(nèi)容中的關(guān)鍵詞作為標(biāo)簽。

（2）廣告點(diǎn)擊等與廣告活動(dòng)相關(guān)的行為可以轉(zhuǎn)化為對(duì)廣告落地頁(yè)內(nèi)容的分析，因此可以使用與網(wǎng)頁(yè)瀏覽相同的方法。

（3）最值得重視的是搜索、搜索點(diǎn)擊等與查詢相關(guān)的行為。由于查詢的信息量較少，很難直接提取標(biāo)簽?？尚械姆桨赣袃煞N，都要用到搜索引擎：第一種方案是利用搜索引擎做內(nèi)容擴(kuò)展，即將查詢送入搜索引擎，用返回的若干結(jié)果描述或者鏈接頁(yè)的內(nèi)容作為該查詢對(duì)應(yīng)的內(nèi)容，這種方案借助通用搜索引擎即可；第二種方案是對(duì)查詢進(jìn)行某垂直領(lǐng)域分類時(shí)，直接利用相應(yīng)垂直媒體的標(biāo)簽體系和搜索引擎。

（4）轉(zhuǎn)化、預(yù)轉(zhuǎn)化等需求方行為往往可以對(duì)應(yīng)到一個(gè)單品。同樣，利用該單品的分類信息可以將其映射到某個(gè)標(biāo)簽上，

12.5人口屬性預(yù)測(cè)

年齡、性別、教育程度、收入水平等人口屬性并不屬于用戶的興趣，而是用戶確定的特點(diǎn)描述。不過(guò)在實(shí)際定向廣告系統(tǒng)中，除了一些實(shí)名的社交網(wǎng)絡(luò)以外，規(guī)?；孬@得人口屬性比較困難，因此往往還是需要數(shù)據(jù)驅(qū)動(dòng)的模型，以用戶的行為為基礎(chǔ)自動(dòng)預(yù)測(cè)其人口屬性。

有很多機(jī)器學(xué)習(xí)模型都可以用于性別預(yù)測(cè)問(wèn)題，比如采用最大后驗(yàn)概率的框架，則預(yù)測(cè)問(wèn)題可以表示成：
其他的模型，如支持向量機(jī)（Support Vector Machine，SVM）、AdaBoost 等，都可以考慮，需要根據(jù)自己的數(shù)據(jù)特點(diǎn)具體判斷哪種模型更合理。

除了性別以外的其他人口屬性用簡(jiǎn)單的分類模型并不太準(zhǔn)確。以年齡為例，假設(shè)我們把標(biāo)簽設(shè)定成五個(gè)年齡段，那么將第一個(gè)年齡段的認(rèn)錯(cuò)分到第二個(gè)年齡段與錯(cuò)分到第三個(gè)年齡段的代價(jià)應(yīng)該是不同的，而如果采用簡(jiǎn)單的5個(gè)類的分類模型，這一差別就被忽略了。因此，需要在分類模型中明確考慮不同類之間的錯(cuò)分代價(jià)，其他的屬性如教育程度、收入水平也類似。不過(guò)總體上說(shuō)，從用戶行為上預(yù)測(cè)非性別的人口屬性是比較困難的任務(wù)。

12.6數(shù)據(jù)管理平臺(tái)

略

章節(jié)相關(guān)名詞

*TTL 生存時(shí)間 time to live
*SVD 奇異值分解 singular value decomposition
*LSA 潛在語(yǔ)義分析 Latent Semantic Analysis
*PLSI 概率潛在語(yǔ)義索引 Probabilistic Latent Semantic Indexing
*LDA 潛在狄利克雷分配 Latent Dirichlet Allocation
*CBOW Continuous Bag of Words
*BT 行為定向 Behavioral Targeting
*GLM 廣義線性模型 Generalized Linear Model

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

閱讀筆記-計(jì)算廣告第十二章-受眾定向核心技術(shù)

閱讀筆記-計(jì)算廣告第十二章-受眾定向核心技術(shù)

12.1 受眾定向技術(shù)分類