數(shù)據(jù)分析之-歸因分析

1 什么是歸因分析?

在復雜的數(shù)據(jù)時代,我們每天都會面臨產(chǎn)生產(chǎn)生的大量的數(shù)據(jù)以及用戶復雜的消費行為路徑,特別是在互聯(lián)網(wǎng)廣告行業(yè),在廣告投放的效果評估上,往往會產(chǎn)生一系列的問題:

哪些營銷渠道促成了銷售?

他們的貢獻率分別是多少?

而這些貢獻的背后,是源自于怎樣的用戶行為路徑而產(chǎn)生的?

如何使用歸因分析得到的結(jié)論,指導我們選擇轉(zhuǎn)化率更高的渠道組合?

歸因分析(Attribution Analysis)要解決的問題就是廣告效果的產(chǎn)生,其功勞應該如何合理的分配給哪些渠道。

實際上這類問題其實并沒有標準答案,因為真正的業(yè)務錯綜復雜,很難精準地把貢獻進行合理的分配,但歸因分析的需求又是如此高頻且要求很強的時效性,所以需要一些方法論的支撐來進行快速嘗試,快速定位問題。當然,多渠道歸因分析也不是萬能的,使用怎樣的分析模型最終還是取決于業(yè)務本身的特性以及考慮投入其中的成本。

2 常見歸因分析模型

末次歸因模型

也稱最后點擊模型,這種歸因模型將功勞100%分配給轉(zhuǎn)化前的最后一個渠道,即不管用戶發(fā)生了啥行為,只關注最后一次。這是最簡單、直接,也是應用最為廣泛的歸因模型。


優(yōu)點:首先它是最容易測量的歸因模型,在分析方面不容易發(fā)生錯誤。另外由于大部分追蹤的cookie存活期只有30-90天,對于顧客的行為路徑、周期比較長的場景,在做歸因分析的時候可能就會發(fā)生數(shù)據(jù)的丟失,而對于末次互動模型,這個數(shù)據(jù)跟蹤周期就不是那么特別重要了。

缺點:這種模型的弊端也是比較明顯,比如客戶是從收藏夾進入商品詳情頁然后形成了成交的,按照末次歸因模型就會把100%的功勞都歸功于收藏夾(直接流量)。但是真實的用戶行為路徑更接近于產(chǎn)生興趣、信任、購買意向、信息對比等各種環(huán)節(jié),這些都是其他渠道的功勞,在這個模型中則無法統(tǒng)計進來,而末次渠道的功勞評估會被大幅高估。

適用場景:短期的投放,轉(zhuǎn)化路徑少、周期短的業(yè)務快速提升效果,按照末次歸因模型,能比較好了解到底是哪個渠道對于最終的轉(zhuǎn)化有比較好的促進作用。

末次非直接點擊歸因模型

末次歸因模型的弊端是數(shù)據(jù)分析的準確性受到了大量的”直接流量”所誤導,所以對于末次非直接點擊模型,在排除掉直接流量后會得到稍微準確一點的分析結(jié)果。

在營銷分析里,直接流量通常被定義為手動輸入URL的訪客流量。然而,現(xiàn)實是市場上的所有分析工具都把沒有來源頁的流量視為直接流量。比如:文章里沒有加跟蹤代碼的鏈接、用戶直接復制粘貼URL訪問等等

從上面的案例中,我們可以想象,用戶是從淘寶收藏夾里點了一個商品然后進行了購買,但是實際上他可能是點了淘寶直通車后把這個商品加入到收藏夾的,那么在末次非直接點擊互動模型里,我們就可以把這個功勞歸功于淘寶直通車。

適用場景:如果你的公司認為,你們業(yè)務的直接流量大部分都被來自于被其他渠道吸引的客戶,需要排除掉直接流量,那么這種模型會很適合你們。

末次渠道互動模型

末次渠道互動模型會將100%的功勞歸于客戶在轉(zhuǎn)化前,最后一次點擊的廣告渠道。需要注意這里的”末次互動”是指任何你要測量的轉(zhuǎn)化目標之前的最后一次互動,轉(zhuǎn)化目標可能是銷售線索、銷售機會建立或者其他你可以自定義的目標。

優(yōu)點:這種模式的優(yōu)點是通常跟各渠道的標準一致,如Facebook Insight使用末次Facebook互動模型,谷歌廣告分析用的是末次谷歌廣告互動模型等等。

缺點:很明顯當你在多渠道同時投放的時候,會發(fā)生一個客戶在第一天點了Facebook的廣告,然后在第二天又點擊了谷歌廣告,最后并發(fā)生了轉(zhuǎn)化,那么在末次渠道模型中,F(xiàn)acebook和谷歌都會把這次轉(zhuǎn)化的100%功勞分別歸到自己的渠道上。這就導致各個部門的數(shù)據(jù)都看起來挺好的,各個渠道都高估了自己影響力,而實際效果則可能是折半,如果單獨使用這些歸因模型并且把他們整合到一個報告中,你可能會得到”翻倍甚至三倍”的轉(zhuǎn)化數(shù)據(jù)。

適用場景:單一渠道,或者已知某個渠道的價值特別大。

首次歸因模型

也稱首次點擊模型,這種歸因模型將功勞100%分配給第一個觸達渠道,即不管用戶發(fā)生了啥行為,只關注第一次。如果,末次互動是認為,不管你之前有多少次互動,沒有最后一次就沒有成交。那么首次互動就是認為,沒有我第一次的互動,你們剩下的渠道連互動都不會產(chǎn)生。換句話說,首次互動模型更加強調(diào)的是驅(qū)動用戶認知的、位于轉(zhuǎn)化漏斗最頂端的渠道。


優(yōu)點:是一種容易實施的單觸點模型,初次點擊的歸因會讓你明確潛在消費者是怎樣找到你的,且和最后點擊一樣,不需要大量的數(shù)據(jù)。

缺點:受限于數(shù)據(jù)跟蹤周期,對于用戶路徑長、周期長的用戶行為可能無法采集真正的首次行為,且初次點擊歸因并不能夠解釋所有后續(xù)所發(fā)生的用戶行為,對于后續(xù)的用戶行為沒有關注。

適用場景:一般是需要進行拉新的時候,公司處于市場開拓的時候,這個時候我們關心把更多的用戶先圈過來,那么用首次互動模型可以看出來哪些渠道對于業(yè)務拉新最有效。所以首次歸因模型對于沒什么品牌知名度、且重點在市場拓展,渠道優(yōu)化的公司,比較適用。

線性歸因模型

線性歸因是多觸點歸因模型中的一種,也是最簡單的一種,他將功勞平均分配給用戶路徑中的每一個觸點。


優(yōu)點:它是一個多觸點歸因模型,可以將功勞劃分給業(yè)務路徑中每個不同階段的營銷渠道,不用考慮不同渠道的價值權重,大家一視同仁,計算也不復雜。另外,它的計算方法比較簡單,計算過程中的價值系數(shù)調(diào)整也比較方便。

缺點:很明顯,線性平均劃分的方法不適用于某些渠道價值特別突出的業(yè)務,對于價值比價高的渠道,可能會“被平均”,因為這種渠道是靠質(zhì)量而不是數(shù)量贏得結(jié)果的。比如,一個客戶在線下某處看到了你的廣告,然后回家再用百度搜索,連續(xù)三天都通過百度進入了官網(wǎng),并在第四天成交。那么按照線性歸因模型,百度會分配到75%的權重,而線下某處的廣告得到了25%的權重,這很顯然并沒有給到線下廣告足夠的權重。

適用場景:根據(jù)線性歸因模型的特點,它更適用于企業(yè)期望在整個銷售周期內(nèi)保持與客戶的聯(lián)系,并維持品牌認知度的公司。在這種情況下,各個渠道在客戶的考慮過程中,都起到相同的促進作用。

時間衰減歸因模型

對于路徑上的渠道,距離轉(zhuǎn)化的時間越短的渠道,可以獲得越多的功勞權重。時間衰減歸因模型基于一種假設,他認為觸點越接近轉(zhuǎn)化,對轉(zhuǎn)化的影響力就越大。這種模型基于一個指數(shù)衰減的概念,一般默認周期是7天。也就是說,以轉(zhuǎn)化當天相比,轉(zhuǎn)化前7天的渠道,能分配50%權重,前14天的渠道分25%的權重,以此類推。


優(yōu)點:這個模型考慮了時間的作用,因為一般情況下也是時間越久對于用戶的轉(zhuǎn)化作用是越弱。相比線性歸因模型的平均分權重的方式,時間衰減模型讓不同渠道得到了不同的權重分配,當然前提是基于"觸點離轉(zhuǎn)化越近,對轉(zhuǎn)化影響力就越大"的前提是準確的情況下,這種模型是相對較合理的。

缺點:如果有的渠道天然處于轉(zhuǎn)化鏈路的起點,那么對于這些渠道是不公正的,因為它們總是距離轉(zhuǎn)化最遠的那個,永遠不會得到一個公平的權重。

適用場景:和末次歸因比較類似,適用于客戶決策周期短、銷售周期短、引導用戶完成轉(zhuǎn)化的場景的情況。比如,做短期的促銷,就打了兩天的廣告,那么這兩天的廣告理應獲得較高的權重。

位置歸因模型

基于位置的歸因模型,也叫U型歸因模型,它綜合了首次歸因、末次歸因、線性歸因,將第一次和最后一次觸點各貢獻40%,中間的所有觸點平均剩下的20%貢獻。


U型歸因模型也是一種多觸點歸因模型,實質(zhì)上是一種重視最初帶來線索和最終促成成交渠道的模型,一般它會給首次和末次互動渠道各分配40%的權重,給中間的渠道分配20%的權重,也可以根據(jù)實際情況來調(diào)整這里的比例。

U型歸因模型非常適合那些十分重視線索來源和促成銷售渠道的公司。該模型的缺點則是它不會考慮線索轉(zhuǎn)化之后的觸點的營銷效果,而這也使得它成為銷售線索報告或者只有銷售線索階段目標的營銷組織的理想歸因模型。

自定義模型

你可以根據(jù)自己對于業(yè)務的理解,創(chuàng)建你自己的模型,讓其具有更具體的業(yè)務性和目的性,并可將其來和其他默認模型做對比。

優(yōu)點:在這種模式下,你可以使用線性歸因、首次歸因、末次歸因、時間衰減歸因,以及位置歸因模型作為基準線,通過不斷地測試,調(diào)整各個渠道的權重,最好的效果是,它可以個性化地評估當前的業(yè)務,并可以隨著時間的推移進行優(yōu)化。

缺點:在沒有先做一些測試之前不要直接使用自定義模型,不要僅靠經(jīng)驗判斷哪些渠道的貢獻可能更大,實際數(shù)據(jù)上的表現(xiàn)可能會有所差異,需要基于數(shù)據(jù)的測試來進行判斷。

馬爾科夫鏈

馬爾科夫鏈模型來自于數(shù)學家Andrew Markov所定義的一種特殊的有序列,馬爾科夫鏈(Markov Chain),描述了一種狀態(tài)序列,其每個狀態(tài)值取決于前面有限個狀態(tài),馬爾科夫鏈是具有馬爾科夫性質(zhì)的隨機變量的一個數(shù)列。

馬爾科夫鏈思時間、狀態(tài)都是離散的馬爾科夫過程,是將來發(fā)生的事情,和過去的經(jīng)理沒有任何關系(只和當前有關系)。通俗的講:今天的事情只取決于昨天,而明天的事情只取決于今天。

谷歌的PageRank,就是利用了馬爾科夫模型。假設有A,B,C三個網(wǎng)頁,A鏈向B,B鏈上C。那么C分到的PR權重只由B決定,和A沒有任何關系。如果互聯(lián)網(wǎng)上所有的網(wǎng)頁不斷地重復計算PR,很容易可以想到這個PR值最后會收斂,并且區(qū)域一個穩(wěn)定的值,這也就是為什么它會被谷歌用來確定網(wǎng)頁等級。

回到歸因模型上,馬爾科夫鏈模型實質(zhì)就是:訪客下一次訪問某個渠道的概率,取決于這次訪問的渠道。

歸因模型的選擇,很大程度上決定轉(zhuǎn)化率計算結(jié)果,像前面講的首次互動、末次互動等模型,實際上需要人工來分配規(guī)則的算法,顯然它并不是一種“智能化”的模型選擇。而且因為各個推廣渠道的屬性和目的不同,我們也無法脫離用戶整個的轉(zhuǎn)化路徑來單獨進行計算。因此,馬爾科夫鏈歸因模型實質(zhì)上是一種以數(shù)據(jù)驅(qū)動的(Data-Driven)、更準確的歸因算法。

馬爾科夫鏈歸因模型適用于渠道多、數(shù)量大、有建模分析能力的公司。

夏普里值(Shapley Value)

夏普里值(Shapley Value)指所得與自己的貢獻匹配的一種分配方式,由諾貝爾獎獲得者夏普里(Lloyd Shapley)提出,它對合作博弈在理論上的重要突破及其以后的發(fā)展帶來了重大影響。

這里最終計算的值是特征i的重要程度。前面一部分分式表示的是權重, 后面一部分括號內(nèi)表示的是新增特征i前后的變化值。

我們?nèi)绾斡眠@個方法來分析不同渠道的貢獻度呢? 下面是一個例子。

假設有3個渠道:信息流(A),開屏(B),視頻前貼?,他們的獨自投放效果和兩兩投放效果如下圖所標識。

下面,我們來計算,每一個渠道的夏普里值,夏普里值的定義:是在各種可能的聯(lián)盟次序下,參與者對聯(lián)盟的邊際貢獻之和除以各種可能的聯(lián)盟組合。

三個渠道,有3*2種聯(lián)盟次序,具體計算如下:

因此,信息流的夏普里值為20,開屏的夏普里值為33.3,視頻前貼的夏普里值為46.6。

3 如何選擇歸因模型

上面這么多種歸因模型大概可以分成2類:

基于規(guī)則

預先為渠道設置了固定的權重值,好處是計算簡單、數(shù)據(jù)容易合并、渠道之間互不影響,當然你也可以根據(jù)實際需要去調(diào)整他們的權重配比。

基于算法

每個渠道的權重值不一樣,會根據(jù)算法和時間,不同渠道的權重值會發(fā)生變化(數(shù)據(jù)驅(qū)動)。

在選擇用何種歸因模型之前,應該先想清楚業(yè)務模式:

如果是新品牌、新產(chǎn)品推廣,企業(yè)應該給予能給我們帶來更多新用戶的渠道足夠的權重,那么我們應該選擇首次互動模型;

如果是投放了單一的競價渠道,那么我們應該選取末次互動歸因模型或者渠道互動歸因模型;

如果公司很在乎線索來源和促成銷售渠道,那么我們應該選擇U型歸因模型;

如果公司的渠道多、數(shù)據(jù)量大,并且由永久用戶標識,基于算法的歸因模型能夠為營銷分析提供巨大的幫助;

……

總的來說,沒有完美的歸因模型。任何模型都存在他的局限性和不足,如何有效地結(jié)合客觀數(shù)據(jù)與主觀推測,是用好歸因模型的重要能力前提。

業(yè)界使用情況

目前國際一線互聯(lián)網(wǎng)公司,谷歌系的產(chǎn)品用的是基于Shapley值,如Google Attribution 360,Google Analytics 360,DoubleClick和AdWords,是要付費產(chǎn)品才可以使用。

Facebook也有使用歸因算法,但并未公布使用的具體算法是哪個,只是說定期更新算法模型,F(xiàn)acebook的是預估增量影響為各個觸點分配轉(zhuǎn)化功,且只能衡量 Facebook、Instagram、Audience Network 和 Messenger 上的營銷活動,我估計用的是增量模型(Uplift Modeling),這個模型在騰訊和阿里都有應用。

Adobe Analytics是基于Harsanyi Dividend,Harsanyi Dividend是沙普利值的延伸。可能只有Adobe使用,網(wǎng)絡上的信息非常少,Adobe也只是文檔放了兩個原文鏈接。

國內(nèi)有些公司使用的是Markov Chain。

4 歸因分析的實際案例

歸因分析模型的計算原理演繹

下圖是通過神策分析所得到某電商用戶行為序列圖示。在圖示中,各字母代表的含義是 D-廣告位、Q-商品詳情頁、D-推薦位、M-購買商品。目標轉(zhuǎn)化事件是“購買商品”,為了更好地“配對”,運營人員將 M1(目標轉(zhuǎn)化事件——購買商品1)與 Q1(前項關聯(lián)事件——商品 1 詳情)設置了屬性關聯(lián),同樣將 M2 與 Q2 進行關聯(lián)。

該場景中,發(fā)生了兩次購買行為,神策分析進行歸因時會進行兩輪計算,產(chǎn)生計算結(jié)果。

第一輪計算:

第一步,從 M1 開始向前遍歷尋找 Q1 以及離 Q1 最近發(fā)生的廣告瀏覽。

如圖所示,不難得到結(jié)果 M1=[Dc,Dc,Da]。

第二步,我們帶入分析模型中,進行功勞的分配。運營人員選擇**“位置歸因”**的分析模型,根據(jù)“位置歸因”的計算邏輯,第一個“待歸因事件”和最后一個“待歸因事件”各占 40%,中間平分 20%。

第一輪我們得到結(jié)果:Dc=0.4;Dc=0.2;Da=0.4

第二輪計算:

從 M2 開始向前遍歷尋找 Q2 以及離 Q2 最近發(fā)生的廣告瀏覽。

這里值得強調(diào)的是,即使第一輪中計算過該廣告,在本輪計算時依然會參與到計算中,因為經(jīng)常會出現(xiàn)一個廣告位同時推薦多個商品的情況。

我們不難得到結(jié)論,M2=[Dc,Db]。基于這個結(jié)論,我們通過“位置歸因” 得到結(jié)果:Dc=0.5;Db=0.5**(不足 3 個時會有特殊處理)**。

經(jīng)過兩輪計算,我們得出結(jié)論:Dc=1.1;Da=0.4;Db=0.5,則廣告位 c 的貢獻最大、廣告位 b 貢獻次之,廣告位 a 的貢獻最小。

以電商用戶購物場景為例

用戶進入App到最終產(chǎn)生支付購買行為,中間可能會有以下關鍵的渠道和坑位:

點擊搜索欄進行搜索進入商詳頁

點擊首頁運營位進入商詳頁

通過點擊push消息進入商詳頁

通過參與限時活動進入商詳頁

通過微信公眾號推動消息進入商詳頁

通過購物車等坑位直接轉(zhuǎn)化

我們對近30日成交訂單進行歸因分析,此處我們選用的歸因計算方式是“末次歸因”。歸因窗口期設為 1 天,即觀察用戶在發(fā)生訂單行為之前的 24 時之內(nèi)點擊了哪些坑位。然后再找到離“提交訂單”最 近的一個坑位點擊行為。

最終得到的結(jié)果如上圖,APP 內(nèi)多個坑位中,點擊搜索欄和直接轉(zhuǎn)化對于成單的 貢獻分別占據(jù)了 52.67%、27.56%。運營位、活動、Push和微信公眾號的相關推薦僅帶來不足 10% 的成單貢獻。通過這 個結(jié)果,可以清晰地反映如下幾點信息:

最終的貢獻度反映了不同坑位對最終成單轉(zhuǎn)化的貢獻及互相之間的差異。

對比不同坑位的有效轉(zhuǎn)化點擊率,可得知不同坑位對用戶的吸引程度。

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容