一、什么是歸因分析?
在復(fù)雜的數(shù)據(jù)時代,我們每天都會面臨產(chǎn)生產(chǎn)生的大量的數(shù)據(jù)以及用戶復(fù)雜的消費行為路徑,特別是在互聯(lián)網(wǎng)廣告行業(yè),在廣告投放的效果評估上,往往會產(chǎn)生一系列的問題:
· 哪些營銷渠道促成了銷售?
· 他們的貢獻率分別是多少?
· 而這些貢獻的背后,是源自于怎樣的用戶行為路徑而產(chǎn)生的?
· 如何使用歸因分析得到的結(jié)論,指導(dǎo)我們選擇轉(zhuǎn)化率更高的渠道組合?
歸因分析(Attribution Analysis)要解決的問題就是廣告效果的產(chǎn)生,其功勞應(yīng)該如何合理的分配給哪些渠道。
你可能第一反應(yīng)就是:當(dāng)然是我點了哪個廣告,然后進去商品詳情頁產(chǎn)生了購買以后,這個功勞就全部歸功于這個廣告呀!沒有錯,這也是當(dāng)今最流行的分析方法,最簡單粗暴的單渠道歸因模型------這種方法通常將銷售轉(zhuǎn)化歸功于消費者第一次(首次互動模型,F(xiàn)irst Model)或者最后一次接觸(末次互動模型,Last Model)的渠道。但是顯然,這是一個不夠嚴謹和準(zhǔn)確的分析方法。
舉個例子:
小陳同學(xué)在手機上看到了朋友圈廣告發(fā)布了最新的蘋果手機,午休的時候刷抖音看到了有網(wǎng)紅在評測最新的蘋果手機,下班在地鐵上刷朋友圈的時候發(fā)現(xiàn)已經(jīng)有小伙伴收到手機在曬圖了,于是喝了一杯江小白壯壯膽回家跟老婆申請經(jīng)費,最后老婆批準(zhǔn)了讓他去京東買,有保障。那么請問,朋友圈廣告、抖音、好友朋友圈、京東各個渠道對這次成交分別貢獻了多少價值?-----太難了,筆者也不知道

再舉個例子:下圖是某電商用戶行為序列圖示,各字母代表的含義是D-廣告位,Q-商品詳情頁,D-推薦位,M-購買商品。
那么請問,Da、Db、Dc這三種廣告位對這次用戶購買行為的貢獻率分別是多少?------這個問題相對簡單點,等你看完文章自然就懂了!

我們發(fā)現(xiàn),現(xiàn)實情況往往是很復(fù)雜的多渠道投放,在衡量其貢獻價值以及做組合渠道投放力度的分配時,只依靠單渠道歸因分析得到的結(jié)果和指導(dǎo)是不科學(xué)的,于是引入了多渠道歸因分析的方法。當(dāng)然,多渠道歸因分析也不是萬能的,使用怎樣的分析模型最終還是取決于業(yè)務(wù)本身的特性以及考慮投入其中的成本。
二、幾種常見的歸因模型
1、末次互動模型
也稱,最后點擊模型-----最后一次互動的渠道獲得100%的功勞,這是最簡單、直接,也是應(yīng)用最為廣泛的歸因模型。

優(yōu)點:首先它是最容易測量的歸因模型,在分析計方面不容易發(fā)生錯誤。另外由于大部分追蹤的cookie存活期只有30-90天(淘寶廣告的計算周期最長只有15天),對于顧客的行為路徑、周期比較長的場景,在做歸因分析的時候可能就會發(fā)生數(shù)據(jù)的丟失,而對于末次互動模型,這個數(shù)據(jù)跟蹤周期就不是那么特別重要了。
弊端:這種模型的弊端也是比較明顯,比如客戶是從收藏夾進入商品詳情頁然后形成了成交的,按照末次歸因模型就會把100%的功勞都歸功于收藏夾(直接流量)。但是真實的用戶行為路徑更接近于產(chǎn)生興趣、信任、購買意向、信息對比等各種環(huán)節(jié),這些都是其他渠道的功勞,在這個模型中則無法統(tǒng)計進來,而末次渠道的功勞評估會被大幅高估。
適用于:轉(zhuǎn)化路徑少、周期短的業(yè)務(wù),或者就是起臨門一腳作用的廣告,為了吸引客戶購買,點擊直接落地到商品詳情頁。
2、末次非直接點擊互動模型
上面講到的末次互動模型的弊端是數(shù)據(jù)分析的準(zhǔn)確性受到了大量的"直接流量"所誤導(dǎo),所以對于末次非直接點擊模型,在排除掉直接流量后會得到稍微準(zhǔn)確一點的分析結(jié)果。
在營銷分析里,直接流量通常被定義為手動輸入URL的訪客流量。然而,現(xiàn)實是市場上的所有分析工具都把沒有來源頁的流量視為直接流量。比如:文章里沒有加跟蹤代碼的鏈接、用戶直接復(fù)制粘貼URL訪問等等
從上面的案例中,我們可以想象,用戶是從淘寶收藏夾里點了一個商品然后進行了購買,但是實際上他可能是點了淘寶直通車后把這個商品加入到收藏夾的,那么在末次非直接點擊互動模型里,我們就可以把這個功勞歸功于淘寶直通車。
適用于:如果你的公司認為,你們業(yè)務(wù)的直接流量大部分都被來自于被其他渠道吸引的客戶,需要排除掉直接流量,那么這種模型會很適合你們。
3、末次渠道互動模型
末次渠道互動模型會將100%的功勞歸于客戶在轉(zhuǎn)化前,最后一次點擊的廣告渠道。需要注意這里的"末次互動"是指任何你要測量的轉(zhuǎn)化目標(biāo)之前的最后一次互動,轉(zhuǎn)化目標(biāo)可能是銷售線索、銷售機會建立或者其他你可以自定義的目標(biāo)。
優(yōu)點:這種模式的優(yōu)點是通常跟各渠道的標(biāo)準(zhǔn)一致,如Facebook Insight使用末次Facebook互動模型,谷歌廣告分析用的是末次谷歌廣告互動模型等等。
弊端:很明顯當(dāng)你在多渠道同時投放的時候,會發(fā)生一個客戶在第一天點了Facebook的廣告,然后在第二天又點擊了谷歌廣告,最后并發(fā)生了轉(zhuǎn)化,那么在末次渠道模型中,F(xiàn)acebook和谷歌都會把這次轉(zhuǎn)化的100%功勞分別歸到自己的渠道上。這就導(dǎo)致各個部門的數(shù)據(jù)都看起來挺好的,各個渠道都高估了自己影響力,而實際效果則可能是折半,如果單獨使用這些歸因模型并且把他們整合到一個報告中,你可能會得到"翻倍甚至三倍"的轉(zhuǎn)化數(shù)據(jù)。
適用于:單一渠道,或者已知某個渠道的價值特別大
4、首次互動模型
首次互動的渠道獲得100%的功勞。
如果,末次互動是認為,不管你之前有多少次互動,沒有最后一次就沒有成交。那么首次互動就是認為,沒有我第一次的互動,你們剩下的渠道連互動都不會產(chǎn)生。
換句話說,首次互動模型更加強調(diào)的是驅(qū)動用戶認知的、位于轉(zhuǎn)化漏斗最頂端的渠道。
優(yōu)點:是一種容易實施的單觸點模型
弊端:受限于數(shù)據(jù)跟蹤周期,對于用戶路徑長、周期長的用戶行為可能無法采集真正的首次互動。
適用于:這種模型適用于沒什么品牌知名度的公司,關(guān)注能給他們帶來客戶的最初的渠道,對于擴展市場很有幫助的渠道。
5、線性歸因模型
對于路徑上所有的渠道,平等地分配他們的貢獻權(quán)重。

線性歸因是多觸點歸因模型中的一種,也是最簡單的一種,他將功勞平均分配給用戶路徑中的每一個觸點。
優(yōu)點:他是一個多觸點歸因模型,可以將功勞劃分給轉(zhuǎn)化漏斗中每個不同階段的營銷渠道。另外,他的計算方法比較簡單,計算過程中的價值系數(shù)調(diào)整也比較方便。
弊端:很明顯,線性平均劃分的方法不適用于某些渠道價值特別突出的業(yè)務(wù)。比如,一個客戶在線下某處看到了你的廣告,然后回家再用百度搜索,連續(xù)三天都通過百度進入了官網(wǎng)(真實用戶場景也許就是用戶懶得記錄或者收藏官網(wǎng)地址),并在第四天成交。那么按照線性歸因模型,百度會分配到75%的權(quán)重,而線下某處的廣告得到了25%的權(quán)重,這很顯然并沒有給到線下廣告足夠的權(quán)重。
適用于:根據(jù)線性歸因模型的特點,他更適用于企業(yè)期望在整個銷售周期內(nèi)保持與客戶的聯(lián)系,并維持品牌認知度的公司。在這種情況下,各個渠道在客戶的考慮過程中,都起到相同的促進作用。
6、時間衰減歸因模型
對于路徑上的渠道,距離轉(zhuǎn)化的時間越短的渠道,可以獲得越多的功勞權(quán)重。

時間衰減歸因模型基于一種假設(shè),他認為觸點越接近轉(zhuǎn)化,對轉(zhuǎn)化的影響力就越大。這種模型基于一個指數(shù)衰減的概念,一般默認周期是7天。也就是說,以轉(zhuǎn)化當(dāng)天相比,轉(zhuǎn)化前7天的渠道,能分配50%權(quán)重,前14天的渠道分25%的權(quán)重,以此類推...
優(yōu)點:相比線性歸因模型的平均分權(quán)重的方式,時間衰減模型讓不同渠道得到了不同的權(quán)重分配,當(dāng)然前提是基于"觸點離轉(zhuǎn)化越近,對轉(zhuǎn)化影響力就越大"的前提是準(zhǔn)確的情況下,這種模型是相對較合理的。
弊端:這種假設(shè)的問題就是,在漏洞頂部的營銷渠道永遠不會得到一個公平的分數(shù),因為它們總是距離轉(zhuǎn)化最遠的那個。
適用于:客戶決策周期短、銷售周期短的情況。比如,做短期的促銷,就打了兩天的廣告,那么這兩天的廣告理應(yīng)獲得較高的權(quán)重。
7、基于位置的歸因模型(U型歸因)
基于位置的歸因模型,也叫U型歸因模型,它其實是混合使用了首次互動歸因和末次互動歸因的結(jié)果。

U型歸因模型也是一種多觸點歸因模型,實質(zhì)上是一種重視最初帶來線索和最終促成成交渠道的模型,一般它會給首次和末次互動渠道各分配40%的權(quán)重,給中間的渠道分配20%的權(quán)重,也可以根據(jù)實際情況來調(diào)整這里的比例。
U型歸因模型非常適合那些十分重視線索來源和促成銷售渠道的公司。該模型的缺點則是它不會考慮線索轉(zhuǎn)化之后的觸點的營銷效果,而這也使得它成為銷售線索報告或者只有銷售線索階段目標(biāo)的營銷組織的理想歸因模型。
歸因分析模型的計算原理演繹
以下,我們通過神策數(shù)據(jù)提供的歸因模式,做一次計算原理的演繹:
下圖是通過神策分析所得到某電商用戶行為序列圖示。在圖示中,各字母代表的含義是 D-廣告位、Q-商品詳情頁、D-推薦位、M-購買商品。目標(biāo)轉(zhuǎn)化事件是“購買商品”,為了更好地“配對”,運營人員將 M1(目標(biāo)轉(zhuǎn)化事件——購買商品1)與 Q1(前項關(guān)聯(lián)事件——商品 1 詳情)設(shè)置了屬性關(guān)聯(lián),同樣將 M2 與 Q2 進行關(guān)聯(lián)。

該場景中,發(fā)生了兩次購買行為,神策分析進行歸因時會進行兩輪計算,產(chǎn)生計算結(jié)果。
(一)第一輪計算:
第一步,從 M1 開始向前遍歷尋找 Q1 以及離 Q1 最近發(fā)生的廣告瀏覽。

如圖所示,不難得到結(jié)果 M1=[Dc,Dc,Da]。
第二步,我們帶入分析模型中,進行功勞的分配。運營人員選擇“位置歸因”的分析模型,根據(jù)“位置歸因”的計算邏輯,第一個“待歸因事件”和最后一個“待歸因事件”各占 40%,中間平分 20%。
第一輪我們得到結(jié)果:Dc=0.4;Dc=0.2;Da=0.4
(二)第二輪計算
從 M2 開始向前遍歷尋找 Q2 以及離 Q2 最近發(fā)生的廣告瀏覽。

這里值得強調(diào)的是,即使第一輪中計算過該廣告,在本輪計算時依然會參與到計算中,因為經(jīng)常會出現(xiàn)一個廣告位同時推薦多個商品的情況。
我們不難得到結(jié)論,M2=[Dc,Db]?;谶@個結(jié)論,我們通過“位置歸因” 得到結(jié)果:Dc=0.5;Db=0.5(不足 3 個時會有特殊處理)。
經(jīng)過兩輪計算,我們得出結(jié)論:Dc=1.1;Da=0.4;Db=0.5,則廣告位 c 的貢獻最大、廣告位 b 貢獻次之,廣告位 a 的貢獻最小。
8、馬爾科夫鏈
馬爾科夫鏈模型來自于數(shù)學(xué)家Andrew Markov所定義的一種特殊的有序列。馬爾科夫鏈(Markov Chain),描述了一種狀態(tài)序列,其每個狀態(tài)值取決于前面有限個狀態(tài)。馬爾科夫鏈?zhǔn)蔷哂旭R爾科夫性質(zhì)的隨機變量的一個數(shù)列。
馬爾科夫鏈思時間、狀態(tài)都是離散的馬爾科夫過程,是將來發(fā)生的事情,和過去的經(jīng)理沒有任何關(guān)系(只和當(dāng)前有關(guān)系)。通俗的講:今天的事情只取決于昨天,而明天的事情只取決于今天。
谷歌的PageRank,就是利用了馬爾科夫模型。假設(shè)有A,B,C三個網(wǎng)頁,A鏈向B,B鏈上C。那么C分到的PR權(quán)重只由B決定,和A沒有任何關(guān)系。如果互聯(lián)網(wǎng)上所有的網(wǎng)頁不斷地重復(fù)計算PR,很容易可以想到這個PR值最后會收斂,并且區(qū)域一個穩(wěn)定的值,這也就是為什么它會被谷歌用來確定網(wǎng)頁等級。
回到歸因模型上,馬爾科夫鏈模型實質(zhì)就是:訪客下一次訪問某個渠道的概率,取決于這次訪問的渠道。
歸因模型的選擇,很大程度上決定轉(zhuǎn)化率計算結(jié)果,像前面講的首次互動、末次互動等模型,實際上需要人工來分配規(guī)則的算法,顯然它并不是一種“智能化”的模型選擇。而且因為各個推廣渠道的屬性和目的不同,我們也無法脫離用戶整個的轉(zhuǎn)化路徑來單獨進行計算。因此,馬爾科夫鏈歸因模型實質(zhì)上是一種以數(shù)據(jù)驅(qū)動的(Data-Driven)、更準(zhǔn)確的歸因算法。
馬爾科夫鏈歸因模型適用于渠道多、數(shù)量大、有建模分析能力的公司。
那么具體馬爾科夫鏈怎么玩?(請自備圖論知識)
如果將各推廣渠道視為系統(tǒng)狀態(tài),推廣渠道之間的轉(zhuǎn)化視為系統(tǒng)狀態(tài)之間的轉(zhuǎn)化,可以用馬爾科夫鏈表示用戶轉(zhuǎn)化路徑。
馬爾科夫鏈表示系統(tǒng)在t+1時間的狀態(tài)只與系統(tǒng)在t時間的狀態(tài)有關(guān)系,與系統(tǒng)在t-1,t-2,...,t0時間的狀態(tài)無關(guān),平穩(wěn)馬爾科夫鏈的轉(zhuǎn)化矩陣可以用最大似然估計,也就是統(tǒng)計各狀態(tài)之間的轉(zhuǎn)化概率計算得到。用馬爾科夫鏈圖定義渠道推廣歸因模型:
1、狀態(tài)集合,定義為 banner,text,keyword,link,video,mobile,unknown 7種推廣類型加上start,null,conversion 3種系統(tǒng)狀態(tài)
2、穩(wěn)定狀態(tài)下的轉(zhuǎn)化矩陣,通過某公司web網(wǎng)站20天的原始click數(shù)據(jù)計算的得到如下狀態(tài)轉(zhuǎn)化矩陣

3、利用該轉(zhuǎn)化矩陣來構(gòu)造有向圖(Directed Graph),通過計算從節(jié)點start到節(jié)點conversion的所有非重復(fù)路徑(Simple Path)的累乘權(quán)重系數(shù)之和來計算移除效應(yīng)系數(shù)
4、通過移除效應(yīng)系數(shù),計算各個狀態(tài)的轉(zhuǎn)化貢獻值
什么是移除效應(yīng)?
渠道的移除效應(yīng)定義為:移除該狀態(tài)之后,在start狀態(tài)開始到conversion狀態(tài)之間所有路徑上概率之和的變化值。通過計算各個渠道的移除效應(yīng)系數(shù),根據(jù)移除效應(yīng)系數(shù)在總的系數(shù)之和之中的比例得到渠道貢獻值。移除效應(yīng)實際上反映的是移除該渠道之后系統(tǒng)整體轉(zhuǎn)化率的下降程度。
我們可以把上面的案例簡化一下,嘗試具體計算下移除效應(yīng)和各渠道的轉(zhuǎn)化貢獻值:

在以上系統(tǒng)中,總體的轉(zhuǎn)化率 = (0.667*0.5*1*0.5+0.333*1*0.5)= 33.3%

移除節(jié)點C1后,整體轉(zhuǎn)化率 = 0.333*0.1*0.5 = 16.7%,所以C1節(jié)點的移除效應(yīng)系數(shù) = 1-0.167/0.333=0.5
同理可計算節(jié)點C2和C3的移除效應(yīng)分別是1和1
通過移除效應(yīng)系數(shù)計算得到轉(zhuǎn)化貢獻值:
C1 : 0.5 / (0.5+1+1) = 0.2
C2 : 1 / (0.5+1+1) = 0.4
C3 : 1 / (0.5+1+1) = 0.4
如果你對馬爾科夫鏈有疑惑,可以點擊這里了解下
三、如何選擇歸因模型
從上面這么多種歸因模型來看,我們大概可以把他們分成2類:
(1)基于規(guī)則的:預(yù)先為渠道設(shè)置了固定的權(quán)重值,他的好處是計算簡單、數(shù)據(jù)容易合并、渠道之間互不影響,當(dāng)然你也可以根據(jù)實際需要去調(diào)整他們的權(quán)重配比
(2)基于算法的:每個渠道的權(quán)重值不一樣,會根據(jù)算法和時間,不同渠道的權(quán)重值會發(fā)生變化(數(shù)據(jù)驅(qū)動)
在選擇用何種歸因模型之前,我們應(yīng)該先想清楚業(yè)務(wù)模式!
如果是新品牌、新產(chǎn)品推廣,企業(yè)應(yīng)該給予能給我們帶來更多新用戶的渠道足夠的權(quán)重,那么我們應(yīng)該選擇首次互動模型;
如果是投放了單一的競價渠道,那么我們應(yīng)該選取末次互動歸因模型或者渠道互動歸因模型;
如果公司很在乎線索來源和促成銷售渠道,那么我們應(yīng)該選擇U型歸因模型;
如果公司的渠道多、數(shù)據(jù)量大,并且由永久用戶標(biāo)識,基于算法的歸因模型能夠為營銷分析提供巨大的幫助;
....
總的來說,沒有完美的歸因模型。任何模型都存在他的局限性和不足,如何有效地結(jié)合客觀數(shù)據(jù)與主觀推測,是用好歸因模型的重要能力前提。
四、還有哪些有趣的歸因模型?
這里拋出一個有趣的問題,大家可以通過思考他背后的分析邏輯,嘗試一下如何應(yīng)用到歸因模型中
小陳和小盧同學(xué)準(zhǔn)備吃午餐,小陳帶了3塊蛋糕,小盧帶了5塊蛋糕。這時,有一個路人路過,路人餓了,于是他們約路人一起吃午飯,路人接受了邀約。小陳、小盧和路人3個人把8塊蛋糕全部吃完了,吃完飯后,路人感謝他們的午餐,于是給了他們8個金幣,然后離去。
小陳和小盧為這8個金幣的分配展開了爭執(zhí)。
小盧說:我?guī)Я?塊蛋糕,理應(yīng)我得5個金幣,你得3個金幣。
小陳不同意:既然我們一起吃這8塊蛋糕,理應(yīng)平分這8個金幣。
為此他們找到了公正的夏普里。
夏普里說:公正的分發(fā)是,小陳你應(yīng)當(dāng)?shù)玫?個金幣,你的好朋友小盧應(yīng)該得到7個金幣。經(jīng)過夏普里的解釋,小陳和小盧認為很有道理,愉快地接受了這種分金幣的方案。
請問,夏普里是怎樣分析得到1:7這樣的分配的呢?