(十) 關(guān)聯(lián)分析

此部分內(nèi)容來自對《Python數(shù)據(jù)分析與數(shù)據(jù)化運(yùn)營》4.4節(jié) 關(guān)聯(lián)分析 的讀書筆記。
關(guān)聯(lián)分析通過尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,來找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則,它是從大量數(shù)據(jù)中發(fā)現(xiàn)多種數(shù)據(jù)之間的一種方法;另外,它也可以基于時間序列對多種數(shù)據(jù)間的關(guān)系進(jìn)行挖掘。關(guān)聯(lián)分析的典型案例是“啤酒與尿布”的捆綁銷售,是指購買了尿布的用戶還會購買啤酒。
關(guān)聯(lián)規(guī)則相對于其他數(shù)據(jù)挖掘算法挖掘模型更加簡單,易于業(yè)務(wù)理解和應(yīng)用。
關(guān)聯(lián)規(guī)則的典型應(yīng)用場景是購物籃分析,通過分析用戶同時購買了哪些商品來分析用戶購買習(xí)慣。這種策略還會應(yīng)用于捆綁銷售、庫存管理、商品促銷設(shè)計(jì)、頁面促銷設(shè)計(jì)、貨架設(shè)計(jì)、商品陳列設(shè)計(jì)、頁面內(nèi)容排版、推薦系統(tǒng)、商品價格策略和基于購買的用戶特征分析等。

11.1 頻繁規(guī)則不一定是有效規(guī)則

一般用支持度、置信度、提升度三個指標(biāo)來度量一個關(guān)聯(lián)規(guī)則。
Support(支持度):表示同時包含A和B的事務(wù)占所有事務(wù)的比例。如果用P(A)表示使用A事務(wù)的比例,那么Support=P(A&B)
Confidence(置信度):表示使用包含A的事務(wù)中同時包含B事務(wù)的比例,即同時包含A和B的事務(wù)占包含A事務(wù)的比例。公式表達(dá):Confidence=P(A&B)/P(A)
Lift(提升度):表示“包含A的事務(wù)中同時包含B事務(wù)的比例”與“包含B事務(wù)的比例”的比值。公式表達(dá):Lift=P(B|A)/P(B)。
提升度反映了關(guān)聯(lián)規(guī)則中的A與B的相關(guān)性,提升度>1且越高表明正相關(guān)性越高,提升度<1且越低表明負(fù)相關(guān)性越高,提升度=1表明沒有相關(guān)性。

所謂頻繁規(guī)則指的是關(guān)聯(lián)結(jié)果中支持度和置信度都比較高的規(guī)則,而有效規(guī)則指的是關(guān)聯(lián)規(guī)則真正能促進(jìn)規(guī)則中的前后項(xiàng)的提升。在做關(guān)聯(lián)結(jié)果分析時,頻繁規(guī)則往往會被“想當(dāng)然”地認(rèn)為是有效規(guī)則,但結(jié)果并不是如此。
假設(shè)數(shù)據(jù)集中有1000條事務(wù)數(shù)據(jù)用來顯示購買蘋果和香蕉的訂單記錄。其中有600個客戶的訂單記錄中包含了蘋果,有800個客戶的訂單記錄中包含了香蕉,而有400個客戶同時購買了蘋果和香蕉。假設(shè)一條關(guān)聯(lián)規(guī)則,用來表示購買了蘋果的客戶中很多還購買了香蕉,蘋果->香蕉。

  • 支持度:P(A&B) = 40%
  • 置信度:P(A&B)/P(A) = 40%/60%=67%
    如果只看支持度和置信度,似乎很好的說明了蘋果和香蕉之間的頻繁關(guān)系,買了蘋果的客戶有67%都會購買香蕉。但是如果忽略購買蘋果的事實(shí),只購買香蕉的客戶占80%。這顯示購買蘋果這種條件不會對購買香蕉產(chǎn)生積極的促進(jìn)效果,反而會阻礙其銷售,蘋果和香蕉之間是一種負(fù)相關(guān)的關(guān)系。
  • 提升度:40%/80%=0.5
    當(dāng)提升度為1時,說明應(yīng)用關(guān)聯(lián)規(guī)則和不應(yīng)用關(guān)聯(lián)規(guī)則產(chǎn)生的效果相同;當(dāng)提升度>1時,說明應(yīng)用關(guān)聯(lián)規(guī)則比不應(yīng)用關(guān)聯(lián)規(guī)則能產(chǎn)生更好的效果。當(dāng)提升度小于1時,關(guān)聯(lián)規(guī)則具有負(fù)相關(guān)的效果,則該規(guī)則是無效規(guī)則。
    在做關(guān)聯(lián)規(guī)則評估時,需要綜合考慮支持度、置信度和提升度三個指標(biāo),支持度和置信度當(dāng)然越大越好。但需要注意的是在低頻、客單價較高的領(lǐng)域,關(guān)聯(lián)規(guī)則會呈現(xiàn)稀疏性,其支持度百分比可能只有幾個百分點(diǎn)。對于提升度的指標(biāo),通常關(guān)注其大于1的指標(biāo)。

11.2 不要被啤酒尿布的故事緊固你的思維

除了啤酒尿布的分析模式以外,關(guān)聯(lián)分析還可以應(yīng)用到更多的運(yùn)營分析場景。

11.2.1 相同維度下的關(guān)聯(lián)分析

相同維度下的關(guān)聯(lián)分析指的是關(guān)聯(lián)分析的前后項(xiàng)是相同邏輯的內(nèi)容維度。例如商品-商品,內(nèi)容-內(nèi)容。
(1) 網(wǎng)站頁面瀏覽關(guān)聯(lián)分析
網(wǎng)站頁面瀏覽關(guān)聯(lián)分析可以幫助我們找到不同頁面之間的頻繁訪問關(guān)系,以分析用戶特定的頁面瀏覽模式。這種頻繁模式可用于了解不同頁面之間的分流和引流關(guān)系,尤其是大型落地頁的分析;也可以用來做不同頁面之間的頁面瀏覽推薦、利于提高用戶體驗(yàn)和轉(zhuǎn)換率。
(2) 廣告流量關(guān)聯(lián)分析
廣告流量關(guān)聯(lián)分析是針對站外廣告投放渠道用戶瀏覽和點(diǎn)擊的行為分析,該分析主要用于了解用戶的瀏覽和點(diǎn)擊廣告的模式。
(3) 用戶關(guān)鍵字搜索關(guān)聯(lián)分析
通過對用戶搜索關(guān)鍵字的關(guān)聯(lián)分析,可以得到類似于搜索了蘋果之后又搜索了iPhone,搜索了三星之后又搜索了HTC,這種模型可用于搜索推薦。搜索聯(lián)想等場景,有利于改進(jìn)搜索體驗(yàn),提高客戶目標(biāo)轉(zhuǎn)換率。

11.2.2 跨緯度關(guān)聯(lián)分析

(1) 不同場景的關(guān)聯(lián)分析
發(fā)生的事件處于不同的時間下,但通常都在一個約束時間范圍內(nèi)(例如session、會話)。這種模式可以廣泛用于分析運(yùn)營中關(guān)注的要素,例如用戶瀏覽商品與購買商品的關(guān)聯(lián)分析、關(guān)注產(chǎn)品價格與購買商品價格的關(guān)聯(lián)分析、用戶加入購物車與提交訂單的關(guān)聯(lián)分析等。
(2) 相同場景下的事件分析
發(fā)生的事件在一個場景下,但屬于不同的時間點(diǎn)。例如用戶在同一個頁面中點(diǎn)擊不同功能、選擇不同的應(yīng)用、下載不同的白皮書等。這類信息可以幫助我們了解用戶對于功能應(yīng)用的先后順序,有利于做產(chǎn)品優(yōu)化和用戶體驗(yàn)提升;對于不同產(chǎn)品功能組合、開發(fā)和升級有了更加明確的參考方向。便于針對用戶習(xí)慣性操作模式做功能迭代;同時針對用戶頻繁查看和點(diǎn)擊的內(nèi)容,可以采用打包、組合、輪轉(zhuǎn)等策略,幫助客戶盡量縮小內(nèi)容查找空間和時間,也能提升內(nèi)容曝光度和用戶體驗(yàn)度。

11.3 被忽略的“負(fù)相關(guān)”模式真的沒有用武之地嗎

對于支持度和置信度高而支持度低的(“負(fù)相關(guān)”)規(guī)則,我們可以將它作為組合打包的控制條件來優(yōu)化組合策略。典型的應(yīng)用場景:

  • 在商品銷售策略中,不將具有互斥性的商品放到同一個組合購買計(jì)劃中。
  • 在站外廣告媒體的投放中,不將具有互斥性的多個廣告媒體做整合傳播或媒體投放。
  • 在關(guān)鍵字提升信息中,不將具有互斥性的關(guān)鍵字提示給客戶。
  • 在頁面推薦的信息流中,不將具有互斥性的信息流展示給用戶。

11.4 頻繁規(guī)則只能打包組合應(yīng)用嗎

常見的關(guān)聯(lián)規(guī)則基于兩種模式產(chǎn)生:基于同一個時間內(nèi)發(fā)生的事件以及基于不同時間下發(fā)生的事件

  • 基于同一時間內(nèi)發(fā)生的事件:這種模式發(fā)生在同一時間點(diǎn),例如購物籃分析就是用于在一次購物籃中同時購買的商品。
  • 基于不同時間下發(fā)生的事件:這種模式發(fā)生在不同的時間點(diǎn),但是可以通過特定的主鍵信息關(guān)聯(lián),例如用戶在不同日期購買了多件商品,這種場景下使用用戶ID作為事務(wù)型數(shù)據(jù)的主鍵。
    在通過上述規(guī)則分析得到關(guān)聯(lián)結(jié)果后,第一反應(yīng)是應(yīng)該把這些商品放到一起做打包組合應(yīng)用。
    但除了打包組合的思維方式外,還可以這樣考慮應(yīng)用:既然用戶具有較強(qiáng)的發(fā)生關(guān)聯(lián)事件關(guān)系的可能性,那么可以基于用戶的這種習(xí)慣,將前后項(xiàng)內(nèi)容故意分離開,利用用戶主動查找的時機(jī)來產(chǎn)生更多價值或完成特定的目標(biāo)。
    這種模式不是所有的關(guān)聯(lián)規(guī)則都能生效,需要具備一定的條件:
  • 關(guān)聯(lián)規(guī)則必須是強(qiáng)規(guī)則且有效規(guī)則。
  • 發(fā)生關(guān)聯(lián)的前后項(xiàng)之間需要有非常強(qiáng)的完成動機(jī)。
  • 不能過多的降低用戶體驗(yàn)。

11.5 關(guān)聯(lián)規(guī)則的序列模式

序列模式相較于普通關(guān)聯(lián)模式最大的區(qū)別是不同的事件之間具有明顯的時間區(qū)隔,以及先后的序列發(fā)生關(guān)系,能得到類似于“完成某個事件之后會在特定的時間周期內(nèi)完成其他事件”的結(jié)論。常見的運(yùn)營應(yīng)用場景:

  • 客戶購買行為預(yù)測:基于用戶上次購買時間和商品信息,推斷用戶下次購物的時間和訂單信息。
  • Web訪問模式預(yù)測:基于用戶上次網(wǎng)站到達(dá)時間和到訪信息,推斷用戶下次最可能從哪些媒體渠道進(jìn)入網(wǎng)站。
  • 關(guān)鍵字搜索預(yù)測:基于用戶上次搜索關(guān)鍵字的時間和關(guān)鍵字,推斷用戶下次最可能搜索哪些關(guān)鍵字。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容