關聯(lián)分析(規(guī)則)即挖掘關聯(lián)現(xiàn)象,從大量數(shù)據(jù)當中發(fā)現(xiàn)事物、特征或者數(shù)據(jù)之間的,頻繁出現(xiàn)的相互依賴關系和關聯(lián)關系。關聯(lián)關系包含簡單關聯(lián)、時序關聯(lián)及因果關聯(lián)等,這些關聯(lián)有的產(chǎn)生于經(jīng)驗之中,但并不總是事先知道,而是通過數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)分析獲得的,其對商業(yè)決策具有重要的價值,常用于實體商店或電商的跨品類推薦,購物車聯(lián)合營銷,貨架布局陳列,聯(lián)合促銷,市場營銷等,來達到關聯(lián)項互相銷量提升與共贏,提升用戶體驗,減少上貨員與用戶投入時間,尋找高潛用戶。
例如:洗發(fā)水與護發(fā)素的套裝;超市牛奶與面包間臨擺放;電商的購買該產(chǎn)品的用戶又買了XX。當然,這些都是對商品關聯(lián)特性的應用,那么問題來了,你應該向客戶推薦點什么,他才能買單呢?還有,拿到數(shù)據(jù)結果你敢信么?面對不可思議的數(shù)據(jù)現(xiàn)象你如何拍著胸脯說:按我說的辦?
這就是本文想通過案例,要為大家介紹的:
1.關聯(lián)分析的基本思想
2.如何繞過關聯(lián)分析中的坑
3.關聯(lián)分析的拓展
1.關聯(lián)分析的基本思想
關聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找某種關系的任務,這種關系有兩種形式:頻繁項集或者關聯(lián)規(guī)則。頻繁項集是經(jīng)常出現(xiàn)在一塊的物品的集合;關聯(lián)規(guī)則暗示兩種物品之間可能存在很強的關系。下面舉個栗子來說明——用戶訂單明細:

我們對這個數(shù)據(jù)集進行關聯(lián)分析,可以找出頻繁項集,即關聯(lián)規(guī)則{手機}→{數(shù)據(jù)線},它代表的意義是:購買了手機的顧客會購買數(shù)據(jù)線,這個關系不是必然的,但是可能性很大。
名詞含義:
1、事務:每一條數(shù)據(jù)稱為一個事務,例如數(shù)據(jù)集中就包含四個事務(訂單號)。
2、項:每條數(shù)據(jù)的每一個物品稱為一個項,例如手機、酒等。
3、項集:包含零個或多個項的集合叫做項集,例如{手機, 數(shù)據(jù)線}、{手機, 數(shù)據(jù)線、酒}。
4、k?項集:包含k個項的項集叫做k-項集,例如{酒}叫做1-項集,{手機, 數(shù)據(jù)線}叫做2-項集。
5、支持度計數(shù):一個項集出現(xiàn)在幾個事務當中,它的支持度計數(shù)就是幾。例如{手機, 數(shù)據(jù)線}出現(xiàn)在事務 1、2中,所以它的支持度計數(shù)是2。
6、支持度:支持度計數(shù)除于總的事務數(shù)。例如上例中總的事務數(shù)為4,{手機, 數(shù)據(jù)線}的支持度計數(shù)為2,所以支持度(手機&數(shù)據(jù)線)=50%,說明有50%的人同時買了手機和數(shù)據(jù)線。
7、頻繁項集:支持度大于或等于某個閾值的項集就叫做頻繁項集。例如閾值設為40%時,因為{手機, 數(shù)據(jù)線}的支持度是50%,所以它是頻繁項集。
8、前件和后件:對于規(guī)則{手機}→{數(shù)據(jù)線},{手機}叫做前件,{數(shù)據(jù)線}叫做后件。
9、置信度:對于規(guī)則{手機}→{數(shù)據(jù)線},{手機, 數(shù)據(jù)線}的支持度計數(shù)除于{手機}的支持度計數(shù),為這個規(guī)則的置信度。置信度(手機|數(shù)據(jù)線)=2÷3=66.7%,說明買了手機的人中66.7%也買了數(shù)據(jù)線。
10、強關聯(lián)規(guī)則:大于或等于最小支持度閾值和最小置信度閾值的規(guī)則叫做強關聯(lián)規(guī)則。關聯(lián)分析的最終目標就是要找出強關聯(lián)規(guī)則
對于規(guī)則{數(shù)據(jù)線}→{手機}置信度為100%,也就是說買了數(shù)據(jù)線的用戶全都買了手機,那么我們就該向買了數(shù)據(jù)線的用戶推手機么?并非如此。
例如:共有10000個用戶下單,其中8000個用戶買了電腦,80個用戶買了杯子,有40個用戶同時買了杯子和電腦,可以算出:
支持度(電腦&杯子)=40/10000
置信度(電腦|杯子)=(40/10000)/(80/10000)=50%
即有一般買了杯子(小眾)的人買了電腦(熱銷),但其實電腦本身就是高銷售,高熱度,電腦的銷量并不是由買了杯子的用戶帶了的提升,由此,提出第11個名詞
11、提升度:{電腦}→{杯子}=置信度(杯子→ 電腦)/支持度(電腦)=(40/10000)/(8000/10000)=0.5%,即:在購買了杯子的前提下購買電腦的可能性與沒有購買杯子的前提下購買電腦的可能性之比,當提升度大于1時說明推薦(關聯(lián))商品的購買概率比未推薦前有所提高。
結論:提升度大于1的規(guī)則中,根據(jù)置信度由大到小進行排序,最后綜合選擇最優(yōu)的關聯(lián)規(guī)則
公式:
Support(支持度):表示A、B同時使用的人數(shù)占所有用戶數(shù)(研究關聯(lián)規(guī)則的“長表”中的所有有使用的產(chǎn)品的用戶數(shù))的比例。如果用P(A)表示使用A的用戶比例,其他產(chǎn)品類推。Support=P(A&B)
Confidence(可信度):表示使用A的用戶中同時使用B的比例,即同時使用A和B的人占使用A的人的比例。Confidence=P(A&B)/P(A)
Lift(提升度):表示“使用A的用戶中同時使用B的比例”與“使用B的用戶比例”的比值。Lift=(?P(A&B)/P(A))/P(B)=P(A&B)/P(A)/P(B)
2.如何繞過關聯(lián)分析中的坑
a.注意清洗數(shù)據(jù):清洗人為因素影響的規(guī)則。例如:購買商品即送XX,贈品數(shù)據(jù)的去除。當分析師做出關聯(lián)分析后,看到幾條看似合乎常理,且置信度和提升度很高,興奮不已的去告訴客戶,從數(shù)字上確實沒問題,但是捆綁銷售商品是不能確定有很好地提升效果的,更可能悲劇的是被業(yè)務同事鄙視,所以分析前要了解業(yè)務營銷、銷售形式,對全年大盤有所了解,確保去除人為因素,數(shù)據(jù)即消費者自主行為。
b.不可忽視的業(yè)務經(jīng)驗。業(yè)務經(jīng)驗即消費行為場景,比如買煙的人習慣買一個火機,即使數(shù)據(jù)結果可能展示非此情況,但場景商品搭售不容忽視。
c.注意關聯(lián)購買對單品購買的影響。關聯(lián)捆綁交叉銷售需要讓用戶買更多的東西,所以多會對毛利產(chǎn)生影響,即降檔刺激消費銷量,當主品和副品毛利均很低的商品不建議捆綁;同時,捆綁銷售一定會不同程度影響原商品銷量,比如綁了品質(zhì)及其惡劣的商品。
3.關聯(lián)分析的拓展
A.多商品關聯(lián):關聯(lián)規(guī)則分為多維關聯(lián)規(guī)則和單維關聯(lián)規(guī)則, 通常,關聯(lián)規(guī)則具有:X=>Y的形式,即:A1^…^Am=>B1^…^Bn的規(guī)則,其中, Ai (i屬于{1,…,m}), Bj (j屬于{1,…,n})是屬性-值對。關聯(lián)規(guī)則X => Y解釋為“滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中條件”。比如三維關聯(lián):對購買電腦、手機的用戶愛買耳機,或者特征性數(shù)據(jù)加入:購買手機的50歲用戶愛買耳機等。
B.時序關聯(lián):購買a商品后可能購買b商品
C.用戶維度的關聯(lián)購買,非訂單維度:即時間內(nèi)用戶購買a商品和b商品的關聯(lián)度,用于判斷a,b商品是否有共同需求度,幫助營銷人員做聯(lián)合營銷
D.高支持度低置信度:說明前者基數(shù)大,同時會伴隨出現(xiàn)后者,這種用戶也很常見需要留意
低支持度高置信度:可以從前件推斷后件概率,這種用戶不容忽視
低支持度低置信度:量級小,但是不排除可能