1.什么是關(guān)聯(lián)分析?
自然界中,某件事情發(fā)生時,其他事件也會發(fā)生,這種聯(lián)系稱為關(guān)聯(lián)。關(guān)聯(lián)分析就是為了尋找事物之間的一些有趣的關(guān)聯(lián)關(guān)系。
最讓人熟知的就是購物籃分析,商場在分析用戶經(jīng)常同時購買“啤酒、尿布“、“籃球”、“籃球服”等商品組合,于是將其放在一起以促進銷售。這種關(guān)聯(lián)關(guān)系的分析,不僅應(yīng)用與網(wǎng)站設(shè)計者可以根據(jù)訪客日志數(shù)據(jù),發(fā)現(xiàn)訪客瀏覽習(xí)慣和網(wǎng)站頁面間的關(guān)系。
2.如何評價關(guān)聯(lián)規(guī)則是否有用?
拿某個商場的交易數(shù)據(jù)中進行分析,數(shù)據(jù)集中有限的項目經(jīng)過排列組合以后可以產(chǎn)生大量的關(guān)聯(lián)規(guī)則,但是,只有一小部分的規(guī)則會是用戶感興趣的,因此需要引入一個“興趣度”的概念幫助用戶評估得到的關(guān)聯(lián)規(guī)則。
而與興趣度評估相關(guān)的度量包括:簡潔性、正確性、實用性、新穎性
1)簡潔性:太復(fù)雜的規(guī)則會讓用戶的興趣度降低,也難以解釋和理解
2)正確性:令人信服的程度有多高。
正確性的判斷指標是置信度,表示這個規(guī)則正確的概率有多大。即在某一項x出現(xiàn)的前提下,另外一項y出現(xiàn)的頻率是多少。
置信度confident(x=>y)=p(y|x)
3)實用性:判斷該規(guī)則再次出現(xiàn)的可能性有多大,即這個指標的覆蓋率。
實用性的判斷指標是支持度,支持度越大說明規(guī)則應(yīng)用越廣泛,即xy同時出現(xiàn)的頻率.
支持度support(x=>y)= p(x U y)
4)新穎性:判斷規(guī)則是否已經(jīng)被導(dǎo)出的另外一個規(guī)則作蘊含。
在這4個指標中,置信度和實用性是用來評判一條規(guī)則是強關(guān)聯(lián)規(guī)則的依據(jù)。
強關(guān)聯(lián)規(guī)則:同時滿足用戶定義的最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則
弱關(guān)聯(lián)規(guī)則:不滿足最小支持度閾值和最小置信度閾值的關(guān)聯(lián)規(guī)則
5)改善度:
期望可信度是在x沒有影響的作用下y出現(xiàn)的頻率,p(i)
改善度則是評估x的出現(xiàn)對y的出現(xiàn)的影響性。p(y|x)/p(x)越大,則改善度越高,說明x的出現(xiàn)對y的可能影響就越大。
3.關(guān)聯(lián)規(guī)則的分類
1)布爾規(guī)則和量化規(guī)則
(1)布爾規(guī)則:性別=女=》職業(yè)=老師
(2)量化規(guī)則:性別=女=》平均收入=2300
量化關(guān)聯(lián)規(guī)則可以直接對原始數(shù)據(jù)進行處理,或先對數(shù)值型屬性進行分區(qū)間進行動態(tài)分割
2)單層規(guī)則和多層關(guān)聯(lián)規(guī)則
在單層規(guī)則中,所有的項不考慮現(xiàn)實數(shù)據(jù)的多層性,而在實際應(yīng)用中,涉及不同的抽象層發(fā)現(xiàn)的多層關(guān)聯(lián)規(guī)則則是一種更有用的關(guān)聯(lián)規(guī)則,因為屬性之間存在一種層次關(guān)系。
(1)不涉及不同抽象層的項的規(guī)則稱為單層關(guān)聯(lián)規(guī)則
adidas籃球=》nike籃球服
(2)較高層次和較低層次之間規(guī)則稱為多層關(guān)聯(lián)規(guī)則
adidas籃球=》籃球服
3)單維規(guī)則和多維規(guī)則
(1)單維關(guān)聯(lián)規(guī)則:處理同一個屬性或維度內(nèi)的聯(lián)系。
adidas籃球=》nike籃球服
(2)多維關(guān)聯(lián)規(guī)則:多個屬性或維度之間的聯(lián)系。
用戶的年齡和購買物品