名詞:
挖掘數(shù)據(jù)集:購物籃數(shù)據(jù)
挖掘目標(biāo):關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則:啤酒=>尿布(支持度0.02,置信度0.6)
支持度:所有數(shù)據(jù)中有2%的購物記錄包含了啤酒和尿布
置信度:所有包含啤酒的購物記錄里有60%包含尿布
最小支持度閾值和最小置信度閾值。
項(xiàng)集:項(xiàng)(商品)組成的集合
K-項(xiàng)集:k個項(xiàng)組成的集合
頻繁項(xiàng)集:滿足最小支持度的項(xiàng)集
強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持閾值和最小置信度閾值的規(guī)則
步驟:
找出所有頻繁項(xiàng)集;由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
案例:
TID為購物記錄,List of item_ID為商品ID,如第T100條購物記錄中,包含商品I1,I2,I5。
最后推出的關(guān)聯(lián)規(guī)則有:
(以上圖片來源薛毅老師的《r modeling》)
R語言操作:
包:arules
數(shù)據(jù)集:Groceries(內(nèi)置數(shù)據(jù)集)
函數(shù):inspect:顯檢查,示一個的文集或一個術(shù)語文檔矩陣的詳細(xì)信息。查看數(shù)據(jù)。
? ? ? ? ?apriori:提取關(guān)聯(lián)規(guī)則
代碼: