數(shù)據(jù)挖掘案例分析(1)-Apriori算法
前言:由于單單學(xué)習(xí)算法太過于枯燥和乏味,所以我們采取的學(xué)習(xí)方法是練中學(xué),本人也是之前一點關(guān)于數(shù)據(jù)挖掘的算法知識沒有學(xué)習(xí),因此可能在理解上還不是很到位,我會盡我最大的努力來進(jìn)行闡述。我們一起共勉。學(xué)習(xí)資料來源,《數(shù)據(jù)挖掘十大算法》-清華大學(xué)和《數(shù)據(jù)挖掘?qū)嵱冒咐治觥罚瓩C械工業(yè)出版社。
案例:商業(yè)零售業(yè)中的購物籃分析
一、挖掘目標(biāo)的提出
零售商的問題:
銷售什么樣子的商品?
采取什么樣的銷售策略和促銷方式?
商品在貨架上的擺放位置?
針對以上的問題,我們需要分析客戶的購買數(shù)據(jù),才能發(fā)現(xiàn)顧客的購買規(guī)律。所以基于問題的分析,我們明確了數(shù)據(jù)來源。那么我們明確了數(shù)據(jù)的來源,對這些數(shù)據(jù)該采取什么樣的分析方法才能達(dá)到我們想要完成的目標(biāo)。
二、分析方法與過程
根據(jù)所要實現(xiàn)的目標(biāo),我們先來介紹一個經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法:Apriori算法。
Apriori算法:關(guān)聯(lián)規(guī)則挖掘問題可以劃分為兩個子問題:第一是找出事務(wù)數(shù)據(jù)庫中所有大于等于用戶指定的最小支持度的數(shù)據(jù)項集;第二個是利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則。根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強關(guān)聯(lián)規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心。
主要步驟:

其中在這個算法中,為了達(dá)到用戶的一定要求,需要指定規(guī)則必須滿足的支持度和置信度閾值,此兩個值稱為最小支持度閾值(min_sup)和最小置信度閾值(min_conf)。其中min_sup描述了關(guān)聯(lián)規(guī)則的最低重要度,min_conf規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性。
具體的簡單應(yīng)用讀者可以自己自行從網(wǎng)上找取資源。
下面我們來總結(jié)一下Apriori算法的優(yōu)缺點:

Apriori算法應(yīng)用的領(lǐng)域多樣,其中主要包括:商業(yè)、網(wǎng)絡(luò)安全、高效管理和移動通信等領(lǐng)域的應(yīng)用。
介紹完Apriori算法之后,我們回歸我們的案例分析,基于關(guān)聯(lián)規(guī)則的購物籃分析。那么關(guān)聯(lián)規(guī)則的挖掘過程如圖:

三、建模仿真
1模型輸入
模型的輸入包括兩部分,一部分是建模專家樣本數(shù)據(jù)的輸入,另外一部分是建模參數(shù)的輸入。
建模參數(shù)如下表:

2具體的仿真過程:

經(jīng)過上述的分析,我們可以發(fā)現(xiàn),在彼此不同的屬性之間,可以發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則,這有利于我們進(jìn)行商品定價和商品的擺放。合理的制定消費策略