數(shù)據(jù)挖掘案例分析(1)-Apriori算法

數(shù)據(jù)挖掘案例分析(1)-Apriori算法

前言:由于單單學(xué)習(xí)算法太過于枯燥和乏味,所以我們采取的學(xué)習(xí)方法是練中學(xué),本人也是之前一點關(guān)于數(shù)據(jù)挖掘的算法知識沒有學(xué)習(xí),因此可能在理解上還不是很到位,我會盡我最大的努力來進(jìn)行闡述。我們一起共勉。學(xué)習(xí)資料來源,《數(shù)據(jù)挖掘十大算法》-清華大學(xué)和《數(shù)據(jù)挖掘?qū)嵱冒咐治觥罚瓩C械工業(yè)出版社。

案例:商業(yè)零售業(yè)中的購物籃分析

一、挖掘目標(biāo)的提出

零售商的問題:

銷售什么樣子的商品?

采取什么樣的銷售策略和促銷方式?

商品在貨架上的擺放位置?

針對以上的問題,我們需要分析客戶的購買數(shù)據(jù),才能發(fā)現(xiàn)顧客的購買規(guī)律。所以基于問題的分析,我們明確了數(shù)據(jù)來源。那么我們明確了數(shù)據(jù)的來源,對這些數(shù)據(jù)該采取什么樣的分析方法才能達(dá)到我們想要完成的目標(biāo)。

二、分析方法與過程

根據(jù)所要實現(xiàn)的目標(biāo),我們先來介紹一個經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法:Apriori算法。

Apriori算法:關(guān)聯(lián)規(guī)則挖掘問題可以劃分為兩個子問題:第一是找出事務(wù)數(shù)據(jù)庫中所有大于等于用戶指定的最小支持度的數(shù)據(jù)項集;第二個是利用頻繁項集生成所需要的關(guān)聯(lián)規(guī)則。根據(jù)用戶設(shè)定的最小置信度進(jìn)行取舍,最后得到強關(guān)聯(lián)規(guī)則。識別或發(fā)現(xiàn)所有頻繁項目集是關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的核心。

主要步驟:


其中在這個算法中,為了達(dá)到用戶的一定要求,需要指定規(guī)則必須滿足的支持度和置信度閾值,此兩個值稱為最小支持度閾值(min_sup)和最小置信度閾值(min_conf)。其中min_sup描述了關(guān)聯(lián)規(guī)則的最低重要度,min_conf規(guī)定了關(guān)聯(lián)規(guī)則必須滿足的最低可靠性。

具體的簡單應(yīng)用讀者可以自己自行從網(wǎng)上找取資源。

下面我們來總結(jié)一下Apriori算法的優(yōu)缺點:


Apriori算法應(yīng)用的領(lǐng)域多樣,其中主要包括:商業(yè)、網(wǎng)絡(luò)安全、高效管理和移動通信等領(lǐng)域的應(yīng)用。

介紹完Apriori算法之后,我們回歸我們的案例分析,基于關(guān)聯(lián)規(guī)則的購物籃分析。那么關(guān)聯(lián)規(guī)則的挖掘過程如圖:


三、建模仿真

1模型輸入

模型的輸入包括兩部分,一部分是建模專家樣本數(shù)據(jù)的輸入,另外一部分是建模參數(shù)的輸入。

建模參數(shù)如下表:


2具體的仿真過程:


經(jīng)過上述的分析,我們可以發(fā)現(xiàn),在彼此不同的屬性之間,可以發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則,這有利于我們進(jìn)行商品定價和商品的擺放。合理的制定消費策略

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容