伊人思思久99久女女,插洞/AV

關聯分析，也稱購物籃分析，本文目的：

基于訂單表，用最少的python代碼完成數據整合及關聯分析

文中所用數據下載地址：

鏈接：https://pan.baidu.com/s/1GPKpw4oFJL-4ua1VuMW6yA
密碼：ub6e

使用Python Anaconda集成數據分析環(huán)境，下載mlxtend機器學習包。包挺好，文檔不太完善。

閑話少說，開始吧：

Step 1. 載入包

import pandas as pd
from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

Step 2. 讀取原始數據包

df = pd.read_excel('./Online Retail.xlsx')
df.head()

image.png

Step 3. 數據預處理——選定樣本

df['Description'] = df['Description'].str.strip()
df.dropna(axis=0, subset=['InvoiceNo'], inplace=True)
df['InvoiceNo'] = df['InvoiceNo'].astype('str')
df = df[~df['InvoiceNo'].str.contains('C')]

描述Description字段去除首尾空格，刪除發(fā)票ID"InvoiceNo"為空的數據記錄，將發(fā)票ID"InvoiceNo"字段轉為字符型，刪除發(fā)票ID"InvoiceNo"不包含“C”的記錄

Step 4. 數據預處理——處理為購物籃數據集

方法一：使用pivot_table函數

import numpy as np
basket = df[df['Country'] =="France"].pivot_table(columns = "Description",index="InvoiceNo",
              values="Quantity",aggfunc=np.sum).fillna(0)
basket.head(20)

方法二：groupby后unstack

basket2 = (df[df['Country'] =="Germany"]
          .groupby(['InvoiceNo', 'Description'])['Quantity']
          .sum().unstack().reset_index().fillna(0)
          .set_index('InvoiceNo'))

basket選擇法國地區(qū)數據，basket2為德國地區(qū)數據，不要忘記fillna(0)，將空值轉為0，算法包需要。
用到的都是pandas數據整合基礎功能，參考網址：
http://pandas.pydata.org/pandas-docs/stable/10min.html

整合后數據差不多長這樣：

image.png

列名為商品名稱，每一行為一個訂單。

Step 5. 將購物數量轉為0/1變量

0：此訂單未購買包含列名

1：此訂單購買了列名商品

def encode_units(x):
    if x <= 0:
        return 0
    if x >= 1:
        return 1


basket_sets = basket.applymap(encode_units)
basket_sets.drop('POSTAGE', inplace=True, axis=1)

使用dataframe的applymap函數，將encode_units在basket中的每個單元格執(zhí)行并返回

刪除購物籃中的郵費項（POSTAGE）

Step 6. 使用算法包進行關聯規(guī)則運算

frequent_itemsets = apriori(basket_sets2, min_support=0.05, use_colnames=True)
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)

frequent_itemsets 為頻繁項集：

image.png

Support列為支持度，即項集發(fā)生頻率/總訂單量

rules為最終關聯規(guī)則結果表：

image.png

antecedants前項集，consequents后項集，support支持度，confidence置信度，lift提升度。

參考：http://www.360doc.com/content/15/0611/19/25802092_477451393.shtml

Final Step. 結果檢視

rules[ (rules['lift'] >= 6) &
       (rules['confidence'] >= 0.8) ]\
.sort_values("lift",ascending = False)

選取置信度（confidence）大于0.8且提升度（lift）大于5的規(guī)則，按lift降序排序

image.png

結論參考理論知識，自行解讀 :)
歡迎交流，謝謝。

參考資料：http://pbpython.com/market-basket-analysis.html

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python 極簡關聯分析（購物籃分析）

Python 極簡關聯分析（購物籃分析）

基于訂單表，用最少的python代碼完成數據整合及關聯分析

Step 1. 載入包

Step 2. 讀取原始數據包

Step 3. 數據預處理——選定樣本

Step 4. 數據預處理——處理為購物籃數據集

方法一：使用pivot_table函數

方法二：groupby后unstack

Step 5. 將購物數量轉為0/1變量

Step 6. 使用算法包進行關聯規(guī)則運算

Final Step. 結果檢視

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python 極簡關聯分析（購物籃分析）

基于訂單表，用最少的python代碼完成數據整合及關聯分析

Step 1. 載入包

Step 2. 讀取原始數據包

Step 3. 數據預處理——選定樣本

Step 4. 數據預處理——處理為購物籃數據集

方法一：使用pivot_table函數

方法二：groupby后unstack

Step 5. 將購物數量轉為0/1變量

Step 6. 使用算法包進行關聯規(guī)則運算

Final Step. 結果檢視

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av