項(xiàng)目背景
本賽題提供用戶在2016年1月1日至2016年6月30日之間真實(shí)線上線下消費(fèi)行為,預(yù)測(cè)用戶在2016年7月領(lǐng)取優(yōu)惠券后15天以?xún)?nèi)的使用情況。
評(píng)價(jià)方式
本賽題目標(biāo)是預(yù)測(cè)投放的優(yōu)惠券是否核銷(xiāo)。針對(duì)此任務(wù)及一些相關(guān)背景知識(shí),使用優(yōu)惠券核銷(xiāo)預(yù)測(cè)的平均AUC(ROC曲線下面積)作為評(píng)價(jià)標(biāo)準(zhǔn)。 即對(duì)每個(gè)優(yōu)惠券coupon_id單獨(dú)計(jì)算核銷(xiāo)預(yù)測(cè)的AUC值,再對(duì)所有優(yōu)惠券的AUC值求平均作為最終的評(píng)價(jià)標(biāo)準(zhǔn)。
查看數(shù)據(jù)

首先導(dǎo)入數(shù)據(jù),上圖是用戶2016.1.1-2016.6.30的信息,接下來(lái)理解下每個(gè)字段的意思
User_id:用戶id
Merchant_id:商戶id
Coupon_id:優(yōu)惠券id
Distance_rate:優(yōu)惠情況
Distance:用戶離店的距離
Date_received:獲得優(yōu)惠券的日期
Date:使用優(yōu)惠券的日期
項(xiàng)目思路

優(yōu)惠券特征處理
定義函數(shù)將優(yōu)惠券折扣信息進(jìn)行特征提取,滿,減,折扣



2.查看用戶購(gòu)買(mǎi)使用優(yōu)惠券的情況

發(fā)現(xiàn)有優(yōu)惠卷購(gòu)買(mǎi)的人數(shù)只占一小部分,可視化一下購(gòu)買(mǎi)使用優(yōu)惠卷的情況,發(fā)現(xiàn)使用率最低的為2,4月份,3月份最高


日期的特征的提取,提取是否為工作日和星期,這里需要用到one-hot編碼,依舊定義函數(shù)來(lái)處理


添加label,用戶在拿到優(yōu)惠券后,15天內(nèi)如使用為1,未使用則為0,依舊定義函數(shù)處理

這邊可以說(shuō)是顧客和商戶的profile建立,通過(guò)客戶和商戶以前的買(mǎi)賣(mài)情況,提取各自或者交叉的特征。選擇哪個(gè)時(shí)間段的數(shù)據(jù)進(jìn)行特征提取是可以探索的,這里使用20160101到20160515之間的數(shù)據(jù)提取特征,20160516-20160615的數(shù)據(jù)作為訓(xùn)練集。
用戶特征的處理
商戶特征的處理
用戶的特征
每個(gè)用戶拿到的優(yōu)惠券數(shù)量
每個(gè)用戶購(gòu)買(mǎi)含優(yōu)惠券和無(wú)優(yōu)惠券購(gòu)買(mǎi)
用優(yōu)惠券消費(fèi)
距離商戶的距離
使用優(yōu)惠券購(gòu)買(mǎi)與優(yōu)惠券的數(shù)量的比值
使用優(yōu)惠券數(shù)量與后,購(gòu)買(mǎi)數(shù)量的比值
商戶特征
來(lái)自商戶的優(yōu)惠卷數(shù)量
用戶來(lái)商戶的消費(fèi)次數(shù)
距離用戶的距離
用戶來(lái)商戶的消費(fèi)次數(shù) 用優(yōu)惠券
使用優(yōu)惠券購(gòu)買(mǎi)與優(yōu)惠券的數(shù)量的比值
使用優(yōu)惠券數(shù)量與后,購(gòu)買(mǎi)數(shù)量的比值
定義函數(shù)來(lái)處理以上特征


模型的選擇,這是個(gè)二分類(lèi)問(wèn)題,用的是邏輯回歸和GDBT

最后的結(jié)果邏輯回歸好些,結(jié)果也不理想,有許多可以改進(jìn)的地方
總結(jié)
特征選取可以更多,不夠全面,如15天內(nèi)多次用優(yōu)惠券消費(fèi)的,使用概率會(huì)更高
可以劃分更多的訓(xùn)練數(shù)據(jù)
模型的參數(shù)可以?xún)?yōu)化
嘗試使用更多的模型
線上的數(shù)據(jù)可以用上,這次沒(méi)有提取線上特征
學(xué)習(xí)資料點(diǎn)擊這里