特征工程(二)

特征處理:

? ?1. 數(shù)值型

? ?2. 類別型

? ?3. 時(shí)間類

? ?4. 文本型

? ?5. 統(tǒng)計(jì)型

? ?6. 組合特征

---1. 數(shù)值型

--------幅度調(diào)整/歸一化(年齡、銷售量)

--------統(tǒng)計(jì)值max、min、mean、std(波動(dòng)情況,方差)(最高最低消費(fèi)---消費(fèi)能力)

--------離散化(price分段 ?pd.cut)柱狀分布 | 直方圖統(tǒng)計(jì) | 不一定均勻切分| 可能在密度高的地方進(jìn)行頻次 切分

--------Hash分桶

--------每個(gè)類別下對(duì)應(yīng)的變量統(tǒng)計(jì)值histogram(分布狀況)

---------數(shù)值型-->類別型

python-pandas數(shù)據(jù)處理包

---2. 類別型

-----1. one-hot編碼?

------2. 啞編碼

------3. Hash與聚類處理

小技巧:統(tǒng)計(jì)每個(gè)類別變量下各個(gè)target比例,轉(zhuǎn)成數(shù)值型

histogram映射

比如第一個(gè)特征性別,首先看target(愛好)的取值空間{足球、散步、看電視劇},總共有三個(gè)男生,有兩個(gè)喜歡足球

?足球 ?散步 看電視劇

男[2/3,1/3,0] 意義:有這么一個(gè)群體叫做男,有2/3喜歡足球,有1/3喜歡散步,沒有人喜歡看電視劇?!究梢钥醋髯约禾砑拥木S度】

好處:把target和特征的后驗(yàn)概率聯(lián)系起來

---3.時(shí)間型(電商里用的頻繁)

時(shí)間型既可以看作是連續(xù)值也可以看作是離散值

------1)連續(xù)值:持續(xù)時(shí)間(單頁瀏覽時(shí)長->喜好程度,購買傾向性)間隔時(shí)間(上次購買/點(diǎn)擊離現(xiàn)在的時(shí)間->消耗品)

------2)離散值(離散化->找完備集):a)按小時(shí)時(shí)間段(hour_0-23)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? b)一周中天數(shù)(星期一、星期二)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? c)一年哪幾個(gè)星期

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? d)工作日/周末

舉例:預(yù)測哪一個(gè)顧客會(huì)成為??停ㄓ猛靖鶕?jù)不同的顧客劃分,給予不同的優(yōu)惠)

顧客購買記錄

對(duì)于時(shí)間戳特征:除了能夠拿到年月日(連續(xù)值),還能根據(jù)日歷(一些離散值)判斷出星期幾,是一年當(dāng)中的第幾個(gè)星期(和季節(jié)有關(guān)),一天當(dāng)中的第幾個(gè)小時(shí)(早中晚(與外賣相關(guān)))

年月日-->節(jié)假日和購物的關(guān)系,用戶的節(jié)假日喜好(造出離雙十一還有多少天、節(jié)假日過去了多少天)全靠腦洞

購物的話平時(shí)和周末有差別

----4. 文本型

?-- 詞袋

文本數(shù)據(jù)預(yù)處理后,去掉停用詞,剩下的次組成的list在詞庫中的映射稀疏向量


詞袋

hash技巧--bucket{領(lǐng)域詞集}

比如bucket1=體育,bucket2=醫(yī)學(xué)

將不同的語句在不同領(lǐng)域背景下轉(zhuǎn)換成向量

----把詞袋擴(kuò)充成n-gram

原因-->順序無關(guān)

舉例:無法區(qū)別“我討厭你”,“你討厭我”

2-gram["我討厭",“討厭你”,“你討厭”,“討厭我”]

區(qū)分就變強(qiáng)了

------統(tǒng)計(jì)方法TF-idf特征

給每個(gè)詞編碼一個(gè)權(quán)重,用于評(píng)估某個(gè)語料集某個(gè)詞的重要程度。字詞的重要性會(huì)隨著它在文件中出現(xiàn)的次數(shù)正比增長(特征),但是會(huì)隨著在語料中出現(xiàn)的頻率成反比下降(普適)

-----深度學(xué)習(xí):詞袋-->word2vec

向量不再是0-1,而是連續(xù)值(表示不同詞之間的關(guān)系)

比如(國王--女王)(男人--女人)兩個(gè)向量對(duì)之間的關(guān)系是近似的

再比如(柏林--德國)(東京--日本)那么柏林到德國的距離和東京到日本的距離是相當(dāng)?shù)?/p>

------5. 統(tǒng)計(jì)特征(與業(yè)務(wù)貼合很高)

歷屆的kaggle/天池比賽,天貓/京東排序和推薦業(yè)務(wù)線里模型用到的特征

---加減平均:商品價(jià)格高于平均價(jià)格多少,用戶在某個(gè)品類下消費(fèi)超過平均用戶多少?用戶連續(xù)登陸天數(shù)超過平均多少

---分位線: 商品屬于售出商品價(jià)格的多少分位線處

----次序型:排位

---比例類:電商中,好/中/差評(píng)的比例

? ? ? ? ? ? ? ? ? 你已超過全國百分之...的同學(xué)

舉例:天池大數(shù)據(jù)之移動(dòng)推薦算法大賽

特征處理舉例

1)前一天的購物商品很有可能第二天就被購買==>規(guī)則

2)剔除掉在30天里從來不買東西的人 ?==>數(shù)據(jù)清洗

3) 加車N件,只買了一件的,剩余的不會(huì)買 ==>規(guī)則

4)購物車購買的轉(zhuǎn)化率 ==>用戶維度統(tǒng)計(jì)特征

5) ?商品熱度 ?==> 商品維度統(tǒng)計(jì)特征

6) 對(duì)不同的item點(diǎn)擊/收藏/購物車/購買的總計(jì) ==>商品維度統(tǒng)計(jì)

7) 對(duì)不同item點(diǎn)擊/收藏/購物車/購買平均每個(gè)user的計(jì)數(shù) ==> 用戶維度統(tǒng)計(jì)

8) 變熱門的品牌/商品 ==> 商品維度統(tǒng)計(jì)特征(差值型)

9)最近1/2/3/7天的行為數(shù)與平均行為數(shù)的比值 ==>用戶維度統(tǒng)計(jì)特征(比例型)

10)商品在類別中的排序 ==>商品統(tǒng)計(jì)特征(次序型)

11)商品交互的總?cè)藬?shù) ==>商品維度統(tǒng)計(jì)特征(求和)

12) 商品的購買轉(zhuǎn)化率及轉(zhuǎn)化率與類別平均轉(zhuǎn)化率的比值=>商品維度統(tǒng)

計(jì)特征(比例型)

(13) 商品行為/同類同行為均值=>商品維度統(tǒng)計(jì)特征(比例型)

(14) 最近1/2/3天的行為(按4類統(tǒng)計(jì))=>時(shí)間型+用戶維度統(tǒng)計(jì)特征

(15) 最近的交互離現(xiàn)在的時(shí)間=>時(shí)間型

(16) 總交互的天數(shù)=>時(shí)間型

(17) 用戶A對(duì)品牌B的總購買數(shù)/收藏?cái)?shù)/購物車數(shù)=>用戶維度統(tǒng)計(jì)特征

(18) 用戶A對(duì)品牌B的點(diǎn)擊數(shù)的平方 =>用戶維度統(tǒng)計(jì)特征

(19) 用戶A對(duì)品牌B的購買數(shù)的平方=>用戶維度統(tǒng)計(jì)特征

(20) 用戶A對(duì)品牌B的點(diǎn)擊購買比=>用戶維度統(tǒng)計(jì)特征(比例型)

(21) 用戶交互本商品前/后,交互的商品數(shù)=>時(shí)間型+用戶維度統(tǒng)計(jì)特征

(22) 用戶前一天最晚的交互行為時(shí)間=>時(shí)間型

(23) 用戶購買商品的時(shí)間(平均,最早,最晚)=>時(shí)間型

----6. 組合特征

?----簡單組合特征:拼接型 10002(用戶id)&& 男士牛仔

實(shí)際電商點(diǎn)擊率預(yù)估中:

正負(fù)權(quán)重,喜歡&&不喜歡某種類型

---模型組合特征

1. 用GBDT產(chǎn)出特征組合路徑

2. 組合特征和原始特征一起放進(jìn)LR訓(xùn)練

3. 最早facebook使用的方式,多家互聯(lián)網(wǎng)公司在用

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容