丝袜美腿高跟美女内射,大胸av中文在线播放

特征處理：

? ?1. 數(shù)值型

? ?2. 類別型

? ?3. 時(shí)間類

? ?4. 文本型

? ?5. 統(tǒng)計(jì)型

? ?6. 組合特征

---1. 數(shù)值型

--------幅度調(diào)整/歸一化（年齡、銷售量）

--------統(tǒng)計(jì)值max、min、mean、std（波動(dòng)情況，方差）（最高最低消費(fèi)---消費(fèi)能力）

--------離散化（price分段 ?pd.cut）柱狀分布 | 直方圖統(tǒng)計(jì) | 不一定均勻切分| 可能在密度高的地方進(jìn)行頻次切分

--------Hash分桶

--------每個(gè)類別下對(duì)應(yīng)的變量統(tǒng)計(jì)值histogram（分布狀況）

---------數(shù)值型-->類別型

python-pandas數(shù)據(jù)處理包

---2. 類別型

-----1. one-hot編碼?

------2. 啞編碼

------3. Hash與聚類處理

小技巧：統(tǒng)計(jì)每個(gè)類別變量下各個(gè)target比例，轉(zhuǎn)成數(shù)值型

histogram映射

比如第一個(gè)特征性別，首先看target（愛好）的取值空間{足球、散步、看電視劇}，總共有三個(gè)男生，有兩個(gè)喜歡足球

?足球 ?散步看電視劇

男[2/3，1/3，0] 意義：有這么一個(gè)群體叫做男，有2/3喜歡足球，有1/3喜歡散步，沒有人喜歡看電視劇?！究梢钥醋髯约禾砑拥木S度】

好處：把target和特征的后驗(yàn)概率聯(lián)系起來

---3.時(shí)間型(電商里用的頻繁)

時(shí)間型既可以看作是連續(xù)值也可以看作是離散值

------1）連續(xù)值：持續(xù)時(shí)間（單頁瀏覽時(shí)長->喜好程度，購買傾向性）間隔時(shí)間（上次購買/點(diǎn)擊離現(xiàn)在的時(shí)間->消耗品）

------2）離散值（離散化->找完備集）：a)按小時(shí)時(shí)間段(hour_0-23)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? b)一周中天數(shù)（星期一、星期二）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? c）一年哪幾個(gè)星期

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? d）工作日/周末

舉例：預(yù)測哪一個(gè)顧客會(huì)成為?？停ㄓ猛靖鶕?jù)不同的顧客劃分，給予不同的優(yōu)惠）

顧客購買記錄

對(duì)于時(shí)間戳特征：除了能夠拿到年月日（連續(xù)值），還能根據(jù)日歷（一些離散值）判斷出星期幾，是一年當(dāng)中的第幾個(gè)星期（和季節(jié)有關(guān)），一天當(dāng)中的第幾個(gè)小時(shí)（早中晚（與外賣相關(guān)））

年月日-->節(jié)假日和購物的關(guān)系，用戶的節(jié)假日喜好（造出離雙十一還有多少天、節(jié)假日過去了多少天）全靠腦洞

購物的話平時(shí)和周末有差別

----4. 文本型

?-- 詞袋

文本數(shù)據(jù)預(yù)處理后，去掉停用詞，剩下的次組成的list在詞庫中的映射稀疏向量

詞袋

hash技巧--bucket{領(lǐng)域詞集}

比如bucket1=體育，bucket2=醫(yī)學(xué)

將不同的語句在不同領(lǐng)域背景下轉(zhuǎn)換成向量

----把詞袋擴(kuò)充成n-gram

原因-->順序無關(guān)

舉例：無法區(qū)別“我討厭你”，“你討厭我”

2-gram["我討厭"，“討厭你”，“你討厭”，“討厭我”]

區(qū)分就變強(qiáng)了

------統(tǒng)計(jì)方法TF-idf特征

給每個(gè)詞編碼一個(gè)權(quán)重，用于評(píng)估某個(gè)語料集某個(gè)詞的重要程度。字詞的重要性會(huì)隨著它在文件中出現(xiàn)的次數(shù)正比增長（特征），但是會(huì)隨著在語料中出現(xiàn)的頻率成反比下降（普適）

-----深度學(xué)習(xí)：詞袋-->word2vec

向量不再是0-1，而是連續(xù)值（表示不同詞之間的關(guān)系）

比如（國王--女王）（男人--女人）兩個(gè)向量對(duì)之間的關(guān)系是近似的

再比如(柏林--德國)（東京--日本）那么柏林到德國的距離和東京到日本的距離是相當(dāng)?shù)?/p>

------5. 統(tǒng)計(jì)特征（與業(yè)務(wù)貼合很高）

歷屆的kaggle/天池比賽，天貓/京東排序和推薦業(yè)務(wù)線里模型用到的特征

---加減平均：商品價(jià)格高于平均價(jià)格多少，用戶在某個(gè)品類下消費(fèi)超過平均用戶多少？用戶連續(xù)登陸天數(shù)超過平均多少

---分位線：商品屬于售出商品價(jià)格的多少分位線處

----次序型：排位

---比例類：電商中，好/中/差評(píng)的比例

? ? ? ? ? ? ? ? ? 你已超過全國百分之...的同學(xué)

舉例：天池大數(shù)據(jù)之移動(dòng)推薦算法大賽

特征處理舉例

1）前一天的購物商品很有可能第二天就被購買==>規(guī)則

2）剔除掉在30天里從來不買東西的人 ?==>數(shù)據(jù)清洗

3）加車N件，只買了一件的，剩余的不會(huì)買 ==>規(guī)則

4）購物車購買的轉(zhuǎn)化率 ==>用戶維度統(tǒng)計(jì)特征

5) ?商品熱度 ?==> 商品維度統(tǒng)計(jì)特征

6) 對(duì)不同的item點(diǎn)擊/收藏/購物車/購買的總計(jì) ==>商品維度統(tǒng)計(jì)

7) 對(duì)不同item點(diǎn)擊/收藏/購物車/購買平均每個(gè)user的計(jì)數(shù) ==> 用戶維度統(tǒng)計(jì)

8）變熱門的品牌/商品 ==> 商品維度統(tǒng)計(jì)特征（差值型）

9）最近1/2/3/7天的行為數(shù)與平均行為數(shù)的比值 ==>用戶維度統(tǒng)計(jì)特征(比例型)

10）商品在類別中的排序 ==>商品統(tǒng)計(jì)特征(次序型)

11）商品交互的總?cè)藬?shù) ==>商品維度統(tǒng)計(jì)特征（求和）

12) 商品的購買轉(zhuǎn)化率及轉(zhuǎn)化率與類別平均轉(zhuǎn)化率的比值=>商品維度統(tǒng)

計(jì)特征(比例型)

(13) 商品行為/同類同行為均值=>商品維度統(tǒng)計(jì)特征(比例型)

(14) 最近1/2/3天的行為(按4類統(tǒng)計(jì))=>時(shí)間型+用戶維度統(tǒng)計(jì)特征

(15) 最近的交互離現(xiàn)在的時(shí)間=>時(shí)間型

(16) 總交互的天數(shù)=>時(shí)間型

(17) 用戶A對(duì)品牌B的總購買數(shù)/收藏?cái)?shù)/購物車數(shù)=>用戶維度統(tǒng)計(jì)特征

(18) 用戶A對(duì)品牌B的點(diǎn)擊數(shù)的平方 =>用戶維度統(tǒng)計(jì)特征

(19) 用戶A對(duì)品牌B的購買數(shù)的平方=>用戶維度統(tǒng)計(jì)特征

(20) 用戶A對(duì)品牌B的點(diǎn)擊購買比=>用戶維度統(tǒng)計(jì)特征(比例型)

(21) 用戶交互本商品前/后，交互的商品數(shù)=>時(shí)間型+用戶維度統(tǒng)計(jì)特征

(22) 用戶前一天最晚的交互行為時(shí)間=>時(shí)間型

(23) 用戶購買商品的時(shí)間(平均，最早，最晚)=>時(shí)間型

----6. 組合特征

?----簡單組合特征：拼接型 10002（用戶id）&& 男士牛仔

實(shí)際電商點(diǎn)擊率預(yù)估中：

正負(fù)權(quán)重，喜歡&&不喜歡某種類型

---模型組合特征

1. 用GBDT產(chǎn)出特征組合路徑

2. 組合特征和原始特征一起放進(jìn)LR訓(xùn)練

3. 最早facebook使用的方式，多家互聯(lián)網(wǎng)公司在用

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

特征工程（二）

特征工程（二）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

特征工程（二）

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av