哪幾個(gè)部分?
一階模型融合,線性模型樹模型
二階模型融合,F(xiàn)M
高階模型融合,Wide and Deep
1 線性模型和樹模型
講了什么?
GBDT + LR融合
為什么融合?
分為挖掘,召回,排序
挖掘:內(nèi)容分析,用戶分析,建好索引
融合是一種提升思想
GBDT + LR
- LR
特征:量化方式兩種,實(shí)數(shù)或者布爾值;字段轉(zhuǎn)特征方法有One-hot,特征分段,特征變換(連續(xù)值變換到0-1或者做離散化)
特征工程:構(gòu)建高階特征組合
權(quán)重:一是損失函數(shù)的最小化,還要加上正則化,需要看方差足夠小的模型,防止過(guò)擬合
權(quán)重學(xué)習(xí):除了要作出方差小偏差小的模型,在工程上也要一是越多權(quán)重為0越好,減少計(jì)算復(fù)雜度,并且方差會(huì)比較??;二是希望能夠在線學(xué)習(xí)這些權(quán)重,隨機(jī)梯度下降收斂慢,谷歌有一套FTRL算法 - GBDT
決策樹:RF和GBDT
GBDT:生成一棵樹,損失函數(shù)為誤差平方和,產(chǎn)生殘差,后面的樹來(lái)根據(jù)上一個(gè)殘差擬合新的樹,直到滿足條件為止,使用的時(shí)候把預(yù)測(cè)結(jié)果相加
GBDT用于分類:把損失函數(shù)變?yōu)閷?duì)數(shù)損失函數(shù);為了防止過(guò)擬合損失函數(shù)匯總需要加入正則項(xiàng):總共樹的個(gè)數(shù),樹的深度,葉子節(jié)點(diǎn)的權(quán)重大小;遇到實(shí)數(shù)值的特征需要分裂成若干區(qū)間,可以參考XGBoost計(jì)算分裂點(diǎn)收益,也可以參考決策樹所用的信息增益 - 兩者結(jié)合
GBDT產(chǎn)生N個(gè)樹,每個(gè)樹有M個(gè)葉節(jié)點(diǎn),M個(gè)維度,一個(gè)樹對(duì)應(yīng)一個(gè)one-hot變量,樣本來(lái)了產(chǎn)生N個(gè)one-hot向量,然后N個(gè)one-hot向量傳入LR
2 FM
特征組合
暴力特征組合二階笛卡爾乘積問(wèn)題:
特征維度太多,或者無(wú)效,樣本非常稀疏,不能找到符合組合特征的樣本,也就沒(méi)有辦法為這個(gè)組合訓(xùn)練有效的參數(shù)
詳解
用隱因子的向量點(diǎn)積替代原來(lái)兩兩組合的部分
計(jì)算復(fù)雜度由O(kn^2) 降到O(kn)
可以一網(wǎng)打進(jìn)其他模型,如SVD(只留下用戶ID和電影ID),SVD++(加入歷史評(píng)過(guò)分的),time-SVD(加上時(shí)間信息的SVD)
擴(kuò)展FFM
3 Wide & Deep
wide更多是一種記憶模型,deep泛化能力比較強(qiáng)
wide包括線性和交叉特征
deep主要是embedding+連續(xù)特征
數(shù)據(jù)去異常,歸一化