推薦系統(tǒng)陳開江 - C6 模型融合

哪幾個(gè)部分?
一階模型融合,線性模型樹模型
二階模型融合,F(xiàn)M
高階模型融合,Wide and Deep

1 線性模型和樹模型

講了什么?
GBDT + LR融合

為什么融合?

分為挖掘,召回,排序
挖掘:內(nèi)容分析,用戶分析,建好索引
融合是一種提升思想

GBDT + LR

  • LR
    特征:量化方式兩種,實(shí)數(shù)或者布爾值;字段轉(zhuǎn)特征方法有One-hot,特征分段,特征變換(連續(xù)值變換到0-1或者做離散化)
    特征工程:構(gòu)建高階特征組合
    權(quán)重:一是損失函數(shù)的最小化,還要加上正則化,需要看方差足夠小的模型,防止過(guò)擬合
    權(quán)重學(xué)習(xí):除了要作出方差小偏差小的模型,在工程上也要一是越多權(quán)重為0越好,減少計(jì)算復(fù)雜度,并且方差會(huì)比較??;二是希望能夠在線學(xué)習(xí)這些權(quán)重,隨機(jī)梯度下降收斂慢,谷歌有一套FTRL算法
  • GBDT
    決策樹:RF和GBDT
    GBDT:生成一棵樹,損失函數(shù)為誤差平方和,產(chǎn)生殘差,后面的樹來(lái)根據(jù)上一個(gè)殘差擬合新的樹,直到滿足條件為止,使用的時(shí)候把預(yù)測(cè)結(jié)果相加
    GBDT用于分類:把損失函數(shù)變?yōu)閷?duì)數(shù)損失函數(shù);為了防止過(guò)擬合損失函數(shù)匯總需要加入正則項(xiàng):總共樹的個(gè)數(shù),樹的深度,葉子節(jié)點(diǎn)的權(quán)重大小;遇到實(shí)數(shù)值的特征需要分裂成若干區(qū)間,可以參考XGBoost計(jì)算分裂點(diǎn)收益,也可以參考決策樹所用的信息增益
  • 兩者結(jié)合
    GBDT產(chǎn)生N個(gè)樹,每個(gè)樹有M個(gè)葉節(jié)點(diǎn),M個(gè)維度,一個(gè)樹對(duì)應(yīng)一個(gè)one-hot變量,樣本來(lái)了產(chǎn)生N個(gè)one-hot向量,然后N個(gè)one-hot向量傳入LR

2 FM

特征組合

暴力特征組合二階笛卡爾乘積問(wèn)題:
特征維度太多,或者無(wú)效,樣本非常稀疏,不能找到符合組合特征的樣本,也就沒(méi)有辦法為這個(gè)組合訓(xùn)練有效的參數(shù)

詳解

用隱因子的向量點(diǎn)積替代原來(lái)兩兩組合的部分
計(jì)算復(fù)雜度由O(kn^2) 降到O(kn)
可以一網(wǎng)打進(jìn)其他模型,如SVD(只留下用戶ID和電影ID),SVD++(加入歷史評(píng)過(guò)分的),time-SVD(加上時(shí)間信息的SVD)
擴(kuò)展FFM

3 Wide & Deep

wide更多是一種記憶模型,deep泛化能力比較強(qiáng)
wide包括線性和交叉特征
deep主要是embedding+連續(xù)特征
數(shù)據(jù)去異常,歸一化

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容