論文筆記之Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features

Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features

文中開(kāi)篇講了將原始特征組合成combinatorial feature的重要意義,但同時(shí)也指出創(chuàng)造有意義的組合特征是比較困難的。
本文提出了Deep Crossing模型,通過(guò)deep learning的方式由模型來(lái)隱式的組合特征。
下圖是Deep Crossing的模型結(jié)構(gòu)。

可以看到Deep Crossing包含了Embedding, Stacking, Residual Unit, Scoring Layer四種類(lèi)型的層。
本文中的模型用于CTR預(yù)估,因此Scoring Layer用sigmoid,使用了log loss,

對(duì)于不同的問(wèn)題,可以靈活的進(jìn)行設(shè)計(jì),比如對(duì)于多分類(lèi),Scoring Layer用softmax,loss用交叉熵。

Embedding and Stacking Layers

embedding layer包含了一個(gè)單層的神經(jīng)網(wǎng)絡(luò),如下

激活函數(shù)用的是relu。j指的是第j個(gè)特征,XIj為nj維輸入特征,Wj是mj * nj維的權(quán)重矩陣,bj是nj維的bias,Xoj為embed后的特征。當(dāng)mj<nj時(shí),embedding起到了減少輸入特征維度的作用。
在stacking層,把所有特征堆疊成一個(gè)向量,即

K是輸入特征的數(shù)量。
需要注意的是,W和b是作為網(wǎng)絡(luò)的參數(shù),會(huì)和網(wǎng)絡(luò)中的其他參數(shù)一起被優(yōu)化。
文中低于256維的特征不做embedding,直接進(jìn)入stacking層。

Residual Layers

殘差層由殘差單元(the Residual Unit)構(gòu)成,殘差單元如下,(沒(méi)有使用卷積層,文中提到這是第一次殘差單元被用于圖像識(shí)別之外)

residual unit的特點(diǎn)在于,在原始輸入特征向前傳遞兩層后,再加上原始輸入特征,也就是

W0, W1, b0, b1是中間兩層的weight和bias,F(xiàn)表示將X1映射到X0的函數(shù)。
把X1移到等式左邊,即F是在擬合X0-X1的殘差。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容