關(guān)注公眾號 長歌大腿,發(fā)送“機(jī)器學(xué)習(xí)”關(guān)鍵字,可獲取包含機(jī)器學(xué)習(xí)(包含深度學(xué)習(xí)),統(tǒng)計(jì)概率,優(yōu)化算法等系列文本與視頻經(jīng)典資料,如《ESL》《PRML》《MLAPP》等。
《現(xiàn)代推薦算法》神經(jīng)協(xié)同過濾之GMF算法
神經(jīng)協(xié)同過濾簡介
前面的文章介紹了協(xié)同過濾算法,主要分為基于用戶的協(xié)同過濾算法與基于物品的協(xié)同過濾算法,同時(shí)指出,矩陣分解也屬于廣義的協(xié)同過濾算法。
那么之前的文章介紹的SVD,SVD++等等矩陣分解算法都是在傳統(tǒng)矩陣分解上面進(jìn)行的改進(jìn)。隨著神經(jīng)網(wǎng)絡(luò)的興起,神經(jīng)網(wǎng)絡(luò)應(yīng)用到協(xié)同過濾算法上,有研究者(何教授)提出了神經(jīng)協(xié)同過濾算法,并將其分為GMF,MLP,NeuMF三種具體的網(wǎng)絡(luò)結(jié)構(gòu)。我們在本篇文章中介紹其中的GMF模型。
廣義矩陣分解算法(GMF)
GMF是廣義矩陣分解的簡寫(generalized matrix factorization model) ,它模型具體描述為用戶隱空間向量與物品隱空間向量的點(diǎn)積,然后進(jìn)行加權(quán)和輸出。如果我們令用戶隱空間向量 為
物品隱空間向量
為
. GMF 由下面這個數(shù)學(xué)式給出
在公式里 是點(diǎn)積,
,
是輸出層激活函數(shù)與加權(quán)和輸出的權(quán)重。在GMF模型中,模型用sigmoid 方程
作為激活函數(shù)
,通過訓(xùn)練數(shù)據(jù)優(yōu)化對數(shù)損失(交叉熵)學(xué)習(xí)權(quán)重
.
代碼實(shí)現(xiàn)
我們采用pytorch計(jì)算框架來示例GMF的網(wǎng)絡(luò)結(jié)構(gòu)部分。GMF網(wǎng)絡(luò)類如下所示,
class GMF(nn.Module):
def __init__(self,user_num, item_num, factor_num):
super(GMF,self).__init__()
self.embed_user_GMF = nn.Embedding(user_num,factor_num)
self.embed_item_GMF = nn.Embedding(item_num,factor_num)
self.predict_layer = nn.Linear(factor_num,1)
self._init_weight_()
def _init_weight_(self):
nn.init.normal_(self.embed_item_GMF.weight,std=0.01)
nn.init.normal_(self.embed_user_GMF.weight,std=0.01)
def forward(self,user,item):
embed_user_GMF = self.embed_user_GMF(user)
embed_item_GMF = self.embed_item_GMF(item)
output_GMF = embed_user_GMF*embed_item_GMF
prediction = self.predict_layer(output_GMF)
return prediction.view(-1)
先根據(jù)嵌入層維度等信息初始化網(wǎng)絡(luò),同時(shí)初始化權(quán)重為方差為0.01的正態(tài)分布(非必要)。
網(wǎng)絡(luò)傳播層如代碼所示,輸入為用戶與物品的ID,然后經(jīng)過嵌入編碼,再進(jìn)行點(diǎn)積,最后通過一個全連接線性層加權(quán)輸出。