1 Model-Based 協(xié)同過濾算法
隨著機器學(xué)習(xí)技術(shù)的逐漸發(fā)展與完善,推薦系統(tǒng)也主鍵運用機器學(xué)習(xí)的思想來進(jìn)行推薦。將機器學(xué)習(xí)應(yīng)用到推薦系統(tǒng)中的方案非常多。一下對Modek-Based CF算法做一個大致的分類:
- 基于分類算法、回歸算法、聚類算法
- 基于矩陣分解的推薦
- 基于神經(jīng)網(wǎng)絡(luò)算法
- 基于圖模型算法
接下來我們重點學(xué)習(xí)一下集中應(yīng)用較多的方案: - 基于回歸的協(xié)同過濾推薦
- 基于矩陣分解的協(xié)同過濾推薦
2 基于回歸的協(xié)同過濾推薦
將評分看成連續(xù)的值,借助線性回歸思想來預(yù)測目標(biāo)用戶對某物品的評分。其中一種實現(xiàn)策略是Baseline(基準(zhǔn)預(yù)測)。
Baseline:基準(zhǔn)預(yù)測
偏置(bias):某個用戶普遍偏離平均值的差值
Baseline 目標(biāo):
- 找出每個用戶普遍偏離平均值的偏置值 bu
- 找出每個物品普遍偏離平均值的偏置值 bi
使用Baseline的算法思想預(yù)測評分的步驟如下: - 計算所有電影的平均評分μ(即全局平均評分)
- 計算每個用戶評分與平均評分μ的偏置值bu
- 計算每部電影接受的評分與平均評分μ的偏置值bi
- 預(yù)測用戶對電影的評分:r(預(yù)測)=bui = μ + bu +bi
舉例:通過Baseline來預(yù)測用戶A對電影“阿甘正傳”的評分
對于所有電影評分平均分能夠直接計算,因此問題在于要測出每個用戶和每部電影的得分偏置置。對于線性回歸問題,我們可以利用平方差構(gòu)建損失函數(shù)。

損失函數(shù).png
加入L2正則化:
加入L2正則化.PNG
- 公式第一部分:是用來尋找與已知數(shù)據(jù)你和最好的bu和bi
- 攻勢第二部分:正則化項,用于避免過擬合現(xiàn)象。
對于求解最小損失函數(shù)的過程,我們一般采用隨機梯度下降法和交替最小二乘法來優(yōu)化實現(xiàn)。
方法一:隨機梯度下降法優(yōu)化
使用隨機梯度下降優(yōu)化算法預(yù)測Baseline偏置值
step 1:梯度下降法推導(dǎo)
step 2:隨機梯度下降
step 3:算法實現(xiàn)
pandasAPI