1. 思考兩個(gè)問(wèn)題
目錄:
- 分析sgd為什么沒(méi)有提升
- 對(duì)照英豪的文檔,推論細(xì)節(jié)
1. 分析sgd為什么沒(méi)有提升
下面將從兩個(gè)方面來(lái)探討
- 首先傳統(tǒng)模型是有解釋性的,那么可以從這方面挖掘一下為什么沒(méi)有提升嗎?
- 那么是否數(shù)據(jù)集有影響呢?
先說(shuō)結(jié)論:
- 矩陣分解解釋性并不強(qiáng),因此這條路不行
- 數(shù)據(jù)集可能有影響,但還未實(shí)驗(yàn)驗(yàn)證
-
首先傳統(tǒng)模型是有解釋性的,那么可以從這方面挖掘一下為什么沒(méi)有提升嗎?
參考文章,分別對(duì)應(yīng)下面的 1 , 2 , 3 點(diǎn):
- 那么是否數(shù)據(jù)集有影響呢?
-
可以嘗試其他數(shù)據(jù)集,如
- FilmTrust 是一個(gè)基于信任關(guān)系的電影推薦網(wǎng)站,用戶(hù)能夠依據(jù)自身偏好對(duì)電影做出評(píng)分,同時(shí)構(gòu)建單向信任關(guān)系
- Ciao 數(shù)據(jù)集(http://www.jiliang.xyz/trust.html)由 Tang 等人于物品評(píng)論網(wǎng)站 Ciao 收集所得
- Epinions 數(shù)據(jù)集(http:// www.trustlet.org/downloaded epinions.html)
- Douban 數(shù)據(jù)集(https://www.cse.cuhk.edu.hk/irwin.king.new/pub/data/douban)
-
數(shù)據(jù)集中,用戶(hù)們不同社交關(guān)系強(qiáng)度,具體驗(yàn)證方式參考:融合社交信息的矩陣分解推薦方法研究綜述
-
數(shù)據(jù)集中,不同的用戶(hù)可以被用來(lái)進(jìn)一步提高推薦質(zhì)量嗎?
- 需要進(jìn)一步論證
2. 對(duì)照英豪的文檔,推論細(xì)節(jié)
看了之后,我在想我之前得出來(lái)的結(jié)果是否有細(xì)節(jié)含在其中呢,那么下面就是我的一些想法。
先說(shuō)結(jié)論:
添加相似度后,模型的泛化能力進(jìn)一步提高,不容易過(guò)擬合。就是說(shuō)長(zhǎng)期收益增加了。
2.1 SGD的對(duì)比結(jié)果及總結(jié)想法
下面表格是對(duì)比結(jié)果,模型共兩個(gè):baseline 和 添加相似度的 SGD
- 名詞解釋?zhuān)?
- Iteration:迭代次數(shù)
- train_mse:訓(xùn)練集訓(xùn)練時(shí)的 MSE
- test_mse:測(cè)試集測(cè)試時(shí)的 MSE
| 原SGD | Iteration | train_mse | test_mse | 加用戶(hù)相似度SGD | Iteration | train_mse | test_mse | train_mse 對(duì)比提升 | test_mse對(duì)比提升 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.141784386 | 1.188415965 | 1 | 13.67562 | 14.20713 | -1097.74% | -1095.47% | ||
| 10 | 0.917914525 | 1.011238497 | 10 | 6.573647 | 9.61891 | -616.15% | -851.20% | ||
| 25 | 0.866157052 | 0.963646883 | 25 | 1.179691 | 1.99135 | -36.20% | -106.65% | ||
| 50 | 0.838677125 | 0.943052707 | 50 | 0.891645 | 1.107708 | -6.32% | -17.46% | ||
| 100 | 0.754480384 | 0.924777349 | 100 | 0.76197 | 0.948601 | -0.99% | -2.58% | ||
| 200 | 0.402944841 | 0.917382603 | 200 | 0.514333 | 0.898999 | -27.64% | 2.00% | ||
從表格中可以得到的信息是,在隨著訓(xùn)練迭代次數(shù)的增加,添加相似度的 SGD 算法與原本未加相似度的 SGD 算法的差距一直再減少,并最終在迭代次數(shù)為 200 時(shí),test_mse 的結(jié)果比未加的提升了。
我想的是,這結(jié)果表明添加相似度后,模型的泛化能力進(jìn)一步提高,不容易過(guò)擬合。



