推薦系統(tǒng)--冷啟動(dòng)問(wèn)題

這兩天把《推薦系統(tǒng)實(shí)踐》差不多看完了,看下來(lái)整體感受就是,這真的是一本實(shí)踐的書(shū),一點(diǎn)花里胡哨的東西都沒(méi)有,從頭教你搭一個(gè)不用深度學(xué)習(xí)的推薦系統(tǒng)框架,真干貨。今天要談的問(wèn)題是冷啟動(dòng)。

關(guān)于冷啟動(dòng)問(wèn)題

首先說(shuō)什么叫冷啟動(dòng),簡(jiǎn)單的來(lái)講,冷啟動(dòng)就相當(dāng)于初始化,初始化需要做哪些事情,這就是冷啟動(dòng)問(wèn)題。
冷啟動(dòng)分為三類(lèi),分別是用戶(hù)冷啟動(dòng),物品冷啟動(dòng),和系統(tǒng)冷啟動(dòng)。
這三個(gè)問(wèn)題其實(shí)就是怎么對(duì)新的用戶(hù),新的物品,新的系統(tǒng)做初始化。比如說(shuō),來(lái)了一個(gè)新用戶(hù),要給別人推薦什么東西。

通常的解決方案的話(huà),就是提供 非個(gè)性化的推薦,最簡(jiǎn)單就是什么熱門(mén)推薦什么,等收集用戶(hù)一定的信息之后,再可以做個(gè)性化的推薦。

關(guān)系搜集信息

其實(shí)這個(gè)搜集信息,是這本書(shū)后面3個(gè)章節(jié)講的主要內(nèi)容,后面就在講如何利用好搜集的信息做推薦。這里簡(jiǎn)單的提了下。

那么可以搜集用戶(hù)或者系統(tǒng)或者物品的哪些信息呢。

  • 利用用戶(hù)注冊(cè)時(shí)提供的年齡、性別等數(shù)據(jù)做粗粒度的個(gè)性化。
  • 利用用戶(hù)的社交網(wǎng)絡(luò)賬號(hào)登錄(需要用戶(hù)授權(quán)),導(dǎo)入用戶(hù)在社交網(wǎng)站上的好友信息,然后給用戶(hù)推薦其好友喜歡的物品。
  • 要求用戶(hù)在登錄時(shí)對(duì)一些物品進(jìn)行反饋,收集用戶(hù)對(duì)這些物品的興趣信息,然后給用戶(hù)推薦那些和這些物品相似的物品。
  • 對(duì)于新加入的物品,可以利用內(nèi)容信息,將它們推薦給喜歡過(guò)和它們相似的物品的用戶(hù)。
  • 在系統(tǒng)冷啟動(dòng)時(shí),可以引入專(zhuān)家的知識(shí),通過(guò)一定的高效方式迅速建立起物品的相關(guān)度表。

1.用戶(hù)冷啟動(dòng)

用戶(hù)冷啟動(dòng),一開(kāi)始能用到的信息就是注冊(cè)信息。
基于注冊(cè)信息的個(gè)性化推薦流程基本如下:

  1. 獲取用戶(hù)的注冊(cè)信息;
  2. 根據(jù)用戶(hù)的注冊(cè)信息對(duì)用戶(hù)分類(lèi);
  3. 給用戶(hù)推薦他所屬分類(lèi)中用戶(hù)喜歡的物品。
    這里不展開(kāi)將怎么用這些東西,后面會(huì)單獨(dú)寫(xiě)一篇文章來(lái)介紹這個(gè)。

2.物品冷啟動(dòng)

物品冷啟動(dòng)需要解決的問(wèn)題是如何將新加入的物品推薦給對(duì)它感興趣的用戶(hù)。這里就可以利用ItemCF和UserCF了,但是這也暴露了這兩種算法的問(wèn)題。

比如對(duì)于ItemCF算法來(lái)說(shuō),因?yàn)镮temCF算法的原理是給用戶(hù)推薦和他之前喜歡的物品相似的物品。ItemCF算法會(huì)每隔一段時(shí)間利用用戶(hù)行為計(jì)算物品相似度表(一般一天計(jì)算一次),在線(xiàn)服務(wù)時(shí)ItemCF算法會(huì)將之前計(jì)算好的物品相關(guān)度矩陣放在內(nèi)存中。因此,當(dāng)新物品加入時(shí),內(nèi)存中的物品相關(guān)表中不會(huì)存在這個(gè)物品,從而ItemCF算法無(wú)法推薦新的物品。解決這一問(wèn)題的辦法是頻繁更新物品相似度表,但基于用戶(hù)行為計(jì)算物品相似度是非常耗時(shí)的事情,主要原因是用戶(hù)行為日志非常龐大。而且,新物品如果不展示給用戶(hù),用戶(hù)就無(wú)法對(duì)它產(chǎn)生行為,通過(guò)行為日志計(jì)算是計(jì)算不出包含新物品的相關(guān)矩陣的。為此,我們只能利用物品的內(nèi)容信息計(jì)算物品相關(guān)表,并且頻繁地更新相關(guān)表(比如半小時(shí)計(jì)算一次)。
這里就可以用萬(wàn)年不變的KNN。(我發(fā)現(xiàn)KNN的思想真的貫穿整個(gè)機(jī)器學(xué)習(xí))

3.系統(tǒng)冷啟動(dòng)

系統(tǒng)冷啟動(dòng)的問(wèn)題,一般就需要結(jié)合具體業(yè)務(wù)和一定的先驗(yàn)知識(shí)了。
書(shū)里介紹的例子是一個(gè)音樂(lè)推薦網(wǎng)站。首先需要人工或者半人工(爬別人的標(biāo)簽)對(duì)這些音樂(lè)做特征工程,然后進(jìn)行向量(余弦)相似度計(jì)算,得到一個(gè)矩陣(上篇文章我同學(xué)跟我說(shuō),隱語(yǔ)義模型就是一個(gè)矩陣分解,真的就是這么回事,大家去好好看看)。


冷啟動(dòng)就是以上問(wèn)題,下次會(huì)介紹如何具體利用數(shù)據(jù)來(lái)做推薦(有點(diǎn)類(lèi)似于特征工程)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容