學(xué)習(xí)筆記:《推薦算法——產(chǎn)品和內(nèi)容推薦》

這節(jié)課是尹相志老師《數(shù)據(jù)科學(xué)心法與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》系列課程的最后一講:《數(shù)據(jù)科學(xué)實(shí)務(wù)案例:推薦算法的案例建模與評(píng)估》

老師介紹了基于商品、基于人與商品、基于相似人三個(gè)階段的推薦算法演進(jìn)過(guò)程;以Facebook為例講了內(nèi)容推薦相關(guān)知識(shí);介紹了做產(chǎn)品推薦的思維方法和解題思路,以及如何透過(guò)追蹤機(jī)制來(lái)收集客戶數(shù)據(jù),充實(shí)推薦模型;最后講了通過(guò)深度學(xué)習(xí)對(duì)消費(fèi)行為進(jìn)行表征的推薦算法。

推薦算法的藝術(shù)在于不一定是要為消費(fèi)者找到他需要的東西,而是讓他以為他需要這些東西……

  1. 產(chǎn)品設(shè)計(jì)階段:首先做出好的產(chǎn)品,思考產(chǎn)品本身怎樣打動(dòng)消費(fèi)者——這個(gè)步驟與推薦算法沒(méi)太大關(guān)系
  2. 產(chǎn)品定型之后:找到能夠被我們的產(chǎn)品打動(dòng)的用戶——推薦算法

一、產(chǎn)品推薦算法演進(jìn)的三個(gè)階段

1. Item-based recommendation基于商品

基本原理:看產(chǎn)品和產(chǎn)品之間的關(guān)聯(lián)性。根據(jù)購(gòu)物車(chē)數(shù)據(jù)/已經(jīng)買(mǎi)過(guò)的東西推薦新的產(chǎn)品:買(mǎi)了A產(chǎn)品會(huì)有多少幾率買(mǎi)B(購(gòu)物車(chē)算法/購(gòu)物車(chē)規(guī)則,哪些商品會(huì)同時(shí)出現(xiàn)在我的購(gòu)物籃里面)
權(quán)重計(jì)算:主要有三點(diǎn)——Recency:最后一次買(mǎi)到現(xiàn)在有多久 ;Frenquency:購(gòu)買(mǎi)的頻率;Monetary:購(gòu)買(mǎi)的金額
eg:Apriori算法1994

  • 購(gòu)物車(chē)中哪些商品總是同時(shí)被購(gòu)買(mǎi),基于貝葉斯條件概率,計(jì)算過(guò)程簡(jiǎn)單。
  • 缺點(diǎn):
    1. 只看商品的特征不看人的特征,不會(huì)給每個(gè)消費(fèi)者畫(huà)像;
    2. 缺少絕對(duì)好壞、具有全局觀的指標(biāo)(support、confidence、lift三個(gè)指標(biāo)都不完全work);
    3. 沒(méi)有辦法做冷啟動(dòng):客戶第一次來(lái),沒(méi)有任何信息的情況下做商品推薦。
  • 現(xiàn)在適用情況:基本被拋棄了。某些匿名消費(fèi)場(chǎng)景可能會(huì)被使用,但意義和效果不大。

2. User-product-based recommendation基于人與商品

基本原理:N個(gè)客戶對(duì)應(yīng)N個(gè)產(chǎn)品的矩陣,以客戶為基礎(chǔ),關(guān)注人的差異+物的差異,在商品特征和購(gòu)買(mǎi)關(guān)聯(lián)性的基礎(chǔ)上,加入人的個(gè)性特征
算法奇異值分解SVD(n個(gè)客戶m個(gè)商品:拆解成nk用戶隱向量矩陣和km商品隱向量矩陣**);因子分析;探討每一個(gè)因子跟產(chǎn)品之間的關(guān)聯(lián)性
缺點(diǎn):同樣沒(méi)辦法冷啟動(dòng)
現(xiàn)在適用情況:仍然是一個(gè)不錯(cuò)的算法。
eg:Matrix Factorization Techniques for Recommender System 2009

3. User-based recommendation基于相似人

基本原理看人與人的相似性。誰(shuí)跟A比較像,找出BCD,BCD買(mǎi)了哪些東西A還沒(méi)有買(mǎi),于是給A推薦那些他還沒(méi)買(mǎi)的商品。
相似性算法最近鄰居法;基于聚類(lèi)(行為、客戶價(jià)值等不同劃分標(biāo)準(zhǔn)),把人切位一群一群,落在同一群默認(rèn)為會(huì)有相似的購(gòu)買(mǎi)行為
優(yōu)點(diǎn):可以冷啟動(dòng);
缺點(diǎn)不能滿足人求新求變的喜好(一段時(shí)間內(nèi)推薦的商品相對(duì)固定,累計(jì)時(shí)間夠久才會(huì)有變化)
K-nearest neighbors最近鄰居法:沒(méi)有被儲(chǔ)存下來(lái)的規(guī)則實(shí)體;歷史案例一個(gè)都不能丟;

二、內(nèi)容推薦算法

內(nèi)容推薦的重點(diǎn)是如何評(píng)估相似性,主要有下面4種:

  1. 詞頻:低階但有效?。?/li>
  2. 詞向量:幫助找到詞匯和詞匯之間關(guān)系。長(zhǎng)文本詞向量效果會(huì)比較差,重要特征會(huì)被稀釋?zhuān)踔敛蝗缭~頻。對(duì)于長(zhǎng)文本,會(huì)取標(biāo)題和第一段,;監(jiān)督失磁向量 整體簡(jiǎn)單粗暴但有效。
  3. LDA:內(nèi)容推薦中不建議用。本質(zhì)上就是文本的聚類(lèi),根據(jù)文本出現(xiàn)的頻次做成一個(gè)個(gè)聚類(lèi)。需要數(shù)萬(wàn)數(shù)十萬(wàn),訓(xùn)練效果比較扯。只管哪些關(guān)鍵詞會(huì)出現(xiàn),但不管遠(yuǎn)近,比較容易發(fā)生語(yǔ)義上的錯(cuò)誤理解,不看詞頻,可能出現(xiàn)1次就會(huì)被誤中。
  4. 文本分類(lèi):tag比對(duì)的形式。

eg:Facebook

  • 微信朋友圈:比較像twitter,完全按照時(shí)間軸的順序排列。
  • Facebook:屬于社交媒體內(nèi)容。內(nèi)容上的推薦除了考慮時(shí)間順序外,還考慮以下方面:
    1. 誰(shuí)發(fā)的
    2. 在哪里發(fā)的
    3. 內(nèi)容類(lèi)型:影片>圖片>文字
    4. 看過(guò)的人有什么反應(yīng)
  • Facebook中有的一些功能:
    1. 三年前的今天
    2. 除了??之外還有其他很多表情,表達(dá)對(duì)別人發(fā)表的內(nèi)容的想法
    3. 廣告:可以叉掉,并選擇自己不感興趣的原因(便于之后更準(zhǔn)確的推薦)
    4. 提醒朋友的生日
    5. 你可能喜歡的活動(dòng)
    6. 最受facebook用戶歡迎:意外的驚喜、意外的隨機(jī)(防止推薦算法老化,防止持續(xù)給用戶推薦某一類(lèi)型的東西,沒(méi)有新東西進(jìn)來(lái))
內(nèi)容推薦算法

三、產(chǎn)品推薦的思路和流程

產(chǎn)品推薦的思路和流程
  1. 冷啟動(dòng):關(guān)鍵在于如何在第一次取得盡量多的信息,而不在推薦算法。
  2. New-new:在沒(méi)有買(mǎi)過(guò)的領(lǐng)域里面創(chuàng)造新消費(fèi)。
    • 最熱門(mén):爆款
    • 喜好推薦:基于商品;基于人-商品;基于相似人
    • 付費(fèi)贊助
    • 驚喜的隨機(jī):持續(xù)地補(bǔ)充新東西進(jìn)來(lái)(但驚喜的隨機(jī)是排除負(fù)樣本后的隨機(jī),即排除消費(fèi)者厭煩的、不喜歡的;喜好的東西可能會(huì)變,但討厭的東西一般都不會(huì)變,用戶表達(dá)討厭了一次就永遠(yuǎn)不要再出現(xiàn)了)
    • 排除冷數(shù)據(jù):暖數(shù)據(jù)是比較新的內(nèi)容;冷數(shù)據(jù)是早就看過(guò)的或已經(jīng)買(mǎi)過(guò)的。
  3. Old-new:以前買(mǎi)過(guò)這個(gè)品類(lèi),在舊有的消費(fèi)體驗(yàn)/購(gòu)買(mǎi)歷史里面開(kāi)創(chuàng)商機(jī)、推薦新產(chǎn)品

冷啟動(dòng)

  • 用戶行為收集和追蹤——數(shù)據(jù)來(lái)自哪里
  • 發(fā)揮創(chuàng)意,收集更多的數(shù)據(jù)


    用戶行為追蹤

四、基于表征為基礎(chǔ)的推薦

最早使用基于表征為基礎(chǔ)的推薦是YouTube:


YouTube視頻推薦(以前)

YouTube的視頻推薦分為兩個(gè)步驟:

  1. 用深度學(xué)習(xí)把以下多種需求綜合起來(lái),得到候選推薦視頻清單。
    • A之前看了哪些影片
    • A搜索了哪些影片
    • A所在的地區(qū),什么影片受歡迎
    • 推出時(shí)間/性別……
候選推薦視頻清單生成
  1. 對(duì)1中生成的候選視頻清單產(chǎn)生排名和排序,主要看視頻內(nèi)容和用戶偏好的匹配度,會(huì)考慮以下維度
    • 以前觀影記錄看內(nèi)容是否匹配
    • 用戶語(yǔ)言的匹配
    • 最后一次瀏覽的時(shí)間長(zhǎng)等
推薦視頻的排名

Graph神經(jīng)網(wǎng)絡(luò)

Graph神經(jīng)網(wǎng)絡(luò)

eg:尋找服裝的視覺(jué)表征

  1. 機(jī)器視覺(jué)的分割:機(jī)器先將圖片的各個(gè)組成元件/服裝分隔開(kāi);
  2. 比對(duì)相似的服裝/相似的品味/相似的款式;

附課程PPT:

《數(shù)據(jù)科學(xué)方法論-產(chǎn)品內(nèi)容推薦》
鏈接:https://pan.baidu.com/s/1SrNE9PkSZCBIf-l06p3KuQ
提取碼:95og

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容