這節(jié)課是尹相志老師《數(shù)據(jù)科學(xué)心法與機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》系列課程的最后一講:《數(shù)據(jù)科學(xué)實(shí)務(wù)案例:推薦算法的案例建模與評(píng)估》
老師介紹了基于商品、基于人與商品、基于相似人三個(gè)階段的推薦算法演進(jìn)過(guò)程;以Facebook為例講了內(nèi)容推薦相關(guān)知識(shí);介紹了做產(chǎn)品推薦的思維方法和解題思路,以及如何透過(guò)追蹤機(jī)制來(lái)收集客戶數(shù)據(jù),充實(shí)推薦模型;最后講了通過(guò)深度學(xué)習(xí)對(duì)消費(fèi)行為進(jìn)行表征的推薦算法。
推薦算法的藝術(shù)在于不一定是要為消費(fèi)者找到他需要的東西,而是讓他以為他需要這些東西……
- 產(chǎn)品設(shè)計(jì)階段:首先做出好的產(chǎn)品,思考產(chǎn)品本身怎樣打動(dòng)消費(fèi)者——這個(gè)步驟與推薦算法沒(méi)太大關(guān)系
- 產(chǎn)品定型之后:找到能夠被我們的產(chǎn)品打動(dòng)的用戶——推薦算法
一、產(chǎn)品推薦算法演進(jìn)的三個(gè)階段
1. Item-based recommendation基于商品
基本原理:看產(chǎn)品和產(chǎn)品之間的關(guān)聯(lián)性。根據(jù)購(gòu)物車(chē)數(shù)據(jù)/已經(jīng)買(mǎi)過(guò)的東西推薦新的產(chǎn)品:買(mǎi)了A產(chǎn)品會(huì)有多少幾率買(mǎi)B(購(gòu)物車(chē)算法/購(gòu)物車(chē)規(guī)則,哪些商品會(huì)同時(shí)出現(xiàn)在我的購(gòu)物籃里面)
權(quán)重計(jì)算:主要有三點(diǎn)——Recency:最后一次買(mǎi)到現(xiàn)在有多久 ;Frenquency:購(gòu)買(mǎi)的頻率;Monetary:購(gòu)買(mǎi)的金額
eg:Apriori算法1994:
- 購(gòu)物車(chē)中哪些商品總是同時(shí)被購(gòu)買(mǎi),基于貝葉斯條件概率,計(jì)算過(guò)程簡(jiǎn)單。
- 缺點(diǎn):
- 只看商品的特征不看人的特征,不會(huì)給每個(gè)消費(fèi)者畫(huà)像;
- 缺少絕對(duì)好壞、具有全局觀的指標(biāo)(support、confidence、lift三個(gè)指標(biāo)都不完全work);
- 沒(méi)有辦法做冷啟動(dòng):客戶第一次來(lái),沒(méi)有任何信息的情況下做商品推薦。
- 現(xiàn)在適用情況:基本被拋棄了。某些匿名消費(fèi)場(chǎng)景可能會(huì)被使用,但意義和效果不大。
2. User-product-based recommendation基于人與商品
基本原理:N個(gè)客戶對(duì)應(yīng)N個(gè)產(chǎn)品的矩陣,以客戶為基礎(chǔ),關(guān)注人的差異+物的差異,在商品特征和購(gòu)買(mǎi)關(guān)聯(lián)性的基礎(chǔ)上,加入人的個(gè)性特征
算法:奇異值分解SVD(n個(gè)客戶m個(gè)商品:拆解成nk用戶隱向量矩陣和km商品隱向量矩陣**);因子分析;探討每一個(gè)因子跟產(chǎn)品之間的關(guān)聯(lián)性
缺點(diǎn):同樣沒(méi)辦法冷啟動(dòng)
現(xiàn)在適用情況:仍然是一個(gè)不錯(cuò)的算法。
eg:Matrix Factorization Techniques for Recommender System 2009
3. User-based recommendation基于相似人
基本原理:看人與人的相似性。誰(shuí)跟A比較像,找出BCD,BCD買(mǎi)了哪些東西A還沒(méi)有買(mǎi),于是給A推薦那些他還沒(méi)買(mǎi)的商品。
相似性算法:最近鄰居法;基于聚類(lèi)(行為、客戶價(jià)值等不同劃分標(biāo)準(zhǔn)),把人切位一群一群,落在同一群默認(rèn)為會(huì)有相似的購(gòu)買(mǎi)行為
優(yōu)點(diǎn):可以冷啟動(dòng);
缺點(diǎn):不能滿足人求新求變的喜好(一段時(shí)間內(nèi)推薦的商品相對(duì)固定,累計(jì)時(shí)間夠久才會(huì)有變化)
K-nearest neighbors最近鄰居法:沒(méi)有被儲(chǔ)存下來(lái)的規(guī)則實(shí)體;歷史案例一個(gè)都不能丟;
二、內(nèi)容推薦算法
內(nèi)容推薦的重點(diǎn)是如何評(píng)估相似性,主要有下面4種:
- 詞頻:低階但有效?。?/li>
- 詞向量:幫助找到詞匯和詞匯之間關(guān)系。長(zhǎng)文本詞向量效果會(huì)比較差,重要特征會(huì)被稀釋?zhuān)踔敛蝗缭~頻。對(duì)于長(zhǎng)文本,會(huì)取標(biāo)題和第一段,;監(jiān)督失磁向量 整體簡(jiǎn)單粗暴但有效。
- LDA:內(nèi)容推薦中不建議用。本質(zhì)上就是文本的聚類(lèi),根據(jù)文本出現(xiàn)的頻次做成一個(gè)個(gè)聚類(lèi)。需要數(shù)萬(wàn)數(shù)十萬(wàn),訓(xùn)練效果比較扯。只管哪些關(guān)鍵詞會(huì)出現(xiàn),但不管遠(yuǎn)近,比較容易發(fā)生語(yǔ)義上的錯(cuò)誤理解,不看詞頻,可能出現(xiàn)1次就會(huì)被誤中。
- 文本分類(lèi):tag比對(duì)的形式。
eg:Facebook
- 微信朋友圈:比較像twitter,完全按照時(shí)間軸的順序排列。
- Facebook:屬于社交媒體內(nèi)容。內(nèi)容上的推薦除了考慮時(shí)間順序外,還考慮以下方面:
- 誰(shuí)發(fā)的
- 在哪里發(fā)的
- 內(nèi)容類(lèi)型:影片>圖片>文字
- 看過(guò)的人有什么反應(yīng)
- Facebook中有的一些功能:
- 三年前的今天
- 除了??之外還有其他很多表情,表達(dá)對(duì)別人發(fā)表的內(nèi)容的想法
- 廣告:可以叉掉,并選擇自己不感興趣的原因(便于之后更準(zhǔn)確的推薦)
- 提醒朋友的生日
- 你可能喜歡的活動(dòng)
- 最受facebook用戶歡迎:意外的驚喜、意外的隨機(jī)(防止推薦算法老化,防止持續(xù)給用戶推薦某一類(lèi)型的東西,沒(méi)有新東西進(jìn)來(lái))

三、產(chǎn)品推薦的思路和流程

- 冷啟動(dòng):關(guān)鍵在于如何在第一次取得盡量多的信息,而不在推薦算法。
-
New-new:在沒(méi)有買(mǎi)過(guò)的領(lǐng)域里面創(chuàng)造新消費(fèi)。
- 最熱門(mén):爆款
- 喜好推薦:基于商品;基于人-商品;基于相似人
- 付費(fèi)贊助
- 驚喜的隨機(jī):持續(xù)地補(bǔ)充新東西進(jìn)來(lái)(但驚喜的隨機(jī)是排除負(fù)樣本后的隨機(jī),即排除消費(fèi)者厭煩的、不喜歡的;喜好的東西可能會(huì)變,但討厭的東西一般都不會(huì)變,用戶表達(dá)討厭了一次就永遠(yuǎn)不要再出現(xiàn)了)
- 排除冷數(shù)據(jù):暖數(shù)據(jù)是比較新的內(nèi)容;冷數(shù)據(jù)是早就看過(guò)的或已經(jīng)買(mǎi)過(guò)的。
- Old-new:以前買(mǎi)過(guò)這個(gè)品類(lèi),在舊有的消費(fèi)體驗(yàn)/購(gòu)買(mǎi)歷史里面開(kāi)創(chuàng)商機(jī)、推薦新產(chǎn)品
冷啟動(dòng)
- 用戶行為收集和追蹤——數(shù)據(jù)來(lái)自哪里
-
發(fā)揮創(chuàng)意,收集更多的數(shù)據(jù)
用戶行為追蹤
四、基于表征為基礎(chǔ)的推薦
最早使用基于表征為基礎(chǔ)的推薦是YouTube:

YouTube的視頻推薦分為兩個(gè)步驟:
-
用深度學(xué)習(xí)把以下多種需求綜合起來(lái),得到候選推薦視頻清單。
- A之前看了哪些影片
- A搜索了哪些影片
- A所在的地區(qū),什么影片受歡迎
- 推出時(shí)間/性別……

-
對(duì)1中生成的候選視頻清單產(chǎn)生排名和排序,主要看視頻內(nèi)容和用戶偏好的匹配度,會(huì)考慮以下維度:
- 以前觀影記錄看內(nèi)容是否匹配
- 用戶語(yǔ)言的匹配
- 最后一次瀏覽的時(shí)間長(zhǎng)等

Graph神經(jīng)網(wǎng)絡(luò)

eg:尋找服裝的視覺(jué)表征
- 機(jī)器視覺(jué)的分割:機(jī)器先將圖片的各個(gè)組成元件/服裝分隔開(kāi);
- 比對(duì)相似的服裝/相似的品味/相似的款式;
附課程PPT:
《數(shù)據(jù)科學(xué)方法論-產(chǎn)品內(nèi)容推薦》
鏈接:https://pan.baidu.com/s/1SrNE9PkSZCBIf-l06p3KuQ
提取碼:95og
