最近抽空看了第四范式程曉澄的《機(jī)器學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用》視頻,覺(jué)得收貨良多,也總結(jié)了一些學(xué)習(xí)要點(diǎn)和個(gè)人看法,分享給大家。
視頻是飯團(tuán)“AI產(chǎn)品經(jīng)理大本營(yíng)”團(tuán)友@明德分享出來(lái)的,鏈接我也會(huì)放在最后。有興趣的朋友可以抽空看看。
整個(gè)分享分為三個(gè)部分:
一、推薦系統(tǒng)的誕生土壤以及早期演進(jìn)
二、推薦系統(tǒng)當(dāng)下的基本架構(gòu)
三、搭建推薦系統(tǒng)的過(guò)程
一、推薦系統(tǒng)的誕生土壤以及早期演進(jìn)
1.推薦系統(tǒng)的誕生土壤
1)推薦系統(tǒng)產(chǎn)生的背景是長(zhǎng)尾理論的興起,以前我們發(fā)現(xiàn)80%的收益來(lái)自20%的商品,廣受大眾喜愛(ài)的商品非常少,但是大眾的興趣是十分廣泛的,其他80%的商品可能不是受眾廣,但對(duì)某一類人群的吸引力更大,人們也愿意去消費(fèi)。因此長(zhǎng)尾需求對(duì)社會(huì)來(lái)講也非常值得關(guān)注。
2)隨著互聯(lián)網(wǎng)的興起,人們發(fā)現(xiàn)原來(lái)的門(mén)戶網(wǎng)站類在把握用戶行為上有一定劣勢(shì)。人們更愿意參與到內(nèi)容中去,因此形成了UGC等形式的網(wǎng)站綜合體。
3)UGC內(nèi)容興起后,重要的是UGC的分發(fā)。因此出現(xiàn)了利用個(gè)人經(jīng)驗(yàn)/公式的內(nèi)容分發(fā)模式(個(gè)人感覺(jué)就是基于規(guī)則的分發(fā)),比如下圖右方的公式,可以通過(guò)論文被引用次數(shù)等評(píng)估因素,對(duì)論文的質(zhì)量進(jìn)行評(píng)估
還有對(duì)網(wǎng)站推廣水平進(jìn)行測(cè)算的公式這里就不再列舉。(個(gè)人總結(jié):這一類的規(guī)則都有一個(gè)相同點(diǎn),會(huì)通過(guò)某個(gè)指標(biāo)、某些因素去計(jì)算出一個(gè)最終推薦結(jié)果。正是因?yàn)樵诘贸鼋Y(jié)果前,我們已經(jīng)確定了自變量和計(jì)算公式,從而部分被我們忽略的因素就被排除在外,很可能會(huì)造成結(jié)果很大的偏移)
2.亞馬遜的推薦方式:協(xié)同過(guò)濾
這個(gè)過(guò)濾規(guī)則主要基于兩個(gè)假設(shè):
1)用戶購(gòu)買(mǎi)了一個(gè)商品后,后面有很大的概率會(huì)購(gòu)買(mǎi)相似物品
2)可以給口味相似的用戶做出物品推薦
以下是規(guī)則公式:
評(píng)分矩形:
橫軸是用戶,縱軸是物品。中間的數(shù)值是用戶對(duì)物體的打分,由此可以計(jì)算出兩個(gè)物品的相似程度(公式1item based recommendation,基本函數(shù)cos可計(jì)算)。再通過(guò)加權(quán)公式(ueser based rencommendation)可以計(jì)算用戶之間是否對(duì)同一系列物品打分規(guī)律一致。
可以看到協(xié)調(diào)過(guò)濾不一定適合每個(gè)用戶和每個(gè)物品,因?yàn)樵诩僭O(shè)上我們就做了約束。因此此時(shí)引入機(jī)器學(xué)習(xí)。
3.機(jī)器學(xué)習(xí)推薦原理
假設(shè)用戶和物品之間有一個(gè)未知的實(shí)際函數(shù)關(guān)系(真理)F,我們最終目的就是要找到和這個(gè)實(shí)際函數(shù)關(guān)系非常非常相近的函數(shù)G。這個(gè)函數(shù)G是通過(guò)用戶以往的歷史數(shù)據(jù),在算法的訓(xùn)練下得到的。下圖是直播中的PPT解釋:
如上圖所示:表示了一個(gè)未知的真理(f)通過(guò)以往數(shù)據(jù)(D),在假設(shè)空間(H)里經(jīng)過(guò)算法的訓(xùn)練(A),最后得到一個(gè)函數(shù)g。函數(shù)G是和真理F非常相近的。
> 如何去評(píng)估函數(shù)G和真理F的接近程度呢?
利用損失函數(shù)cost函數(shù):cost(Y,g(X))
> 如何評(píng)估算法A?
cost 越小,g與F越相似。因此要最小化cost,使得g逼近f。
4.機(jī)器學(xué)習(xí)的多種特征
可以從興趣維度、rank方法(用戶信息、商品信息、當(dāng)前上下文信息,歷史銷售記錄)等切入,每一種特征的權(quán)重由模型自己去學(xué)習(xí)【本句總結(jié)by@明德】
二、推薦系統(tǒng)下當(dāng)下的基本結(jié)構(gòu)
總的結(jié)構(gòu)分為三步:
1.候選集的召回
2.機(jī)器學(xué)習(xí)推薦模型排序(算法排序)
3.生成推薦列表(推薦結(jié)果獲取)
1.候選集的召回
候選集有百億級(jí)甚至千億級(jí)的內(nèi)容量,因此我們需要對(duì)候選集有一個(gè)初步篩選:
1)排序召回(最新、最熱、最近、最新光顧、各種經(jīng)驗(yàn)上的評(píng)分公式)
2)簡(jiǎn)單模型、rank召回(item based/user based、矩陣分解)
3)規(guī)則召回(天氣、近期搜索瀏覽、朋友的購(gòu)買(mǎi)、同期過(guò)往習(xí)慣等)
感覺(jué)以上三種方式都是我們以往用來(lái)直接進(jìn)行推薦的篩選方式
2.模型排序
1)模型排序需要考慮更多因素,這些因素都會(huì)影響推薦的效果。
比如:時(shí)間、季節(jié)、運(yùn)營(yíng)商信息、現(xiàn)在所在場(chǎng)景、行為序列、社交關(guān)系等等
2)排序模型:(wide&Deep Models)
觀看、收藏、購(gòu)買(mǎi)、搜索序列可以用RNN處理
圖片信息可以用CNN處理
文字信息可以用word2vec處理
通過(guò)模型處理,最終能夠得到一個(gè)輸出結(jié)果。但是通常情況我們會(huì)取輸出結(jié)果的上一層hidden layer的數(shù)據(jù)而不是最終的數(shù)據(jù)。因?yàn)樵谏弦粚拥姆治隼?,?shù)據(jù)更多樣化,比如說(shuō)有人喜歡梅西,不可能一直推薦給他梅西的相關(guān)新聞,我們能推薦給他體育類、足球類這樣多類型的信息。
3.生成模型結(jié)果
1)數(shù)據(jù)輸出多樣化
2)數(shù)據(jù)準(zhǔn)確性vs多樣性vs新穎性
> 個(gè)人總結(jié)
運(yùn)用機(jī)器學(xué)習(xí)的推薦系統(tǒng),首先需要在候選集召回池里進(jìn)行規(guī)則性地初篩,再通過(guò)模型將這些候選集進(jìn)行排序,最后輸出結(jié)果后根據(jù)數(shù)據(jù)多樣化決策最終的模型結(jié)果。
> 個(gè)人思考
產(chǎn)品了解到整個(gè)推薦系統(tǒng)的流程后,每個(gè)部分的關(guān)注點(diǎn)可能是:
1.候選集的完整性、多樣性、關(guān)聯(lián)性
2.模型排序的方式(需要在排序前提出對(duì)結(jié)果輸出的設(shè)想也就是需求)
3.模型結(jié)果:驗(yàn)證應(yīng)該是必不可少的一步,關(guān)注數(shù)據(jù)的轉(zhuǎn)化。比如更新模型后的點(diǎn)擊率、閱讀率等等。
三、搭建一個(gè)推薦系統(tǒng)
1.架構(gòu)模型(關(guān)注線上)
2.線下數(shù)據(jù)閉環(huán)
1)物料庫(kù)里的候選集通過(guò)表格的形式做記錄
2)物品特征與用戶特征進(jìn)行在線拼接,接著再同行為反饋數(shù)據(jù)特征進(jìn)行拼接,最終更新到機(jī)器學(xué)習(xí)模型中
3.工程實(shí)踐:數(shù)據(jù)分析、算法實(shí)驗(yàn)
1)可響應(yīng)產(chǎn)品、性能、算法需求的架構(gòu)
2)可同時(shí)進(jìn)行多個(gè)實(shí)驗(yàn),以獲取豐富數(shù)據(jù)
4.目前推薦系統(tǒng)面臨的挑戰(zhàn)
1)速度:
a.數(shù)據(jù)量大,需要在有限的時(shí)間內(nèi)完成模型
b.更大維度的模型意味著更多成本的投入
c.需要有專門(mén)為機(jī)器學(xué)習(xí)任務(wù)優(yōu)化的計(jì)算框架
2)可擴(kuò)展性:
a.業(yè)務(wù)的增長(zhǎng)除了量的增長(zhǎng)還有維度的增長(zhǎng)(更多場(chǎng)景、更多用戶和更多)
b.快速發(fā)展的企業(yè)公司需要能匹配自己增長(zhǎng)全周期的機(jī)器學(xué)習(xí)解決方案
5.研究方向
假設(shè)整個(gè)排序過(guò)程用Y=f(x)表示:
對(duì)于輸出結(jié)果Y:更多產(chǎn)品設(shè)計(jì)、交互形式
對(duì)于函數(shù)f:模型匹配與相匹配的優(yōu)化算法
對(duì)于自變量x:
更多種類的特征:挖掘圖像、音頻、文本特征、Session類特征
特征工程:通過(guò)特征組合、特征變換、豐富假設(shè)空間
四、后記
程曉澄直播回看視頻: https://v.douyu.com/show/oERALvEn3Pn71Vw0
(復(fù)制粘貼到瀏覽器打開(kāi))
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?我是在AI道路上不斷探索的一名產(chǎn)品
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 和我一起不斷進(jìn)步
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?▼