推薦系統(tǒng)遇上深度學(xué)習(xí)(三十九)-推薦系統(tǒng)中召回策略演進!

推薦系統(tǒng)中的核心是從海量的商品庫挑選合適商品最終展示給用戶。由于商品庫數(shù)量巨大,因此常見的推薦系統(tǒng)一般分為兩個階段,即召回階段和排序階段。召回階段主要是從全量的商品庫中得到用戶可能感興趣的一小部分候選集,排序階段則是將召回階段得到的候選集進行精準(zhǔn)排序,推薦給用戶。

本篇我們來總結(jié)一下推薦系統(tǒng)中幾種常用的召回策略。主要有協(xié)同過濾、向量化召回和阿里最近在Aicon中提到的深度樹匹配模型。

1、協(xié)同過濾

協(xié)同過濾主要可以分為基于用戶的協(xié)同過濾、 基于物品的協(xié)同過濾。當(dāng)然還有基于模型的協(xié)同過濾,如矩陣分解等,本文不對這部分進行介紹。

1.1 基于用戶的協(xié)同過濾

基于用戶的協(xié)同過濾算法的基本思想是:當(dāng)召回用戶A的候選集時,可以先找到和他有相似興趣的其他用戶,然后把那些用戶喜歡的、而用戶A沒有未交互的物品作為候選集。

因此,我們首先需要計算兩個用戶的興趣相似度。給定用戶u和用戶v,令N(u)表示用戶u曾經(jīng)有過正反饋的物品集合,令N(v) 為用戶v曾經(jīng)有過正反饋的物品集合。那么我們可以通過以下兩種方法計算用戶的相似度:

基于Jaccard公式
基于余弦相似度

余弦相似度為什么是上面這種寫法呢,因為這里,我們并不是用的用戶對物品的評分,而是用的0-1表示,所以對兩個集合做交集,相當(dāng)于進行了點乘。如果我們的矩陣是用戶對物品的評分,那么計算余弦相似度的時候可以利用用戶的具體評分而不是0-1值。

如果簡單的基于余弦相似度,顯得過于粗糙,以圖書為例,如果兩個用戶都曾經(jīng)買過《新華字典》,這絲毫不能說明他們興趣相似, 因為絕大多數(shù)中國人小時候都買過《新華字典》。但如果兩個用戶都買過《數(shù)據(jù)挖掘?qū)д摗?,那?以認為他們的興趣比較相似,因為只有研究數(shù)據(jù)挖掘的人才會買這本書。換句話說,兩個用戶對冷門物品采取過同樣的行為更能說明他們興趣的相似度,因此,我們可以基于物品的流行度對熱門物品進行一定的懲罰:

得到用戶之間的興趣相似度后,UserCF算法會給用戶推薦和他興趣最相似的K個用戶喜歡的 物品。如下的公式度量了UserCF算法中用戶u對物品i的感興趣程度:

其中,S(u, K)包含和用戶u興趣最接近的K個用戶,N(i)是對物品i有過行為的用戶集合,wuv是用戶u和用戶v的興趣相似度,rvi代表用戶v對物品i的興趣.

1.2 基于物品的協(xié)同過濾

UserCF在一些網(wǎng)站(如Digg)中得到了應(yīng)用,但該算法有一些缺點。首先, 隨著網(wǎng)站的用戶數(shù)目越來越大,計算用戶興趣相似度矩陣將越來越困難,其運算時間復(fù)雜度和空間復(fù)雜度的增長和用戶數(shù)的增長近似于平方關(guān)系。其次,基于用戶的協(xié)同過濾很難對推薦結(jié)果作出解釋。因此,著名的電子商務(wù)公司亞馬遜提出了另一個算法——基于物品的協(xié)同過濾算法。
基于物品的協(xié)同過濾算法(簡稱ItemCF)給用戶推薦那些和他們之前喜歡的物品相似的物品。 比如,該算法會因為你購買過《數(shù)據(jù)挖掘?qū)д摗范o你推薦《機器學(xué)習(xí)》。不過,ItemCF算法并不利用物品的內(nèi)容屬性計算物品之間的相似度,它主要通過分析用戶的行為記錄計算物品之間的相似度。該算法認為,物品A和物品B具有很大的相似度是因為喜歡物品A的用戶大都也喜歡物品 B。

基于物品的協(xié)同過濾算法主要分為兩步。
(1) 計算物品之間的相似度。
(2) 根據(jù)物品的相似度和用戶的歷史行為給用戶生成召回候選集。

ItemCF的第一步是計算物品之間的相似度,在網(wǎng)站中,我們經(jīng)??吹竭@么一句話:Customers Who Bought This Item Also Bought,那么從這句話的定義出發(fā),我們可以用下面的公式定義物品相似度:

這里,分母|N(i)|是喜歡物品i的用戶數(shù),而分子 N(i)?N(j) 是同時喜歡物品i和物品j的用戶數(shù)。因此,上述公式可以理解為喜歡物品i的用戶中有多少比例的用戶也喜歡物品j。但是卻存在一個問題。如果物品j很熱門,很多人都喜歡,那么Wij就會很大,接近1。因此,該公式會造成任何物品都會和熱門的物品有很大的相似度,這 對于致力于挖掘長尾信息的推薦系統(tǒng)來說顯然不是一個好的特性。為了避免推薦出熱門的物品,可以用下面的公式:

這里由于還是0-1的原因,我們的余弦相似度可以寫成上面的形式。但是,是不是每個用戶的貢獻都相同呢? 假設(shè)有這么一個用戶,他是開書店的,并且買了當(dāng)當(dāng)網(wǎng)上80%的書準(zhǔn)備用來自己賣。那么, 他的購物車里包含當(dāng)當(dāng)網(wǎng)80%的書。假設(shè)當(dāng)當(dāng)網(wǎng)有100萬本書,也就是說他買了80萬本。從前面 對ItemCF的討論可以看到,這意味著因為存在這么一個用戶,有80萬本書兩兩之間就產(chǎn)生了相似度。這個用戶雖然活躍,但是買這些書并非都是出于自身的興趣,而且這些書覆 蓋了當(dāng)當(dāng)網(wǎng)圖書的很多領(lǐng)域,所以這個用戶對于他所購買書的兩兩相似度的貢獻應(yīng)該遠遠小于一個只買了十幾本自己喜歡的書的文學(xué)青年。因此,我們要對這樣的用戶進行一定的懲罰,John S. Breese在論文1中提出了一個稱為IUF(Inverse User Frequence),即用戶活躍度對數(shù)的 倒數(shù)的參數(shù),他也認為活躍用戶對物品相似度的貢獻應(yīng)該小于不活躍的用戶,他提出應(yīng)該增加IUF參數(shù)來修正物品相似度的計算公式:

在得到物品之間的相似度后,ItemCF通過如下公式計算用戶u對一個物品j的興趣:

這里N(u)是用戶喜歡的物品的集合,S(j,K)是和物品j最相似的K個物品的集合,wji是物品j和i 的相似度,rui是用戶u對物品i的興趣。

1.3 UserCF和ItemCF的比較

先說結(jié)論:新聞網(wǎng)站一般使用UserCF,而圖書、電商網(wǎng)站一般使用ItemCF!
首先回顧一下UserCF算法和ItemCF算法的推薦原理。UserCF給用戶推薦那些和他有共同興 趣愛好的用戶喜歡的物品,而ItemCF給用戶推薦那些和他之前喜歡的物品類似的物品。從這個算 法的原理可以看到,UserCF的推薦結(jié)果著重于反映和用戶興趣相似的小群體的熱點,而ItemCF 的推薦結(jié)果著重于維系用戶的歷史興趣。換句話說,UserCF的推薦更社會化,反映了用戶所在的小型興趣群體中物品的熱門程度,而ItemCF的推薦更加個性化,反映了用戶自己的興趣傳承。
在新聞網(wǎng)站中,用戶的興趣不是特別細化,絕大多數(shù)用戶都喜歡看熱門的新聞。個性化新聞推薦更加強調(diào)抓住 新聞熱點,熱門程度和時效性是個性化新聞推薦的重點,而個性化相對于這兩點略顯次要。因 此,UserCF可以給用戶推薦和他有相似愛好的一群其他用戶今天都在看的新聞,這樣在抓住熱 點和時效性的同時,保證了一定程度的個性化。同時,在新聞網(wǎng)站中,物品的更新速度遠遠快于新用戶的加入速度,而且 對于新用戶,完全可以給他推薦最熱門的新聞,因此UserCF顯然是利大于弊。

但是,在圖書、電子商務(wù)和電影網(wǎng)站,比如亞馬遜、豆瓣、Netflix中,ItemCF則能極大地發(fā) 揮優(yōu)勢。首先,在這些網(wǎng)站中,用戶的興趣是比較固定和持久的。一個技術(shù)人員可能都是在購買 技術(shù)方面的書,而且他們對書的熱門程度并不是那么敏感,事實上越是資深的技術(shù)人員,他們看 的書就越可能不熱門。此外,這些系統(tǒng)中的用戶大都不太需要流行度來輔助他們判斷一個物品的 好壞,而是可以通過自己熟悉領(lǐng)域的知識自己判斷物品的質(zhì)量。因此,這些網(wǎng)站中個性化推薦的 任務(wù)是幫助用戶發(fā)現(xiàn)和他研究領(lǐng)域相關(guān)的物品。因此,ItemCF算法成為了這些網(wǎng)站的首選算法。 此外,這些網(wǎng)站的物品更新速度不會特別快,一天一次更新物品相似度矩陣對它們來說不會造成 太大的損失,是可以接受的。同時,從技術(shù)上考慮,UserCF需要維護一個用戶相似度的矩陣,而ItemCF需要維護一個物品 相似度矩陣。從存儲的角度說,如果用戶很多,那么維護用戶興趣相似度矩陣需要很大的空間, 同理,如果物品很多,那么維護物品相似度矩陣代價較大。

下表是對二者的一個全面的比較:

1.4 協(xié)同過濾總結(jié)

協(xié)同過濾方法通過在用戶歷史行為里面找相似的商品和用戶,保證了基礎(chǔ)的相關(guān)性。與此同時,因為只找相似的商品或相似用戶的商品,所以系統(tǒng)屏蔽了大規(guī)模的計算,使整個召回的過程能夠高效地完成。

但是協(xié)同過濾方法存在一定的弊端:在召回的時候,并不能真正的面向全量商品庫來做檢索,如itemCF方法,系統(tǒng)只能在用戶歷史行為過的商品里面找到侯選的相似商品來做召回,使得整個推薦結(jié)果的多樣性和發(fā)現(xiàn)性比較差。這樣做的結(jié)果就是,用戶經(jīng)常抱怨:為什么總給我推薦相同的東西!

2、向量化召回

向量化召回,主要通過模型來學(xué)習(xí)用戶和物品的興趣向量,并通過內(nèi)積來計算用戶和物品之間的相似性,從而得到最終的候選集。其中,比較經(jīng)典的模型便是Youtube召回模型。在實際線上應(yīng)用時,由于物品空間巨大,計算用戶興趣向量和所有物品興趣向量的內(nèi)積,耗時十分巨大,有時候會通過局部敏感Hash等方法來進行近似求解。

2.1 Youtube召回模型

Youtube召回模型的架構(gòu)如下:

從模型結(jié)構(gòu)可以看出,在離線訓(xùn)練階段,將其視為一個分類問題。我們使用隱式反饋來進行學(xué)習(xí),用戶完整觀看過一個視頻,便視作一個正例。如果將視頻庫中的每一個視頻當(dāng)作一個類別,那么在時刻t,對于用戶U和上下文C,用戶會觀看視頻i的概率為:

其中,u是用戶的embedding,這個embedding,是網(wǎng)絡(luò)最后一個Relu激活函數(shù)的輸出,vi是視頻i的embedding。那么問題來了,輸入時,每一個視頻也有一個對應(yīng)的embedding,這個embedding是不是計算softmax的embedding呢?個人認為是兩組不同的embedding,輸入層的embedding分別是用戶空間和視頻空間的向量,最終的輸出層,二者通過一系列全聯(lián)接層的線性變化,轉(zhuǎn)換到了同一空間,所以對于用戶和視頻來說,輸出層的embedding是同一空間,可以認為是興趣空間,這樣二者的內(nèi)積可以代表相似性。

使用多分類問題的一個弊端是,我們有百萬級別的classes,模型是非常難以訓(xùn)練的,因此在實際中,Youtube并使用負樣本采樣(negative sampling)的方法,將class的數(shù)量減小。

對于在線服務(wù)來說,有嚴格的性能要求,必須在幾十毫秒內(nèi)返回結(jié)果。因此,youtube沒有重新跑一遍模型,而是通過保存用戶興趣embedding和視頻興趣embedding,通過最近鄰搜索的方法得到top N的結(jié)果。該近似方法中的代表是局部敏感Hash方法。我們在下一節(jié)中進行介紹。

2.2 局部敏感哈希(Locality-Sensitive Hashing, LSH)

這里我們簡單介紹一下局部敏感哈希(Locality-Sensitive Hashing, LSH)的基本思想,更加詳細的介紹可以參考參考文獻3。

LSH的基本思想如下:我們首先對原始數(shù)據(jù)空間中的向量進行hash映射,得到一個hash table,我們希望,原始數(shù)據(jù)空間中的兩個相鄰向量通過相同的hash變換后,被映射到同一個桶的概率很大,而不相鄰的向量被映射到同一個桶的概率很小。因此,在召回階段,我們便可以將所有的物品興趣向量映射到不同的桶內(nèi),然后將用戶興趣向量映射到桶內(nèi),此時,只需要將用戶向量跟該桶內(nèi)的物品向量求內(nèi)積即可。這樣計算量被大大減小。

關(guān)鍵的問題是,如何確定hash-function?在LSH中,合適的hash-function需要滿足下面兩個條件:
1)如果d(x,y) ≤ d1, 則h(x) = h(y)的概率至少為p1;
2)如果d(x,y) ≥ d2, 則h(x) = h(y)的概率至多為p2;
其中d(x,y)表示x和y之間的距離, h(x)和h(y)分別表示對x和y進行hash變換。

滿足以上兩個條件的hash function稱為(d1,d2,p1,p2)-sensitive。而通過一個或多個(d1,d2,p1,p2)-sensitive的hash function對原始數(shù)據(jù)集合進行hashing生成一個或多個hash table的過程稱為Locality-sensitive Hashing。

2.3 向量化召回評價

向量化召回是目前推薦召回核心發(fā)展的一代技術(shù),但是它對模型結(jié)構(gòu)做了很大的限制,必須要求模型圍繞著用戶和向量的embedding展開,同時在頂層進行內(nèi)積運算得到相似性。在深度學(xué)習(xí)領(lǐng)域其實模型結(jié)構(gòu)層出不窮,百花齊放,但是這樣一個特定的結(jié)構(gòu)實際上對模型能力造成了很大的限制。

3、深度樹匹配

上面兩種方法,揭示了召回中兩個比較關(guān)鍵的問題:全庫搜索、先進模型。如果說向量化召回通過內(nèi)積運算的方式打開了全庫搜索的天花板,那么下一階段應(yīng)該是:能否設(shè)計一套全新的推薦算法框架,它允許容納任意先進的模型而非限定內(nèi)積形式,并且能夠?qū)θ珟爝M行更好的檢索。深度樹匹配,就是從這個視角出發(fā)做的技術(shù)探索。這里我們簡單介紹一下深度樹匹配(Tree-based Deep Match,TDM)技術(shù),ppt和詳細介紹參照文獻5和6。

深度樹匹配的核心是構(gòu)造一棵興趣樹,其葉子結(jié)點是全量的物品,每一層代表一種細分的興趣:

接下來,我們主要介紹三個方面的內(nèi)容:
1)怎么基于樹來實現(xiàn)高效的檢索
2)怎么在樹上面做興趣建模
3)興趣樹是怎么構(gòu)建的

3.1 怎么基于樹來實現(xiàn)高效的檢索

在這里,假設(shè)已經(jīng)得到深度樹的情況下,高效檢索采用的是Beam-Search的方式:

3.2 怎么在樹上面做興趣建模

在已經(jīng)得到深度樹的情況下,一個新來的用戶,我們怎么知道他對哪個分支的興趣更大呢?我們首先需要將樹建立為一棵最大堆樹。

在實踐中,構(gòu)造最大堆樹可以舉個簡單的例子,假設(shè)用戶對葉子層 ITEM6 這樣一個節(jié)點是感興趣的,那么可以認為它的興趣是 1,同層其他的節(jié)點興趣為 0,從而也就可以認為 ITEM6 的這個節(jié)點上述的路徑的父節(jié)點興趣都為 1,那么這一層就是 SN3 的興趣為 1,其他的為 0,這層就是 LN2 的興趣為 1,其他為 0。如下圖所示:

當(dāng)建立起如上的樹之后,我們就可以在每一層構(gòu)建一定的正負樣本,通過構(gòu)建模型來學(xué)習(xí)用戶對于每一層節(jié)點的興趣偏好。注意的是,每層的偏好都要學(xué)習(xí),也就是說每層都要構(gòu)建一個模型。同時,模型只需要關(guān)心是否足夠擬合樣本就可以了,并沒有要求模型一定要把用戶特征和 item 特征轉(zhuǎn)換為頂層向量內(nèi)積的形式,這樣就給了模型很大的自由度,只要去擬合好足夠的樣本,那么任意的模型都是 OK 的。下面是一個模型的示例:

3.3 興趣樹是怎么構(gòu)建的

前面兩個問題,都是在給定樹結(jié)構(gòu)的情況下來介紹的,那么怎么來構(gòu)建一棵興趣樹呢?每層是怎么分叉的呢?

樹的葉節(jié)點對應(yīng)具體的 item,目標(biāo)是構(gòu)建一個好的樹結(jié)構(gòu)來優(yōu)化我們的檢索效果。通過前面的分析知道,在進行興趣建模時,對于葉子層的樣本我們通過用戶行為反饋得到,而中間層的樣本則通過樹結(jié)構(gòu)采樣得到。所以樹結(jié)構(gòu)決定了中間層的樣本。

在進行快速檢索時,采用從頂向下的檢索策略,利用的是對每一層節(jié)點興趣建模進行快速剪枝。要保證最終的檢索效果,就需要每一層的興趣判別模型能力足夠強。由于樹結(jié)構(gòu)負責(zé)我們中間層的樣本生成,所以我們的思路是通過優(yōu)化樹結(jié)構(gòu)影響樣本生成進而提升模型能力。具體來說,通過樹結(jié)構(gòu)優(yōu)化降低中間層的樣本混淆度,讓中間層樣本盡可能可分。

所以,整個樹結(jié)構(gòu)的生成創(chuàng)建和優(yōu)化的過程,實際上是圍繞著怎么來生成更好的樣本、幫助模型學(xué)習(xí)的視角進行的,而不是只是考慮相似、聚類這樣的模式。那么這里的核心方案是什么呢?

方案總結(jié)來說,就是最小化用戶行為序列中相近的item-pair在樹上的距離。假設(shè)用戶的行為序列為A-》B-》D-》C,那么我們希望(A,B),(B,D),(D,C)在樹上的距離越近越好。兩個葉子結(jié)點的距離通過其最近的公共祖先確定。

好了,到這里,對深度樹匹配模型做一個簡單的總結(jié):

4、總結(jié)

本文介紹了推薦系統(tǒng)在召回階段常用的模型,有協(xié)同過濾模型、向量化召回模型和深度樹匹配算法。

協(xié)同過濾模型無法做到全局檢索,而向量化模型對模型的結(jié)構(gòu)進行了限制。深度樹匹配模型解決了上述兩個方面的限制,可以做到全局檢索+使用先進模型。

參考文獻

1、推薦系統(tǒng)理論(二) -- 利用用戶行為數(shù)據(jù)進行推薦(協(xié)同過濾):http://www.itdecent.cn/p/8d90824d52c5
2、項亮:《推薦系統(tǒng)實踐》
3、局部敏感hash:https://www.cnblogs.com/wt869054461/p/8148940.html
4、推薦系統(tǒng)遇上深度學(xué)習(xí)(三十四)--YouTube深度學(xué)習(xí)推薦系統(tǒng):http://www.itdecent.cn/p/8fa4dcbd5588
5、深度樹匹配slide:https://myslide.cn/slides/10614
6、深度樹匹配詳解:http://www.6aiq.com/article/1554659383706

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容