深度學習在個性化推薦中的應用
結論
得益于深度學習強大的表示能力,目前深度學習在推薦系統(tǒng)中需要對用戶與物品進行表示學習的任務中有著不錯的表現(xiàn),但優(yōu)勢不如圖像與文本那么顯著[1]。
深度學習與分布式表示簡介
深度學習的概念源于人工神經(jīng)網(wǎng)絡的研究。深度學習通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的有效表示,而這種使用相對較短、稠密的向量表示叫做分布式特征表示(也可以稱為嵌入式表示)。本部分主要對于目前使用較廣的一些學習算法進行一個簡單的回顧。
首先介紹一些淺層的分布式表示模型。目前在文本領域,淺層分布式表示模型得到了廣泛的使用,例如word2vec、GloVec、fasttext等 [2]。與傳統(tǒng)詞袋模型對比,詞嵌入模型可以將詞或者其他信息單元(例如短語、句子和文檔等)映射到一個低維的隱含空間。在這個隱含空間中,每個信息單元的表示都是稠密的特征向量。詞嵌入表示模型的基本思想實際還是上來自于傳統(tǒng)的“Distributional semantics”[3],概括起來講就是當前詞的語義與其相鄰的背景詞緊密相關。因此,詞嵌入的建模方法就是利用嵌入式表示來構建當前詞和背景詞之間的語義關聯(lián)。相比多層神經(jīng)網(wǎng)絡,詞嵌入模型的訓練過程非常高效,而且實踐效果很好、可解釋性也不錯,因此得到了廣泛的應用
對應于神經(jīng)網(wǎng)絡模型,最為常見的模型包括多層感知器、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等 [4]。多層感知器主要利用多層神經(jīng)元結構來構建復雜的非線性特征變換,輸入可以為提取得到的多種特征,輸出可以為目標任務的標簽或者數(shù)值,本質上可以構建一種復雜的非線性變換;卷積神經(jīng)網(wǎng)絡可以直接部署在多層感知器上,感知器的輸入特征很有可能是不定長或者有序的,通過多個卷積層和子采樣層,最終得到一個固定長度的向量。循環(huán)神經(jīng)網(wǎng)絡是用來對于時序序列建模的常用模型,刻畫隱含狀態(tài)的關聯(lián)性,可以捕捉到整個序列的數(shù)據(jù)特征。針對簡單的循環(huán)神經(jīng)網(wǎng)絡存在長期依賴問題(“消失的導數(shù)”),不能有效利用長間隔的歷史信息,兩個改進的模型是長短時記憶神經(jīng)網(wǎng)絡(LSTM) 和基于門機制的循環(huán)單元(GRU)。遞歸神經(jīng)網(wǎng)絡根據(jù)一個外部給定的拓撲結構,不斷遞歸得到一個序列的表示,循環(huán)神經(jīng)網(wǎng)絡可以被認為是一種簡化的遞歸神經(jīng)網(wǎng)絡。
應用
1.相似匹配
-
1.1.嵌入式表示模型
通過行為信息構建用戶和物品(或者其他背景信息)的嵌入式表示,使得用戶與物品的嵌入式表示分布在同一個隱含向量空間,進而可以計算兩個實體之間的相似性。很多推薦任務,本質可以轉換為相關度排序問題,因此嵌入式表示模型是一種適合的候選方法。一般來說,淺層的嵌入式表示模型的訓練非常高效,因此在大規(guī)模數(shù)據(jù)集合上有效性和復雜度都能達到不錯的效果。
在[5]中,嵌入式表示被應用到了產(chǎn)品推薦中,給定一個當前待推薦的產(chǎn)品,其對應的生成背景(context)為用戶和上一個交易的產(chǎn)品集合,利用這些背景信息對應的嵌入式表示向量可以形成一個背景向量,刻畫了用戶偏好和局部購買信息的依賴關系。然后基于該背景向量,生成當前待推薦的產(chǎn)品。經(jīng)推導,這種模型與傳統(tǒng)的矩陣分解模型具有很強的理論聯(lián)系。在[6]中,Zhao等人使用doc2vec模型來同時學習用戶和物品的序列特征表示,然后將其用在基于特征的推薦框架中,引入的嵌入式特征可以在一定程度上改進推薦效果。在[7]中,嵌入式表示模型被用來進行地點推薦,其基本框架就是刻畫一個地理位置的條件生成概率,考慮了包括用戶、軌跡、臨近的地點、類別、時間、區(qū)域等因素。
-
1.2.語義匹配模型
[8]深度結構化語義模型(Deep Structured Semantic Models,簡稱為DSSM)是基于多層神經(jīng)網(wǎng)絡模型搭建的廣義語義匹配模型 。其本質上可以實現(xiàn)兩種信息實體的語義匹配?;舅枷胧窃O置兩個映射通路,兩個映射通路負責將兩種信息實體映射到同一個隱含空間,在這個隱含空間,兩種信息實體可以同時進行表示,進一步利用匹配函數(shù)進行相似度的刻畫。
DSSM.PNG如圖展示了一個DSSM的通用示意圖,其中Q表示一個Query,D表示一個Document,對應到推薦系統(tǒng)里面的用戶和物品。通過級聯(lián)的深度神經(jīng)網(wǎng)絡模型的映射與變換,最終Query和Document在同一個隱含空間得到了表示,可以使用余弦相似度進行計算。DSSM最初主要用在信息檢索領域,用來刻畫文檔和查詢之間的相似度。
[9]隨后被用在推薦系統(tǒng)中:一端對應著用戶信息,另外一端對應著物品信息 。以DSSM為主的這些工作的基本出發(fā)點實際上和淺層嵌入式表示模型非常相似,能夠探索用戶和物品兩種不同的實體在同一個隱含空間內的相似性。其中一個較為關鍵的地方,就是如何能夠融入任務特定的信息(例如物品內容信息)以及模型配置(例如可以使用簡單多層神經(jīng)網(wǎng)絡模型或者卷積神經(jīng)網(wǎng)絡模型),從而獲得理想的結果。
2.評分預測
-
2.1.基于用戶的原始評分(或者反饋)來挖掘深度的數(shù)據(jù)模式特征(神經(jīng)網(wǎng)絡矩陣分解)
[10]限制玻爾茲曼機進行評分預測。
限制玻爾茲曼機.PNG如圖所示,其所使用的模型具有一個兩層的類二部圖結構,其中用戶層為隱含層 (h),可見層為用戶的評分信息 (V),通過非線性關聯(lián)兩層上的數(shù)據(jù)信息。其中隱含層為二元變量,而用戶評分信息被刻畫為多項式分布變量。建立用戶隱含表示信息以及其評分信息的聯(lián)合能量函數(shù),然后進行相應的參數(shù)求解。該方法的一個主要問題是連接隱含層和評分層的權重參數(shù)規(guī)模過大(對于大數(shù)據(jù)集合),也就是權重矩陣W。
[11]優(yōu)化計算的改進,作者進一步提出使用將W分解為兩個低秩矩陣,減小參數(shù)規(guī)模。不過實驗效果表明所提出的方法并沒有比基于矩陣分解的方法具有顯著的改進,而且參數(shù)求解使用較為費時的近似算法。
[12]優(yōu)化改進,Zheng 等人提出使用Neural Autoregressive Distribution Estimator來改進上述問題,該方法不需要顯式對于二元隱含變量進行推理,減少了模型復雜度,并且使用排序代價函數(shù)來進行參數(shù)最優(yōu)化。實驗表明所提出的方法能夠取得非常好的效果。
[13]Wu等人使用去噪自動編碼模型(Denoising Autoencoder)進行top-N物品推薦,其輸入為加入噪聲的對于物品的偏好(采納為1,否則為0),輸出為用戶對于物品的原始評分,通過學習非線性映射關系來進行物品預測。
去噪自動編碼模型.PNG如圖所示,用戶可見的評分數(shù)據(jù)通過加上噪音后進入輸入層,然后通過非線性映射形成隱含層,再由隱含層經(jīng)映射后重構評分數(shù)據(jù)。注意,該模型中加入了用戶偏好表示(User Node)和偏置表示(Bias Node)。
[14]Devooght提出將協(xié)同過濾方法可以看作時間序列的預測問題。
CFRNN.PNG
作者提出,傳統(tǒng)基于協(xié)同過濾的推薦方法,無論基于何種特征,都沒有考慮用戶歷史行為的時間屬性,只是將歷史行為中的每個item統(tǒng)一考慮。這樣處理帶來的最大問題在于推薦系統(tǒng)無法分析用戶喜好的變化情況,從而給出更符合用戶現(xiàn)階段喜好的推薦結果。那么,如果基于協(xié)同過濾“由過去,看未來”的思想,如果將該問題視作序列預測問題,一方面可以更好的分析用戶的興趣愛好的變化情況給出更好的推薦結果,另一方面也可以將在時序預測問題中廣泛使用的RNN深度網(wǎng)絡模型引入到推薦系統(tǒng)中。
[15]NCF 作者提出一種通用的神經(jīng)網(wǎng)絡協(xié)同過濾框架,通過用神經(jīng)網(wǎng)絡結構多層感知機去學習用戶-項目之間交互函數(shù)替代傳統(tǒng)的矩陣分解中的內積運算,從而從數(shù)據(jù)中學習任意函數(shù)(非線性)。
并提出了兩種NCF實例:基于線性核的GMF(廣義矩陣分解),基于非線性核的MLP。并且將GMF與MLP融合,使他們相互強化。(tf model zoo)
-
2.2. 深度神經(jīng)網(wǎng)絡模型當做特征變換模塊(內容embedding->矩陣分解)
[16]Wang等人關注推薦系統(tǒng)中的一個重要問題:帶有文本信息的評分預測(如博客文章等)。傳統(tǒng)解決方法通常聯(lián)合使用主題模型與矩陣分解(Collaborative Topic Modeling)。[16]中的主要想法就是替換掉主題模型,使用Stacked Denoising Autoencoders進行文本特征與評分預測中的數(shù)據(jù)特征相融合。
在[17]中,Oord等人主要解決音樂推薦系統(tǒng)中的冷啟動問題。通常來說,冷啟動問題包括兩個方面,新用戶和新物品,這里主要考慮新物品。傳統(tǒng)矩陣分解的推薦算法通過將評分分解為兩個低秩向量來進行預測,也就是
,其中
為用戶i對于物品j 的預測評分,
和
是兩個K維的向量,分別代表用戶和物品的隱含表示。基本想法是從音樂的音頻數(shù)據(jù)中提取到相關的特征
,然后將這些音樂自身的數(shù)據(jù)特征映射為通過矩陣分解學習得到的隱含向量,也就是學習一個函數(shù)f,使之達到
。通過學習這樣的變換函數(shù),當新音樂來到時,可以通過提取其自身的音頻特征來得到其隱含向量,而不必要求使用用戶數(shù)據(jù)來訓練
。得到
的預測值之后,從而可以使用傳統(tǒng)矩陣分解的方法來計算待推薦用戶與新物品直接的相似性。
與[17]非常相似,Wang等人在[18]中使用深度信念網(wǎng)絡(Deep Belief Network)進行音頻數(shù)據(jù)特征變換,不同的是同時保留兩種表示,第一種表示從方法中得到的數(shù)據(jù)表示,而第二部分則對應基于內容方法得到的數(shù)據(jù)表示,最后兩部分表示分別做點積,用來擬合最后的評分結果。
這三種方法都是將傳統(tǒng)協(xié)同過濾的矩陣分解方法與神經(jīng)網(wǎng)絡模型相結合的途徑。
3.排序
Deep CTR [https:/mp.weixin.qq.com/s/xWqpIHHISSkO97O_fKkb6A]
3.1. 總結(結論先行)
1.FM其實是對嵌入特征進行兩兩內積實現(xiàn)特征二階組合;FNN 在 FM 基礎上引入了 MLP;
2.DeepFM通過聯(lián)合訓練、嵌入特征共享來兼顧 FM 部分與 MLP 部分不同的特征組合機制;
3.NFM、PNN 則是通過改造向量積的方式來延遲FM的實現(xiàn)過程,在其中添加非線性成分來提升模型表現(xiàn)力;
4.AFM 更進一步,直接通過子網(wǎng)絡來對嵌入向量的兩兩逐元素乘積進行加權求和,以實現(xiàn)不同組合的差異化,也是一種延遲 FM 實現(xiàn)的方式;
5.DCN 則是將 FM 進行高階特征組合的方向上進行推廣,并結合 MLP 的全連接式的高階特征組合機制;
6.Wide&Deep 是兼容手工特征組合與 MLP 的特征組合方式,是許多模型的基礎框架;
7.Deep Cross 是引入殘差網(wǎng)絡機制的前饋神經(jīng)網(wǎng)絡,給高維的 MLP 特征組合增加了低維的特征組合形式,啟發(fā)了 DCN;
8.DIN 則是對用戶側的某歷史特征和廣告?zhèn)鹊耐I域特征進行組合,組合成的權重反過來重新影響用戶側的該領域各歷史特征的求和過程;
9.多任務視角則是更加宏觀的思路,結合不同任務(而不僅是同任務的不同模型)對特征的組合過程,以提高模型的泛化能力。
3.2. DNN
深度排序模型( embedding-神經(jīng)網(wǎng)絡),embedding+MLP 是對于分領域離散特征進行深度學習 CTR 預估的通用框架。深度學習在特征組合挖掘(特征學習)方面具有很大的優(yōu)勢。比如以 CNN 為代表的深度網(wǎng)絡主要用于圖像、語音等稠密特征上的學習,以 W2V、RNN 為代表的深度網(wǎng)絡主要用于文本的同質化、序列化高維稀疏特征的學習。CTR 預估的主要場景是對離散且有具體領域的特征進行學習,所以其深度網(wǎng)絡結構也不同于 CNN 與 RNN。
embedding+MLP 的過程如下:
- 對不同領域的 one-hot 特征進行嵌入(embedding),使其降維成低維度稠密特征。
- 然后將這些特征向量拼接(concatenate)成一個隱含層。
- 之后再不斷堆疊全連接層,也就是多層感知機(Multilayer Perceptron, MLP,有時也叫作前饋神經(jīng)網(wǎng)絡)。
- 最終輸出預測的點擊率。
3.3. Wide & Deep Network(連續(xù)特征->交叉特征+LR、離散特征->onehot->DNN)
Google 在 2016 年提出的寬度與深度模型(Wide&Deep)在深度學習 CTR 預估模型中占有非常重要的位置,它奠定了之后基于深度學習的廣告點擊率預估模型的框架。 Wide&Deep將深度模型與線性模型進行聯(lián)合訓練,二者的結果求和輸出為最終點擊率。其計算圖如下:
3.4. DeepFM
在Wide & Deep Network基礎上進行的改進,DeepFM的Wide部分是 FM
3.5. Deep & Cross Network(特征->cross netword+LR、DNN)
Ruoxi Wang 等在 2017 提出的深度與交叉神經(jīng)網(wǎng)絡(Deep & Cross Network,DCN)借鑒了FM的特征點擊交叉。DCN 的計算圖如下:
DCN 的特點如下:
1. Deep 部分就是普通的 MLP 網(wǎng)絡,主要是全連接。
2. 與 DeepFM 類似,DCN 是由 embedding + MLP 部分與 cross 部分進行聯(lián)合訓練的。Cross 部分是對 FM 部分的推廣。
3. Cross 部分的公式如下:
4. 可以證明,cross 網(wǎng)絡是 FM 的過程在高階特征組合的推廣。完全的證明需要一些公式推導,感興趣的同學可以直接參考原論文的附錄。
5. 而用簡單的公式證明可以得到一個很重要的結論:只有兩層且第一層與最后一層權重參數(shù)相等時的 Cross 網(wǎng)絡與簡化版 FM 等價。
6. 此處對應簡化版的 FM 視角是將拼接好的稠密向量作為輸入向量,且不做領域方面的區(qū)分(但產(chǎn)生這些稠密向量的過程是考慮領域信息的,相對全特征維度的全連接層減少了大量參數(shù),可以視作稀疏鏈接思想的體現(xiàn))。而且之后進行 embedding 權重矩陣 W 只有一列——是退化成列向量的情形。
7. 與 MLP 網(wǎng)絡相比,Cross 部分在增加高階特征組合的同時減少了參數(shù)的個數(shù),并省去了非線性激活函數(shù)
3.6. DIN [Deep Interest Network]對同領域歷史信息引入注意力機制的MLP
以上神經(jīng)網(wǎng)絡對同領域離散特征的處理基本是將其嵌入后直接求和,這在一般情況下沒太大問題。但其實可以做得更加精細。
由 Bahdanau et al. (2015) 引入的現(xiàn)代注意力機制,本質上是加權平均(權重是模型根據(jù)數(shù)據(jù)學習出來的),其在機器翻譯上應用得非常成功。受注意力機制的啟發(fā),Guorui Zhou 等在 2017 年提出了深度興趣網(wǎng)絡(Deep Interest Network,DIN)。DIN 主要關注用戶在同一領域的歷史行為特征,如瀏覽了多個商家、多個商品等。DIN 可以對這些特征分配不同的權重進行求和。其網(wǎng)絡結構圖如下:
- 此處采用原論文的結構圖,表示起來更清晰。
- DIN 考慮對同一領域的歷史特征進行加權求和,以加強其感興趣的特征的影響。
- 用戶的每個領域的歷史特征權重則由該歷史特征及其對應備選廣告特征通過一個子網(wǎng)絡得到。即用戶歷史瀏覽的商戶特征與當前瀏覽商戶特征對應,歷史瀏覽的商品特征與當前瀏覽商品特征對應。
- 權重子網(wǎng)絡主要包括特征之間的元素級別的乘法、加法和全連接等操作。
- AFM 也引入了注意力機制。但是 AFM 是將注意力機制與 FM 同領域特征求和之后進行結合,DIN 直接是將注意力機制與同領域特征求和之前進行結合。
3.7. FM -> FNN -> NFM -> PNN -> AFM
LR:
FM:
FNN:FM隱向量 + 拼接 + MLP
NFM:FM隱向量 + 特征交叉(逐元素向量乘法)+ 求和 + MLP
PNN:與NFM類似,特征交叉法采用了向量積的方法 + 拼接 + mlp
AFM:基于NFM的改進,通過在逐元素乘法之后形成的向量進行加權求和(Attention Net),去除了MLP部分直接接一個softmax
3.8. 多任務學習:同時學習多個任務
- 完全共享網(wǎng)絡層的參數(shù)
- 只共享embedding層參數(shù)
4.序列預測
循環(huán)神經(jīng)網(wǎng)絡(刻畫隱含狀態(tài)的關聯(lián)性,可以捕捉到整個序列的數(shù)據(jù)特征)
[19]Hidasi等人使用循環(huán)神經(jīng)網(wǎng)絡進行基于session的推薦,該工作是對于RNN的一個直接應用。
[20]Brébisson等人使用神經(jīng)網(wǎng)絡模型進行解決2015年的ECML/PKDD 數(shù)據(jù)挑戰(zhàn)題目“出租車下一地點預測”,取得了該比賽第一名。在[20]中,作者對于多種多層感知器模型以及循環(huán)神經(jīng)網(wǎng)絡模型進行對比,最后發(fā)現(xiàn)基于改進后的多層感知器模型取得了最好的效果,比結構化的循環(huán)神經(jīng)網(wǎng)絡的效果還要好。
在[21]中,Yang等人同時結合RNN及其變種GRU模型來分別刻畫用戶運動軌跡的長短期行為模式,通過實驗驗證,在“next location”推薦任務中取得了不錯的效果。如圖5所示,給定一個用戶生成的軌跡序列,在預測下一個地點時,直接臨近的短期訪問背景和較遠的長期訪問背景都同時被刻畫。
此外還有一些基于RNN的優(yōu)化模型[https:/zhuanlan.zhihu.com/p/30720579]
- GRU4REC[22],使用GRU單元
- GRU4REC+item features[23],加入內容特征
- GRU4REC+sampling+Dwell Time[24], 將用戶在session中item上的停留時間長短考慮進去
- Hierachical RNN[25],一種層次化的RNN模型,相比之前的工作,可以刻畫session中用戶個人的興趣變化,做用戶個性化的session推薦。
- GRU4REC+KNN[26], 將session 中的RNN模型,與KNN方法結合起來,能夠提高推薦的效果。
- Improvenment GRU4REC[27],基于GRU4REC的訓練優(yōu)化
- GRU + attention[28],加入attention機制
原因:
- 原始的用戶物品二維矩陣框架(基于協(xié)同,矩陣分解)不能完全刻畫復雜的推薦任務。
- 數(shù)據(jù)采集維度不夠,特征太稀疏,影響用戶的上下文環(huán)境過于復雜
展望
- 結構化神經(jīng)網(wǎng)絡RNN
- 深度強化學習
參考
[2] Tomas Mikolov. Using Neural Networks for Modeling and Representing Natural Languages. COLING (Tutorials) 2014: 3-4
[3] Daoud Clarke. A Context-Theoretic Framework for Compositionality in Distributional Semantics. Computational Linguistics 38(1): 41-71 (2012)
[4] Ian Goodfellow, Yoshua Bengio and Aaron Courville. Deep Learning. Book. The MIT press.2016.
[5] Pengfei Wang, Jiafeng Guo, Yanyan Lan, Jun Xu, Shengxian Wan, Xueqi Cheng. Learning Hierarchical Representation Model for NextBasket Recommendation. SIGIR 2015: 403-412
[6] Wayne Xin Zhao, Sui Li, Yulan He, Edward Y. Chang, Ji-Rong Wen, Xiaoming Li. Connecting Social Media to E-Commerce: Cold-Start Product Recommendation Using Microblogging Information. IEEE Trans. Knowl. Data Eng. 28(5): 1147-1159 (2016)
[7] Ningnan Zhou Wayne Xin Zhao, Xiao Zhang, Ji-Rong Wen, Shan Wang.A General Multi-Context Embedding Model For Mining Human Trajectory Data. IEEE Trans. Knowl. Data Eng. :Online first, 2016.
[8] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, Larry P. Heck. Learning deep structured semantic models for web search using clickthrough data. CIKM 2013: 2333-2338
[9] Ali Mamdouh Elkahky, Yang Song, Xiaodong He. A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems. WWW 2015: 278-288
[10] Ruslan Salakhutdinov, Andriy Mnih, Geoffrey E. Hinton. Restricted Boltzmann machines for collaborative filtering. ICML 2007: 791-798
[11] Ruslan Salakhutdinov, Andriy Mnih. Probabilistic Matrix Factorization. NIPS 2007: 1257-1264
[12] Yin Zheng, Bangsheng Tang, Wenkui Ding, Hanning Zhou. A Neural Autoregressive Approach to Collaborative Filtering. CoRR abs/1605.09477 (2016)
[13] Yao Wu, Christopher DuBois, Alice X. Zheng, Martin Ester. Collaborative Denoising Auto-Encoders for Top-N Recommender Systems. WSDM 2016: 153-162
[14]Devooght R, Bersini H. Collaborative filtering with recurrent neural networks[J]. arXiv preprint arXiv:1608.07400, 2016.
[15]He X, Liao L, Zhang H, et al. Neural collaborative filtering[C]/Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2017: 173-182.
[16] Hao Wang, Naiyan Wang, Dit-Yan Yeung. Collaborative Deep Learning for Recommender Systems. KDD 2015: 1235-1244
[17] A?ron Van Den Oord, Sander Dieleman, Benjamin Schrauwen. Deep content-based music recommendation. NIPS 2013: 2643-2651
[18] Xinxi Wang, Ye Wang. Improving Content-based and Hybrid Music Recommendation using Deep Learning. ACM Multimedia 2014: 627-636
[19] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, Domonkos Tikk. Session-based Recommendations with Recurrent Neural Networks. CoRR abs/1511.06939 (2015)
[20] Alexandre de Brébisson, étienne Simon, Alex Auvolat, Pascal Vincent, Yoshua Bengio. Artificial Neural Networks Applied to Taxi Destination Prediction. DC@PKDD/ECML 2015
[21] Cheng Yang, Maosong Sun, Wayne Xin Zhao, Zhiyuan Liu. A Neural Network Approach to Joint Modeling Social Networks and Mobile Trajectories. arXiv:1606.08154 (2016)
[22] Session-based recommendations with recurrent neural networks. (ICLR 2016)
[23] Parallel Recurrent Neural Network Architectures for Feature-rich Session-based
Recommendations. (RecSys 2016)
[24] Incorporating Dwell Time in Session-Based Recommendatons with Recurrent Neural Networks. (RecSys 2017)
[25] Personalizing Session-based Recommendations with Hierarchical Recurrent Neural Networks. (RecSys 2017)
[26] When Recurrent Neural Networks meet the Neighborhood for Session-Based
Recommendation. (RecSys 2017)
[27] Improved Recurrent Neural Networks for Session-based Recommendations. (DLRS 2016)
[28] Li J, Ren P, Chen Z, et al. Neural attentive session-based recommendation[C]/Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. ACM, 2017: 1419-1428.