前言
-
2019-推薦專會Recsys 長文:Critiquing-based CRS
Critiquing(評價)是一種對話推薦方法,可根據(jù)用戶偏好反饋的物品屬性來調(diào)整推薦。歷史上Critiquing方法主要是基于約束(constraint-based)和基于效用(utility-based)的方法來更正推薦結果。本文從基于深度學習的推薦方法和基于語言的交互的角度重新審視了這一類方法。具體來說,提出了一種端到端的深度學習框架,該框架具有兩個變體,它們擴展了NCF(Neural CF)架構,并帶有解釋和評價組件。這些體系結構不僅可以預測用戶和物品的個性化關鍵短語,而且可以在潛在空間中嵌入基于語言的反饋,從而反過來調(diào)節(jié)后續(xù)的推薦??偠灾?,本文提供了統(tǒng)一深度推薦和基于語言的反饋的第一步。
引言
批判是一種對話式(也稱為順序交互式)推薦的方法,可根據(jù)用戶對有關物品屬性的偏好反饋來調(diào)整推薦。例如,在統(tǒng)一評論(unit critiquing)中,用戶可以通過請求具有更高分辨率的物品來批判數(shù)碼相機的推薦(同一個屬性);而在混合批注(compound critiquing)中,用戶可以進一步探索電池壽命更長且價格更低的物品(不同方面的屬性)。雖然以前的批評工作共同定義了會話推薦系統(tǒng)的一個重要子領域,但這些方法大多數(shù)都假定有一組固定的已知屬性以及用于修改推薦的顯式基于約束和基于功能的方法。
CRS的研究已經(jīng)從基于批判方法的基礎技術中取得了實質性進展。首先,從基本的推薦的角度看,基于深度學習的推薦方法目前可取得SOTA的結果。其次,最近的工作集中在會話推薦方法上,這些方法不假定先驗物品具有固定的屬性,而是在潛在因素模型之上積極應用explore-exploit策略。第三,基于語言的解釋的使用也有了很大的進步。 但是,鑒于在深度推薦,潛在因素模型和解釋方面的所有這些進步,尚不知道將其結合到深度對話式批評框架中的工作。
在這項工作中,我們旨在從基于深度學習的推薦方法以及可以固定一組推斷的關鍵短語屬性的基于語言的交互的角度重新審視評論框架。這些框架的修改使我們在進行批判的方式上需要進行兩項重大更改:(1)在基于深度學習的系統(tǒng)中,必須在相同的潛在嵌入式空間中表達和操縱用戶的喜好和反饋,以在評價后提供更新的推薦; (2)與一組固定物品屬性相比,基于語言的交互提供了更豐富的交互空間,但是還引入了基于語言的標簽的主觀(個性化)判斷,數(shù)據(jù)稀疏性,同義性和固有標簽不確定性的問題。為了解決問題(1)和(2),首先將語言交互限制為從用戶評論中提取的大量描述性關鍵短語。然后,我們提出了一種端到端的深度學習框架,該框架具有兩種變體-一種判別式(deterministic)和一種概率式(probabilistic)-擴展了NCF。這些框架不僅可以推斷出用戶和商品的個性化關鍵短語說明,而且可以在與用戶和商品嵌入相同的潛在空間中嵌入基于語言的反饋,以調(diào)制后續(xù)的批判性推薦。
模型框架
Deterministic Model: CE-NCF
-
Explanation Generation
文中構建可解釋模型的關鍵假設是,觀察到的用戶i和物品j的評分{0(不喜歡),1(喜歡)}和二元解釋向量
都是從相同的隱含表征
生成的,表征
由用戶隱含向量ui和物品表征vj共同編碼。 將該假設表述為一個深度學習框架,如下圖所示。
其中首先訓練模型,以通過編碼函數(shù)fe將用戶嵌入ui和物品嵌入vj對編碼為初始潛在表示zi,j。 然后,預測函數(shù)fr和fs分別為該用戶項對生成“相似”交互作用?ri,j∈[0,1]和解釋?si,j的概率:
與框架相對應,自低而上共三個關鍵部分
就解釋類型而言,以上表述是通用的; 推薦的解釋可以是相似物品清單,也可以是用自然語言陳述的原因。本文使用了從評論中提取的關鍵短語列表,因為它們具有豐富的信息和可解釋性,即用從評論中挖掘出的關鍵短語Keyphrases來出顯示喜歡或不喜歡某物品的確切原因 (因為某個屬性不喜歡/喜好)。 這樣,關鍵短語還支持一種簡單的交互機制,使用戶能夠表達與推薦有關的個性化關鍵短語解釋的異議(或同意),因此可以評價該推薦。 提取的關鍵短語如下:

- Explanation Critiquing
解釋性批評的目的是基于用戶與解釋(即,屬性描述)的互動來完善推薦。 直觀地,批判使用戶能夠糾正在訓練過程中學習到的靜態(tài)偏好,以便推薦系統(tǒng)可以更好地匹配當前用戶的偏好。 評判過程會增強隱向量的信息,反過來又會修正評分,以更好地適應用戶當前的偏好。 從技術上講,這可以通過反函數(shù)來實現(xiàn)

準確地說,評價步驟總結如下:
(1)預測函數(shù)fs(z)將潛在表示映射為針對每個推薦物品的特定用戶的評分和解釋
。 (2)用戶通過指出他們不同意的解釋來進行批評,從而有效地將
中的這些關鍵短語清零。
(3)逆預測函數(shù)將評價過的解釋反向調(diào)整到隱表征中。
(4)最后,該模型如下更新每個用戶項對的評分和解釋:


-
訓練
損失分為三部分:表示基本的評分預測loss,
是反映解釋生成的關鍵詞的準確度。
表示隱向量的差異loss
直觀地,L0和L1是有監(jiān)督學習任務,L2是一種自動編碼任務,它鼓勵模型學習潛在表示,這些表示形式可以從反函數(shù)中f?-1?fs中進行解釋和恢復,三個函數(shù)都用MSE進行l(wèi)oss計算。 -
user & item embeddings
使用奇異值分解來得到用戶和物品矩陣作為預訓練信息加入模型中:
2. Variational Probabilistic Model: CE-VNCF
基于概率生成思想的模型,暫時略過
實驗情況
數(shù)據(jù)集
Amazon商品數(shù)據(jù),將商品評分二值化處理。
數(shù)據(jù)集不包含預選的關鍵短語。 文中使用以下通用處理步驟從評論中提取候選關鍵字,以用于每個數(shù)據(jù)集的解釋和評價:
(1)從整個數(shù)據(jù)集的評論中提取高頻名詞和形容詞短語的單字組和雙字組列表。
(2)使用點向互信息(PMI)閾值修剪bigram關鍵字表,以確保統(tǒng)計上不太可能隨機發(fā)生bigram。
(3)將每個評論表示為稀疏0-1向量,指示每個關鍵詞是否在評論中出現(xiàn)。-
評估
推薦側:TopN推薦常見指標
解釋側:同樣采用NDCG/MAP等指標進行評估,將生成的關鍵詞與用戶歷史最流行的top關鍵詞進行對比
評價效率Critiquing Effective:
針對推薦物品的關鍵詞說明是為用戶量身定制的,因此對于評估評判沒有明確的事實依據(jù)。
因此,我們提出了一種新穎的評估指標,稱為Falling MAP(F-MAP)。 給定一組項目S = {Itemj | j∈{1···n}},還有一個可加密的關鍵字短語k,如果k在針對用戶i的項目j的Top-K解釋預測中,我們說項目j屬于項目集Sik。理想情況下,在用戶對k進行批判之后,我們希望讓所有受影響的物品Sik的排名從用戶TopN推薦列表中“下降”(向下移動到排名列表的下方)。Falling MAP衡量在對關鍵詞k進行評判前后,受影響的物品集Sik的排名差異。
總而言之,正面的F-MAP表示批評對潛在的嵌入具有預期的影響,即對最有可能受到批評的解釋的項目的評級和等級均產(chǎn)生負面影響。 -
實驗效果
【case study】
小結
本文是Critiquing-based CRS的DL方向研究,仍然是single-turn的交互,總體實現(xiàn)上還是比較清晰的,可以往多輪交互方向拓展,并對模型現(xiàn)有淺層網(wǎng)絡進行改造。








