論文閱讀“Learning to Embed Categorical Features without Embedding Tables for Recommendation”

Kang W C, Cheng D Z, Yao T, et al. Learning to Embed Categorical Features without Embedding Tables for Recommendation[C]//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. 2021: 840-850.

摘要翻譯

類別特征(例如用戶/項(xiàng)目id)的嵌入學(xué)習(xí)是各種推薦模型的核心,包括矩陣分解和神經(jīng)協(xié)同過濾。傳統(tǒng)的標(biāo)準(zhǔn)方法創(chuàng)建了一個(gè)嵌入表,其中每一行表示每個(gè)唯一特征值的專用嵌入向量。然而,該方法不能有效地處理在現(xiàn)實(shí)世界的推薦系統(tǒng)中普遍存在的高基數(shù)特征和不可見的特征值(例如新的視頻ID)。在本文中,作者提出了一種替代的嵌入框架深度哈希嵌入(DHE),用一個(gè)深度嵌入網(wǎng)絡(luò)代替嵌入表來實(shí)時(shí)計(jì)算嵌入。DHE首先將特征值編碼為一個(gè)具有多個(gè)哈希函數(shù)和轉(zhuǎn)換的唯一標(biāo)識(shí)符向量,然后應(yīng)用一個(gè)DNN將該標(biāo)識(shí)符向量轉(zhuǎn)換為嵌入式。實(shí)驗(yàn)結(jié)果表明,DHE在模型尺寸較小的情況下,其AUC與標(biāo)準(zhǔn)的one-hot方法相當(dāng)。編碼模塊具有確定性、不可學(xué)習(xí)性、無存儲(chǔ)性,嵌入網(wǎng)絡(luò)在訓(xùn)練期間進(jìn)行更新,學(xué)習(xí)嵌入生成。該工作闡明了設(shè)計(jì)基于DNN的替代嵌入方案,而不使用嵌入表查找。


the comparison between the standard one-hot based embedding and DHE
模型淺析

基于編碼解碼嵌入框架(T=?????),作者提出了設(shè)計(jì)良好編碼的特性,然后介紹了DHE中的編碼函數(shù)??和解碼函數(shù)??,然后進(jìn)行側(cè)特征增強(qiáng)(side-feature-enhanced)編碼設(shè)計(jì)以實(shí)現(xiàn)泛化。

Encoding Design

作者首先給出了設(shè)計(jì)良好編碼需要滿足的特性:

  • Uniqueness(唯一性):對(duì)每個(gè)特性值的編碼都應(yīng)該是唯一的。這也是全嵌入和多重哈希方法的目標(biāo)。否則,就會(huì)有一些特性值必須共享相同的編碼。碰撞的編碼使后續(xù)的解碼功能無法區(qū)分不同的特征值,這通常會(huì)損害模型的性能。
  • Equal Similarity(等相似性):當(dāng)然光有獨(dú)特性是不夠的。以二進(jìn)制編碼為例,它使用二進(jìn)制表示作為整數(shù)(例如id)的編碼:例如??(9)=[1,0,0,1]。我們可以看到,與??(7)=[0,1,1,1]相比,??(8)=[1,0,0,0]更類似于??(9)。作者認(rèn)為這引入了一個(gè)錯(cuò)誤的歸納偏差(ID8和ID9更相似),這可能會(huì)誤導(dǎo)后續(xù)的解碼功能。雙哈希也有一個(gè)類似的問題:在一個(gè)哈希函數(shù)中碰撞的兩個(gè)特征值的編碼比在兩個(gè)哈希函數(shù)中沒有碰撞的兩個(gè)值的編碼更相似。作者認(rèn)為由于我們事先不知道分類特征之間的語義相似性,所以我們應(yīng)該使任何兩個(gè)編碼同樣相似,而不引入任何歸納偏差。
  • High dimensionality(高維性):我們希望編碼易于后續(xù)解碼函數(shù)區(qū)分不同的屬性特征。高維空間通常被認(rèn)為是更可分離的(e.g. kernel methods),我們認(rèn)為編碼維度也應(yīng)該相對(duì)較高。例如,one-hot編碼具有一個(gè)非常大的維數(shù)(??用于全嵌入,??用于哈希嵌入)
  • High Shannon Entropy(高香農(nóng)熵):香農(nóng)熵(以“比特”為單位)測量某個(gè)維度中攜帶的信息量。從高熵的要求出發(fā),從信息理論的角度來防止冗余維度。例如,一個(gè)編碼方案可以滿足上述三個(gè)屬性,但在某些維度上,所有特征值的編碼值都是相同的。因此,我們希望通過最大化每個(gè)維的熵來有效地利用所有維。例如,one-hot編碼在每個(gè)維度上都有一個(gè)非常低的熵,因?yàn)樵谌魏尉S度上的編碼對(duì)于大多數(shù)特征值都為0。因此,one-hot編碼需要極高的維度(即??)。

    對(duì)于編碼需要滿足的四個(gè)特性,作者在一張表中對(duì)現(xiàn)有的編碼方式進(jìn)行了總結(jié)。

    可以看出,雖然Binary編碼和Identity編碼沒有使用嵌入表,但并沒有滿足相同的相似性和高維的可區(qū)分性。
Dense Hash Encoding

為了滿足以上的編碼特性,作者提出了DHE。
在不喪失一般性的情況下,我們假設(shè)特征值是整數(shù),因?yàn)槲覀兛梢詫⒆址涤成涞骄哂凶址5恼麛?shù)。
Encoding function E: N -> R^k使用??個(gè)通用哈希函數(shù)將特征值映射到??維稠密且實(shí)值的編碼。具體來說,我們有E'(s)= [??^1(s), ??^2(s), ..., ??^k(s)] ,其中H^(i):N→{1,2,...??}。這里設(shè)置的??與嵌入表無關(guān),我們只需要將其設(shè)置為一個(gè)相對(duì)較大的數(shù)字。作者這里說universal hashing是一種很好的方法,因?yàn)樵摲椒ǖ墓V悼梢跃鶆虻姆植荚趝1,2,..,m}上。對(duì)于神經(jīng)網(wǎng)絡(luò)來說,其輸入是實(shí)值的,因此作者采用了一種適當(dāng)?shù)淖儞Q將上述哈希的整數(shù)值轉(zhuǎn)換為實(shí)值編碼。在轉(zhuǎn)換函數(shù)的選擇上作者給出了兩種選擇:

與現(xiàn)有的哈希方法僅限于少數(shù)哈列函數(shù)的哈希方法不同,作者選擇了一個(gè)相對(duì)較大的??來滿足高維特性(在實(shí)驗(yàn)中是??=1024,盡管它比??小得多)。整體的編碼流程如下:
Deep Embedding Network

該部分的Decoding Function ?? : R^?? → R^?? 是將k維的編碼向量轉(zhuǎn)換為d維的嵌入表示特征。然而,所要學(xué)習(xí)的映射過程非常類似于一個(gè)高度非線性的特征變換,其中輸入特征是固定的和不可學(xué)習(xí)的。
由于DNN所具有的通用函數(shù)逼近特性,作者在這一部分選擇使用DNN來學(xué)習(xí)映射。并且深度網(wǎng)絡(luò)可以使用更少的參數(shù)來近似函數(shù)。具體來說,作者使用前饋網(wǎng)絡(luò)作為DHE的解碼函數(shù)。通過具有??_{NN}(由自身實(shí)驗(yàn)條件所決定)節(jié)點(diǎn)的隱藏層來轉(zhuǎn)換前序的k維編碼。在輸出層(??個(gè)節(jié)點(diǎn))將最后一個(gè)隱藏層轉(zhuǎn)換為??維特征值嵌入。
整個(gè)學(xué)習(xí)過程獨(dú)立于n和m。因此DHE的一個(gè)獨(dú)特的特性是,它不使用任何嵌入表查找,而純粹依賴于隱藏層來動(dòng)態(tài)地記憶和計(jì)算嵌入。然而,由于嵌入生成任務(wù)需要從哈希編碼到嵌入的高度非線性轉(zhuǎn)換,因此當(dāng)前的嵌入網(wǎng)絡(luò)是欠擬合的。

Side Features Enhanced Encodings for Generalization

DHE的一個(gè)有趣的擴(kuò)展利用側(cè)特性來學(xué)習(xí)更好的編碼。這有助于將結(jié)構(gòu)注入到我們的編碼中,并實(shí)現(xiàn)特征值和新值之間更好的泛化。實(shí)現(xiàn)泛化的一種典型方法是使用為泛化提供其潛在相似性的側(cè)邊特征(稠密的特征信息以及詞袋模型特征)。

基于one-hot的完全嵌入保留了類別特征的屬性,并獨(dú)立地生成嵌入(即任意兩個(gè)id的嵌入都是獨(dú)立的)。one-hot的嵌入方式是去中心化的結(jié)構(gòu),利于保存但很難實(shí)現(xiàn)生成。相比之下,DHE方案是一個(gè)中心化的解決方案:嵌入網(wǎng)絡(luò)中的任何權(quán)值變化都會(huì)影響所有特征值的嵌入。由于DHE的解碼功能是一個(gè)神經(jīng)網(wǎng)絡(luò),我們有很大的靈活性來修改輸入,比如合并側(cè)特征。因此作者提出了DHE的側(cè)特征增強(qiáng)編碼,希望這能提高特征值之間的泛化性,并得到新的值。增強(qiáng)編碼的一種直接方法是直接將可推廣的特性和哈希編碼連接起來。然后將增強(qiáng)的編碼輸入深度嵌入網(wǎng)絡(luò)進(jìn)行嵌入生成。認(rèn)為哈希編碼為記憶提供了一個(gè)唯一的標(biāo)識(shí)符,而其他特征則支持泛化能力。


現(xiàn)在包括sklearn中的hash降維表示的學(xué)習(xí)都是基于特征所在位置i下標(biāo)進(jìn)行哈希,從而得到當(dāng)前位置i對(duì)應(yīng)的哈希值h(i),然后將原始表示中特征所在位置i的特征值\phi(i)加到哈希位置h(i)中。
而對(duì)于推薦系統(tǒng),作者卻選擇了非常取巧的方式,對(duì)當(dāng)前的item的id進(jìn)行k次哈希,得到k個(gè)值并進(jìn)行實(shí)值轉(zhuǎn)換。從而與傳統(tǒng)bow表示進(jìn)行拼接使用DNN學(xué)習(xí)并降維。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容