因果推斷推薦系統(tǒng)工具箱 - Influence Function for Unbiased Recommendation(一)

文章名稱

【SIGIR-2020】Influence Function for Unbiased Recommendation

核心要點(diǎn)

因?yàn)楹唵我子?,只是?duì)樣本進(jìn)行權(quán)重調(diào)整,IPS是消除推薦系統(tǒng)數(shù)據(jù)偏差的常用方法。但是真實(shí)數(shù)據(jù)集中很難得到所有的confounder,所以很難保證對(duì)傾向性得分的預(yù)測是非常準(zhǔn)確的。因此,作者收到基于樣本權(quán)重調(diào)節(jié)的魯邦深度學(xué)習(xí)方法的啟發(fā),提出利用influence function來消除數(shù)據(jù)偏差對(duì)推薦模型的影響。

方法細(xì)節(jié)

問題引入

推薦模型的訓(xùn)練數(shù)據(jù)中,可能存在多種bias,例如selection bias,popularity bias以及position bias?,F(xiàn)行的主流方法是使用IPS對(duì)樣本進(jìn)行加權(quán)(調(diào)整樣本權(quán)重)來進(jìn)行偏差糾正,以防止利用有偏的數(shù)據(jù)迭代訓(xùn)練模型,導(dǎo)致不斷地放大(加強(qiáng))偏差的影響。然而,1)傾向得分的定義中,我們可以看到其假設(shè)收集日志數(shù)據(jù)的策略應(yīng)該是隨機(jī)的,即每個(gè)物品都有非零的概率被曝光給任何用戶。推薦物品結(jié)果集合通常是基于CTR或eCPM截?cái)嗪蟮膖op k的物品集合,這與傾向得分的定義相矛盾,導(dǎo)致IPS方法的準(zhǔn)確性受到影響。2)由于上述多種bias是共同作用于觀測數(shù)據(jù)的,因此傾向性得分需要彌合這些bias共同作用的結(jié)果,導(dǎo)致IPS更難得到有效的學(xué)習(xí)。

具體做法

影響函數(shù) (Influence Function) 通常用來衡量對(duì)一個(gè)訓(xùn)練樣本添加小擾動(dòng)時(shí),其對(duì)估計(jì)器的影響。這個(gè)方法可以揭示一個(gè)訓(xùn)練樣本的重要性?;谶@種思路,作者把IPS可以看作是reweight learning的一個(gè)種方法,提出了基于IF重新加權(quán)每個(gè)樣本的訓(xùn)練(訓(xùn)練)損失,來在無偏驗(yàn)證的驗(yàn)證數(shù)據(jù)上獲得更少的(經(jīng)驗(yàn))損失,實(shí)現(xiàn)觀測數(shù)據(jù)的糾偏。

推薦模型通常利用最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)損失(ERM)進(jìn)行學(xué)習(xí),具體公式如下圖所示,其中z_?? = (??_?? , ??_?? ) ∈ X × Y表示一個(gè)觀測樣本,并服從訓(xùn)練概率??(??,??),\theta \in \Theta表示模型的參數(shù),??(??_??,\theta)是模型的損失函數(shù),R(\theta)表示正則項(xiàng)。最優(yōu)的模型參數(shù)\hat{\theta} = argmin_{\theta \in \Theta} L(z,\theta)

ERM

如果數(shù)據(jù)有偏,訓(xùn)練(觀測)概率分布P(x, y)與實(shí)際(無偏)概率分布Q(x, y)是不相同的。IPS方法可以表示為如下的求解過程。其中,定義p_i = P(x_i, y_i) / Q(x_i, y_i)為propensity score。

IPS

Influence Function是魯邦統(tǒng)計(jì)學(xué)的重要概念之一(可以參見論文[1],以及各位大佬的筆記[2, 3],Influence Function的話題太大了),它首先被用于衡量樣本對(duì)在驗(yàn)證集上計(jì)算的損失的影響。一個(gè)訓(xùn)練樣本z_i對(duì)驗(yàn)證樣本z_j的損失計(jì)算的影響可以表示如下圖所示。其中,\hat{\theta}_\epsilon(個(gè)人認(rèn)為這個(gè)notation應(yīng)該可以寫成\hat{\theta}_\epsilon(z_i))是在經(jīng)過一個(gè)小擾動(dòng)\epsilon之后的訓(xùn)練樣本z_i上訓(xùn)練后,得到的最優(yōu)參數(shù)(其實(shí)可以理解為其他樣本都不變,就對(duì)其中一個(gè)樣本z_i做一個(gè)一個(gè)小擾動(dòng)\epsilon,再利用所有樣本進(jìn)行訓(xùn)練,得到最優(yōu)參數(shù))。H_{\hat{\theta}} = \nabla^2_{\theta}L(z, \hat{\theta})是整體損失對(duì)某個(gè)具體樣本z的二階倒數(shù)(在式子中這個(gè)具體樣本是驗(yàn)證集樣本z_j),是漢海矩陣。

IF

這一節(jié)先到這里,下節(jié)繼續(xù)講解IF如何被用來進(jìn)行權(quán)重調(diào)節(jié)以及如何學(xué)習(xí)模型參數(shù)。

心得體會(huì)

Propensity Score

作者定義p_i = P(x_i, y_i) / Q(x_i, y_i)為propensity score,和其他常見的IPS方法的定義有一些不同。那些方法會(huì)定義給定樣本特征,其反饋被觀測到等事件的概率為Propensity score。不過,兩者都是利用這個(gè)權(quán)重加權(quán)實(shí)現(xiàn)樣本權(quán)重調(diào)節(jié)和數(shù)據(jù)糾偏。作者并沒有把訓(xùn)練數(shù)據(jù)是部分觀測的情況考慮在內(nèi),而是從類似important sampling的角度引入了原始概率分布P(x_i, y_i)。個(gè)人感覺,常見方法的propensity score的定義更容易理解,也更適用于具體場景。本文中的定義更抽象,但不太符合通常認(rèn)知的角度。

文章引用

[1] Koh, P. W., and Liang, P. Understanding black-box predictions via influence functions. In Proceedings of the 34th International Conference on Machine Learning- Volume 70 (2017), JMLR. org, pp. 1885–1894.

[2] 影響函數(shù)(Influence Function):魯棒統(tǒng)計(jì)的敲門磚

[3] [ICML] Understanding Black-box Predictions via Influence Functions

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請通過簡信或評(píng)論聯(lián)系作者。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容