文章名稱
【SIGIR-2020】Influence Function for Unbiased Recommendation
核心要點(diǎn)
因?yàn)楹唵我子?,只是?duì)樣本進(jìn)行權(quán)重調(diào)整,IPS是消除推薦系統(tǒng)數(shù)據(jù)偏差的常用方法。但是真實(shí)數(shù)據(jù)集中很難得到所有的confounder,所以很難保證對(duì)傾向性得分的預(yù)測是非常準(zhǔn)確的。因此,作者收到基于樣本權(quán)重調(diào)節(jié)的魯邦深度學(xué)習(xí)方法的啟發(fā),提出利用influence function來消除數(shù)據(jù)偏差對(duì)推薦模型的影響。
方法細(xì)節(jié)
問題引入
推薦模型的訓(xùn)練數(shù)據(jù)中,可能存在多種bias,例如selection bias,popularity bias以及position bias?,F(xiàn)行的主流方法是使用IPS對(duì)樣本進(jìn)行加權(quán)(調(diào)整樣本權(quán)重)來進(jìn)行偏差糾正,以防止利用有偏的數(shù)據(jù)迭代訓(xùn)練模型,導(dǎo)致不斷地放大(加強(qiáng))偏差的影響。然而,1)傾向得分的定義中,我們可以看到其假設(shè)收集日志數(shù)據(jù)的策略應(yīng)該是隨機(jī)的,即每個(gè)物品都有非零的概率被曝光給任何用戶。推薦物品結(jié)果集合通常是基于CTR或eCPM截?cái)嗪蟮膖op k的物品集合,這與傾向得分的定義相矛盾,導(dǎo)致IPS方法的準(zhǔn)確性受到影響。2)由于上述多種bias是共同作用于觀測數(shù)據(jù)的,因此傾向性得分需要彌合這些bias共同作用的結(jié)果,導(dǎo)致IPS更難得到有效的學(xué)習(xí)。
具體做法
影響函數(shù) (Influence Function) 通常用來衡量對(duì)一個(gè)訓(xùn)練樣本添加小擾動(dòng)時(shí),其對(duì)估計(jì)器的影響。這個(gè)方法可以揭示一個(gè)訓(xùn)練樣本的重要性?;谶@種思路,作者把IPS可以看作是reweight learning的一個(gè)種方法,提出了基于IF重新加權(quán)每個(gè)樣本的訓(xùn)練(訓(xùn)練)損失,來在無偏驗(yàn)證的驗(yàn)證數(shù)據(jù)上獲得更少的(經(jīng)驗(yàn))損失,實(shí)現(xiàn)觀測數(shù)據(jù)的糾偏。
推薦模型通常利用最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)損失(ERM)進(jìn)行學(xué)習(xí),具體公式如下圖所示,其中表示一個(gè)觀測樣本,并服從訓(xùn)練概率
,
表示模型的參數(shù),
是模型的損失函數(shù),
表示正則項(xiàng)。最優(yōu)的模型參數(shù)

如果數(shù)據(jù)有偏,訓(xùn)練(觀測)概率分布與實(shí)際(無偏)概率分布
是不相同的。IPS方法可以表示為如下的求解過程。其中,定義
為propensity score。

Influence Function是魯邦統(tǒng)計(jì)學(xué)的重要概念之一(可以參見論文[1],以及各位大佬的筆記[2, 3],Influence Function的話題太大了),它首先被用于衡量樣本對(duì)在驗(yàn)證集上計(jì)算的損失的影響。一個(gè)訓(xùn)練樣本對(duì)驗(yàn)證樣本
的損失計(jì)算的影響可以表示如下圖所示。其中,
(個(gè)人認(rèn)為這個(gè)notation應(yīng)該可以寫成
)是在經(jīng)過一個(gè)小擾動(dòng)
之后的訓(xùn)練樣本
上訓(xùn)練后,得到的最優(yōu)參數(shù)(其實(shí)可以理解為其他樣本都不變,就對(duì)其中一個(gè)樣本
做一個(gè)一個(gè)小擾動(dòng)
,再利用所有樣本進(jìn)行訓(xùn)練,得到最優(yōu)參數(shù))。
是整體損失對(duì)某個(gè)具體樣本
的二階倒數(shù)(在式子中這個(gè)具體樣本是驗(yàn)證集樣本
),是漢海矩陣。

這一節(jié)先到這里,下節(jié)繼續(xù)講解IF如何被用來進(jìn)行權(quán)重調(diào)節(jié)以及如何學(xué)習(xí)模型參數(shù)。
心得體會(huì)
Propensity Score
作者定義為propensity score,和其他常見的IPS方法的定義有一些不同。那些方法會(huì)定義給定樣本特征,其反饋被觀測到等事件的概率為Propensity score。不過,兩者都是利用這個(gè)權(quán)重加權(quán)實(shí)現(xiàn)樣本權(quán)重調(diào)節(jié)和數(shù)據(jù)糾偏。作者并沒有把訓(xùn)練數(shù)據(jù)是部分觀測的情況考慮在內(nèi),而是從類似important sampling的角度引入了原始概率分布
。個(gè)人感覺,常見方法的propensity score的定義更容易理解,也更適用于具體場景。本文中的定義更抽象,但不太符合通常認(rèn)知的角度。
文章引用
[1] Koh, P. W., and Liang, P. Understanding black-box predictions via influence functions. In Proceedings of the 34th International Conference on Machine Learning- Volume 70 (2017), JMLR. org, pp. 1885–1894.
[2] 影響函數(shù)(Influence Function):魯棒統(tǒng)計(jì)的敲門磚
[3] [ICML] Understanding Black-box Predictions via Influence Functions