
論文題目
Axiomatic Attribution for Deep Networks
會議:ICML 2017
核心思想
提出滿足兩大公理“敏感性(Sensitivity)”和“實現(xiàn)不變性(Implementation Invariance)”的歸因方法——集成梯度法(Integrated Gradients)。歸因方法都應(yīng)滿足這兩項公理,否則不是合格的歸因方法。
關(guān)鍵詞:歸因分析、梯度路徑積分、集成梯度
兩大公理
梯度是對深度網(wǎng)絡(luò)模型參數(shù)的模擬,因此從梯度和特征值的乘開始,是合理的。
- (1) Sensitivity(a)
如果每個特征和基線僅在一個特征上都有不同輸出,則能對該特征給出一個非零的歸因。 - (2) Implementation Invariance
如果兩種網(wǎng)絡(luò)對所有輸入都有同樣的輸出,即便兩者實現(xiàn)不同,這兩種網(wǎng)絡(luò)也是功能等同的。
直接計算輸出對輸入的梯度,或基于鏈式法則引入變量間接計算該梯度,兩者結(jié)果相同,因此梯度具有實現(xiàn)不變性。
集成梯度法

公理:完整性,即歸因值加起來等于輸入處的輸出和基線處輸出之間的差值。完整性是敏感性的加強版,這是因為敏感性是基線和輸入僅在一個變量上存在差異,而完整性聲明了這兩個輸出值的差別等于該變量的歸因值。
歸因值對應(yīng)分攤成本,這里的集成梯度對應(yīng)一種稱為Aumann-Shapley (Aumann & Shapley, 1974)的方法,從數(shù)學(xué)上可以解決成本分攤問題。

圖中baseline(r1,r2)和輸入(s1,s2)之間的每條路經(jīng)都對應(yīng)一種歸因算法,集成梯度法使用了路徑P2。
集成梯度的使用
圖像任務(wù)中全黑(全0)選為baseline,而文本網(wǎng)絡(luò)則通常選擇全0的嵌入向量。

對baseline x'到輸入x的路徑上點的梯度求和,其中m為黎曼近似的步數(shù),通常在20~300,使歸因值近似等于baseline處和輸入處的分數(shù)之差。
應(yīng)用
廣泛用于基于深度網(wǎng)絡(luò)的圖像任務(wù)、自然語言任務(wù)、化學(xué)模型等。
相關(guān)工作及結(jié)論
該技術(shù)量化了預(yù)測結(jié)果中每個特征的重要性。
針對歸因問題的方法首提出于2016年,有些方法滿足實現(xiàn)不變性但不能滿足敏感性。有些方法因為網(wǎng)絡(luò)稠密而實現(xiàn)成本高昂。該方法僅需計算梯度即可。此外使用注意力機制進行歸因分析忽略了其模式的影響,如LSTM中存儲單元和循環(huán)狀態(tài)等。
集成梯度法將深度網(wǎng)絡(luò)的預(yù)測輸出歸因于輸入,操作簡便、應(yīng)用廣泛且有堅實的理論依據(jù)。
一句話概括
基于滿足離開兩項公理設(shè)計歸因方法——集成梯度法,計算輸出對模型輸入特征的梯度路徑積分,不同特征在路徑上的梯度加權(quán)和決定了不同特征對模型預(yù)測能力的貢獻。
不足之處,歡迎指正。
參考文獻
[1] Mukund Sundararajan. et al. Axiomatic Attribution for Deep Networks. Proceedings of the 34th International Conference on Machine Learning. 2017