Interpretability of Deep Learning Models: A Survey of Results
介紹
整理了幾個(gè)不同層面的可理解性
模型透明度
可模擬性: 一個(gè)人能否用輸入和模型來復(fù)現(xiàn)每一步操作,做出正確結(jié)論。以及人能否理解模型參數(shù)的變化邏輯。
可分解性:模型的每一個(gè)參數(shù)是否都能夠有一個(gè)只管的解釋。
算法透明度: 解釋學(xué)習(xí)算法的工作原因。(SVM中超平面的選擇可以用邊緣點(diǎn)和決策邊界來解釋。(DNN中每層特征中的非線性難以解釋用于輸出的特征
模型功能性
文本描述:模型語義上能夠理解的解釋。(模型劃分為用于預(yù)測的和用于生成文本解釋的兩部分)
可視化:可視化高維分布表達(dá)的一種流行方法時(shí)tSNE
局部解釋:計(jì)算給定輸出類的特定輸入帶來的局部變化。(NN中,輸梯度可以用來識別特定的權(quán)重和受輸入向量影響的局部變化。
現(xiàn)有技術(shù)
模型透明性
透明度主要關(guān)注可分解性以及算法透明度。
Erhan:可視化(無監(jiān)督deep belief networks)內(nèi)部單元
-
Zeiler & Fergus:用逆卷積把特征映射回輸入空間,把上面的內(nèi)容拓展到CNN。
- 模型透明度不僅有助于理解,還能夠幫助提高模型表現(xiàn)
Karpathy:針對LSTM RNN,一些細(xì)胞學(xué)習(xí)長持續(xù)的容易理解特征,另一些則難理解(變化快)
關(guān)于CNN:
Mahendran&Vedaldi:觀察CNN不同層級的圖片表示,模型較深層學(xué)習(xí)圖像更抽象的表示,并認(rèn)為這體現(xiàn)了模型的抽象表現(xiàn)
Yosinski:將其完善成工具
Nguyen:顯示CNN學(xué)習(xí)圖片的哪些信息(結(jié)構(gòu),細(xì)節(jié),結(jié)構(gòu)等等
Simonyan:生成CNN每一類最喜歡圖片——輸入中的最重要特征
Nguyen:利用Deep Generator Network,生成針對特定神經(jīng)層的最優(yōu)圖片。
-
Li:收斂學(xué)習(xí)(不同網(wǎng)絡(luò)是否學(xué)習(xí)相似特征)
先訓(xùn)練好多個(gè)網(wǎng)絡(luò)
然后比較每個(gè)特征在上一層or上一組層的狀況
結(jié)論:DN表現(xiàn)相同的時(shí)候,可能學(xué)習(xí)到的是訓(xùn)練數(shù)據(jù)的不同特征
-
Koh & Liang:從訓(xùn)練數(shù)據(jù)集的視角觀察模型
對訓(xùn)練集添加某個(gè)固定位置的擾動(dòng),以觀察擾動(dòng)對結(jié)果的影響
一定程度上說明了“對抗樣本”的意義
-
Shwartz-Ziv & Tishby:利用信息論分析DN
利用信息瓶頸工作考察每層的輸入輸出
早期(drift)階段,權(quán)重的方差<<梯度的均值,說明高信噪比
-
之后(diffusion)階段,權(quán)重方差>>梯度均值,說明低信噪比
隨機(jī)梯度下降通過diffusion階段產(chǎn)生有效的內(nèi)部表示
簡單隨機(jī)擴(kuò)散算法能夠再訓(xùn)練的擴(kuò)散過程使用,以降低訓(xùn)練時(shí)間。
多種權(quán)重,都能訓(xùn)練出最優(yōu)表現(xiàn)的網(wǎng)絡(luò)。
模型功能性
四種事后解釋:文本(文字or口述)、視覺、局部(輸入周圍局部特征空間上下文中證明決策合理性)、例子
-
tSNE
可視化方法,(降維,跨尺度固有結(jié)構(gòu)信息)
——理解數(shù)據(jù),幫助理解怎么學(xué)習(xí)
但沒有解釋算法
-
Terrapattern
基于衛(wèi)星圖像可視化探索相似城市區(qū)域
用一個(gè)CNN通過打標(biāo)簽衛(wèi)星圖像來訓(xùn)練
然后移除頂層分類層,用剩余卷積層為衛(wèi)星圖像生成特征,再用k臨近算法為特征尋找最接近特定特征
——本意不是解釋CNN但實(shí)際上起到了后驗(yàn)理解效果
-
Hendricks
他們的工作旨在提供一個(gè)圖像分類器+圖像準(zhǔn)確描述
但并沒有給出描述與圖片特征的對應(yīng)關(guān)系
-
Xu等人字幕生成方法
不分類,只描述每個(gè)單詞的注意力集中在圖像哪里
-
Ribeiro LIME
為任何機(jī)器學(xué)習(xí)模型提供決策解釋。
輸出:二進(jìn)制向量
每位表示一個(gè)輸入特征
方法:生成一些輸入附近的擾動(dòng)樣本,來學(xué)習(xí)模型的局部近似
-
Elenberg
高效流算法產(chǎn)生相似的輸出,10倍提高LIME效率
-
Ross:RRR(right for the right reasons
利用二進(jìn)制確定一個(gè)輸入特征是否導(dǎo)致示例的正確分類
利用不同的掩碼建立不同的決策邊界
對于高可解釋性模型建立:
-
LRP:
與泰勒展開相關(guān)
輸出一個(gè)關(guān)于輸入特征的熱圖,顯示與模型輸出的相關(guān)性大小
最適用于圖片分類
Samek:類似LRP
-
Kumar:
- 顯示模型最關(guān)注的圖片區(qū)域
-
Lei:
局部解釋方法,針對文本
一個(gè)生成器+一個(gè)解碼器
學(xué)習(xí)預(yù)測文本中最體現(xiàn)情感的成分,滿足小但完整(eg短語),預(yù)測情感與整段文本相同。
聯(lián)盟視角(為什么可解釋性重要
作者提出了一種視角:
假設(shè)聯(lián)盟中的每一個(gè)個(gè)體擁有一部分?jǐn)?shù)據(jù),一個(gè)成功的聯(lián)盟決策,也就需要建立再最大化利用所有數(shù)據(jù)的信息的情況下來建模。
因此任何決策都需要建立在所有聯(lián)盟成員接受的前提下,而能夠被接受的模型的重要特性就是:無偏(公平),可度量,透明。這些也就是構(gòu)成一個(gè)可解釋模型的基本特性。
挑戰(zhàn)與解決
針對上面提出的模型需求,進(jìn)行討論
公平和可度量
主要對于模型可能從數(shù)據(jù)中學(xué)到的對于特定種群,性別,等敏感問題。
有必要通過避免數(shù)據(jù)的偏差性,以避免模型產(chǎn)生對群體不利的判斷。
- Yang 提出了一個(gè)公平性度量
可度量是一種事后驗(yàn)證模型的視角,以幫助人&算法衡量模型。
不過當(dāng)前對于代碼(算法)的透明性其實(shí)并不太重要,因?yàn)榛撅@然這屬于一種商業(yè)機(jī)密,不太可能完全透明。在這種條件下,度量就相對應(yīng)的變得更有意義。
- Adler 提出了一個(gè)黑盒模型,以判斷模型對數(shù)據(jù)集哪部分特定特征感興趣。
面向政策公平性的機(jī)器學(xué)習(xí)檢驗(yàn)算法是一個(gè)未來發(fā)展的方向。
另一方面,模型應(yīng)該能夠有明確的目標(biāo),以幫助使用者明確的檢測其是否達(dá)到。
可理解性(Interpretability)V.S. 可解釋性(Explainability)
(面向模型本身)模型的可解釋性(explain),作者認(rèn)為這指的是模型基于數(shù)據(jù)所作出決策的推理完整性。同類型模型可以用同一個(gè)度量框架,不同類型不可互通。
(面向使用者)模型的可理解性(interpret),則指模型解釋被用戶所理解的這個(gè)過程。因此,可理解性必須基于多項(xiàng)因素,模型任務(wù),用戶經(jīng)驗(yàn),特定解釋項(xiàng)等。針對可理解性的度量在大框架上也就是可比較的。
可理解性貝葉斯方法
貝葉斯模型在可解釋性和透明度方面都相對較好,因此考慮將兩者結(jié)合。
-
BDL:
- 將DL與貝葉斯模型結(jié)合