【論文轉(zhuǎn)述】Interpretability of Deep Learning Models: A Survey of Results

Interpretability of Deep Learning Models: A Survey of Results

介紹

整理了幾個(gè)不同層面的可理解性

模型透明度

  • 可模擬性: 一個(gè)人能否用輸入和模型來復(fù)現(xiàn)每一步操作,做出正確結(jié)論。以及人能否理解模型參數(shù)的變化邏輯。

  • 可分解性:模型的每一個(gè)參數(shù)是否都能夠有一個(gè)只管的解釋。

  • 算法透明度: 解釋學(xué)習(xí)算法的工作原因。(SVM中超平面的選擇可以用邊緣點(diǎn)和決策邊界來解釋。(DNN中每層特征中的非線性難以解釋用于輸出的特征

模型功能性

  • 文本描述:模型語義上能夠理解的解釋。(模型劃分為用于預(yù)測的和用于生成文本解釋的兩部分)

  • 可視化:可視化高維分布表達(dá)的一種流行方法時(shí)tSNE

  • 局部解釋:計(jì)算給定輸出類的特定輸入帶來的局部變化。(NN中,輸梯度可以用來識別特定的權(quán)重和受輸入向量影響的局部變化。

現(xiàn)有技術(shù)

模型透明性

透明度主要關(guān)注可分解性以及算法透明度。

  • Erhan:可視化(無監(jiān)督deep belief networks)內(nèi)部單元

  • Zeiler & Fergus:用逆卷積把特征映射回輸入空間,把上面的內(nèi)容拓展到CNN。

    • 模型透明度不僅有助于理解,還能夠幫助提高模型表現(xiàn)
  • Karpathy:針對LSTM RNN,一些細(xì)胞學(xué)習(xí)長持續(xù)的容易理解特征,另一些則難理解(變化快)

關(guān)于CNN:

  • Mahendran&Vedaldi:觀察CNN不同層級的圖片表示,模型較深層學(xué)習(xí)圖像更抽象的表示,并認(rèn)為這體現(xiàn)了模型的抽象表現(xiàn)

  • Yosinski:將其完善成工具

  • Nguyen:顯示CNN學(xué)習(xí)圖片的哪些信息(結(jié)構(gòu),細(xì)節(jié),結(jié)構(gòu)等等

  • Simonyan:生成CNN每一類最喜歡圖片——輸入中的最重要特征

  • Nguyen:利用Deep Generator Network,生成針對特定神經(jīng)層的最優(yōu)圖片。

  • Li:收斂學(xué)習(xí)(不同網(wǎng)絡(luò)是否學(xué)習(xí)相似特征)

    • 先訓(xùn)練好多個(gè)網(wǎng)絡(luò)

    • 然后比較每個(gè)特征在上一層or上一組層的狀況

    • 結(jié)論:DN表現(xiàn)相同的時(shí)候,可能學(xué)習(xí)到的是訓(xùn)練數(shù)據(jù)的不同特征

  • Koh & Liang:從訓(xùn)練數(shù)據(jù)集的視角觀察模型

    • 對訓(xùn)練集添加某個(gè)固定位置的擾動(dòng),以觀察擾動(dòng)對結(jié)果的影響

    • 一定程度上說明了“對抗樣本”的意義

  • Shwartz-Ziv & Tishby:利用信息論分析DN

    • 利用信息瓶頸工作考察每層的輸入輸出

    • 早期(drift)階段,權(quán)重的方差<<梯度的均值,說明高信噪比

    • 之后(diffusion)階段,權(quán)重方差>>梯度均值,說明低信噪比

      • 隨機(jī)梯度下降通過diffusion階段產(chǎn)生有效的內(nèi)部表示

      • 簡單隨機(jī)擴(kuò)散算法能夠再訓(xùn)練的擴(kuò)散過程使用,以降低訓(xùn)練時(shí)間。

    • 多種權(quán)重,都能訓(xùn)練出最優(yōu)表現(xiàn)的網(wǎng)絡(luò)。

模型功能性

四種事后解釋:文本(文字or口述)、視覺、局部(輸入周圍局部特征空間上下文中證明決策合理性)、例子

  • tSNE

    可視化方法,(降維,跨尺度固有結(jié)構(gòu)信息)

    ——理解數(shù)據(jù),幫助理解怎么學(xué)習(xí)

    但沒有解釋算法

  • Terrapattern

    基于衛(wèi)星圖像可視化探索相似城市區(qū)域

    用一個(gè)CNN通過打標(biāo)簽衛(wèi)星圖像來訓(xùn)練

    然后移除頂層分類層,用剩余卷積層為衛(wèi)星圖像生成特征,再用k臨近算法為特征尋找最接近特定特征

    ——本意不是解釋CNN但實(shí)際上起到了后驗(yàn)理解效果

  • Hendricks

    他們的工作旨在提供一個(gè)圖像分類器+圖像準(zhǔn)確描述

    但并沒有給出描述與圖片特征的對應(yīng)關(guān)系

  • Xu等人字幕生成方法

    不分類,只描述每個(gè)單詞的注意力集中在圖像哪里

  • Ribeiro LIME

    為任何機(jī)器學(xué)習(xí)模型提供決策解釋。

    輸出:二進(jìn)制向量

    每位表示一個(gè)輸入特征

    方法:生成一些輸入附近的擾動(dòng)樣本,來學(xué)習(xí)模型的局部近似

  • Elenberg

    高效流算法產(chǎn)生相似的輸出,10倍提高LIME效率

  • Ross:RRR(right for the right reasons

    • 利用二進(jìn)制確定一個(gè)輸入特征是否導(dǎo)致示例的正確分類

    • 利用不同的掩碼建立不同的決策邊界

對于高可解釋性模型建立:

  • LRP:

    • 與泰勒展開相關(guān)

    • 輸出一個(gè)關(guān)于輸入特征的熱圖,顯示與模型輸出的相關(guān)性大小

    • 最適用于圖片分類

  • Samek:類似LRP

  • Kumar:

    • 顯示模型最關(guān)注的圖片區(qū)域
  • Lei:

    • 局部解釋方法,針對文本

    • 一個(gè)生成器+一個(gè)解碼器

    • 學(xué)習(xí)預(yù)測文本中最體現(xiàn)情感的成分,滿足小但完整(eg短語),預(yù)測情感與整段文本相同。

聯(lián)盟視角(為什么可解釋性重要

作者提出了一種視角:

假設(shè)聯(lián)盟中的每一個(gè)個(gè)體擁有一部分?jǐn)?shù)據(jù),一個(gè)成功的聯(lián)盟決策,也就需要建立再最大化利用所有數(shù)據(jù)的信息的情況下來建模。

因此任何決策都需要建立在所有聯(lián)盟成員接受的前提下,而能夠被接受的模型的重要特性就是:無偏(公平),可度量,透明。這些也就是構(gòu)成一個(gè)可解釋模型的基本特性。

挑戰(zhàn)與解決

針對上面提出的模型需求,進(jìn)行討論

公平和可度量

主要對于模型可能從數(shù)據(jù)中學(xué)到的對于特定種群,性別,等敏感問題。

有必要通過避免數(shù)據(jù)的偏差性,以避免模型產(chǎn)生對群體不利的判斷。

  • Yang 提出了一個(gè)公平性度量

可度量是一種事后驗(yàn)證模型的視角,以幫助人&算法衡量模型。

不過當(dāng)前對于代碼(算法)的透明性其實(shí)并不太重要,因?yàn)榛撅@然這屬于一種商業(yè)機(jī)密,不太可能完全透明。在這種條件下,度量就相對應(yīng)的變得更有意義。

  • Adler 提出了一個(gè)黑盒模型,以判斷模型對數(shù)據(jù)集哪部分特定特征感興趣。

面向政策公平性的機(jī)器學(xué)習(xí)檢驗(yàn)算法是一個(gè)未來發(fā)展的方向。

另一方面,模型應(yīng)該能夠有明確的目標(biāo),以幫助使用者明確的檢測其是否達(dá)到。

可理解性(Interpretability)V.S. 可解釋性(Explainability)

(面向模型本身)模型的可解釋性(explain),作者認(rèn)為這指的是模型基于數(shù)據(jù)所作出決策的推理完整性。同類型模型可以用同一個(gè)度量框架,不同類型不可互通。

(面向使用者)模型的可理解性(interpret),則指模型解釋被用戶所理解的這個(gè)過程。因此,可理解性必須基于多項(xiàng)因素,模型任務(wù),用戶經(jīng)驗(yàn),特定解釋項(xiàng)等。針對可理解性的度量在大框架上也就是可比較的。

可理解性貝葉斯方法

貝葉斯模型在可解釋性和透明度方面都相對較好,因此考慮將兩者結(jié)合。

  • BDL:

    • 將DL與貝葉斯模型結(jié)合
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容