Deep Neural Networks and Tabular Data: A Survey 深度神經(jīng)網(wǎng)絡(luò)與表格數(shù)據(jù):綜述 2022-04-18

論文地址 https://arxiv.org/pdf/2110.01889.pdf

深度神經(jīng)網(wǎng)絡(luò)已經(jīng)是橫行于視覺以及自然語言處理領(lǐng)域,但是為什么在表格數(shù)據(jù)上卻表現(xiàn)平平呢,

這篇論文——
啊 摘要的第一個(gè)單詞就看不懂,Heterogeneous 異質(zhì)性。
說白了就是不一樣,用在表格上指的就是數(shù)據(jù)類型是不一樣的,比如性別和年齡,就是完全不同的信息,


因?yàn)椴蝗坏脑挵岩粡垐D片用二維數(shù)據(jù)表式也是一張表格,所以這篇論文著重討論的是深度學(xué)習(xí)在異構(gòu)表格數(shù)據(jù)上的痛點(diǎn)。

  1. Inappropriate Training Data: missing values, outliers,
  2. Missing or Irregular Spatial Dependencies
  3. Extensive Preprocessing
  4. Model Sensitivity

作者針對從深度神經(jīng)網(wǎng)絡(luò)的角度出發(fā)列出了四個(gè)難點(diǎn),看到這就不難理解,為什么梯度提升樹樹模型還是要比深度神經(jīng)網(wǎng)絡(luò)更適合處理表格數(shù)據(jù),因?yàn)檫@里的很多點(diǎn),比如缺失值,離群值,以及復(fù)雜的數(shù)據(jù)預(yù)處理,GBM都還是都比較容易拿捏。

而很不巧,深度神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大的表征能力,卻因?yàn)楸砀駭?shù)據(jù)缺失了規(guī)律性的空間依賴關(guān)系而受到了很大的限制。(自信監(jiān)督)

這也是為什么遷移學(xué)習(xí)難以在表格數(shù)據(jù)上奏效的原因。圖片無論是來自哪個(gè)數(shù)據(jù)集,基礎(chǔ)的特征都是一些弧形直線等幾何圖形,而表格數(shù)據(jù)確是天差地別了。

接下來就是各個(gè)模型。


論文對針對異構(gòu)表格的深度神經(jīng)網(wǎng)絡(luò)模型的分類
  • single-dimensional encoding:
    • 確定性地deterministic對每一列進(jìn)行編碼
  • multi-dimensional encoding:
    • 用模型自動(dòng)對整個(gè)(也可以是局部?)輸入向量編碼
  • 混合模型
    • 完全可微分
      • 可進(jìn)行端對端訓(xùn)練
    • 局部可微分
      • 比如神經(jīng)網(wǎng)絡(luò)和梯度提升樹結(jié)合
  • 基于Transformer的模型
    • 對,又是那個(gè)無處不在的Transformer
  • 正則化模型
    • 通過特定的損失函數(shù)限制DNN的極度非線性和高復(fù)雜度造成的影響

      (雖然RLN表現(xiàn)墊底)

我們直接跳到最重要的(不是)準(zhǔn)確度


我不知道是我瞎了還是圖上沒有把LightGBM表示出來,但是lgb的準(zhǔn)確度應(yīng)該是最高的。

橫軸訓(xùn)練時(shí)間,豎軸準(zhǔn)確度,圓圈的半徑代表標(biāo)準(zhǔn)差。前三名都是梯度提升樹的不同實(shí)現(xiàn)。

那未來的趨勢以及改進(jìn)方向有哪些,作者分享了一些觀點(diǎn),

  • 模型魔改有一定優(yōu)勢,應(yīng)該是引入了有效的先驗(yàn)

  • 正則化的重要性

  • 數(shù)據(jù)增強(qiáng)

    如果我們擁有數(shù)據(jù)應(yīng)該是怎么樣的概念,這個(gè)還是很值得一試的

  • 模型的可解釋性,獲取反饋
    那未來的趨勢以及改進(jìn)方向有哪些,作者分享了一些觀點(diǎn),

  • 模型魔改有一定優(yōu)勢,應(yīng)該是引入了有效的先驗(yàn)

  • 正則化的重要性

  • 數(shù)據(jù)增強(qiáng)

    如果我們擁有數(shù)據(jù)應(yīng)該是怎么樣的概念,這個(gè)還是很值得一試的

  • 模型的可解釋性,獲取反饋

    SHAP- values,不像GBM只能給出特征重要性的絕對值,還能給出各個(gè)特征對模型輸出的影響方向,還能對單個(gè)樣本進(jìn)行解釋。

  • 自監(jiān)督以及遷移學(xué)習(xí),參見上面第二條,缺失或者不規(guī)則的空間依賴性。不像圖片,不管哪個(gè)數(shù)據(jù)集,基礎(chǔ)依賴都是一些基本的幾何圖形。

    但是另一方面,想搞出一個(gè)模型,對著隨便一張缺漏的表,都能學(xué)得有模有樣也不太現(xiàn)實(shí),所以我覺得如果能有巨頭能分享一些維度比較高,數(shù)量又足夠龐大的表格數(shù)據(jù),挑選出類似特征進(jìn)行遷移學(xué)習(xí),也許是一個(gè)可以考慮的方向吧。


    SHAP Values,不像GBM只能給出特征重要性的絕對值,還能給出各個(gè)特征對模型輸出的影響方向,還能對單個(gè)樣本進(jìn)行解釋。

  • 自監(jiān)督以及遷移學(xué)習(xí),參見上面第二條,缺失或者不規(guī)則的空間依賴性。不像圖片,不管哪個(gè)數(shù)據(jù)集,基礎(chǔ)依賴關(guān)系表示的都是一些基本的幾何圖形。

    但是另一方面,想搞出一個(gè)模型,對著隨便一張缺漏的表,都能學(xué)得有模有樣也不太現(xiàn)實(shí),所以我覺得如果能找到一個(gè)維度比較高,數(shù)量又足夠龐大的表格數(shù)據(jù),挑選出和目標(biāo)數(shù)據(jù)集類似特征進(jìn)行遷移學(xué)習(xí),也許是一個(gè)可以考慮的方向吧。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容