作者以及單位
周號益 北航
解決問題
從論文作者演講的ppt來看,Transformer存在一些嚴重的問題:二次時間復雜度、高內存使用率以及encoder-decoder體系結構的固有限制。

簡單的說本文解決的核心問題:比其他的sota工作,在設定預測時間更長的情況下,要更準!,如下圖所示:長度從96開始,預測就走下坡路了。

研究動機
縱觀以下參考提供的兩個視頻原作者對自己工作的解讀,我感覺本文最好的地方就是邏輯特別清晰,動機解釋的 特別好,建議好好讀一下原文。
原始Transformer的問題
1.self-attention的二次計算復雜度,self-attention機制的操作,會導致我們模型的時間復雜度為;
2.長輸入的stacking層的內存瓶頸:J個encoder/decoder的stack會導致內存的使用為;
3.預測長輸出的速度驟降:動態(tài)的decoding會導致step-by-step的inference非常慢。
本文的研究動機歸為以下幾點:
首先,LSTF任務具有重要研究意義,對政策計劃和投資避險等多種需要長時預測的任務至關重要;
目前現(xiàn)有方法多專注于短期預測,模型缺乏長期預測能力;
Transformer具有較強捕獲長距離依賴的能力,但是,在計算時間復雜度和空間復雜度以及如何加強長序列輸入和輸出關聯(lián)上都需要優(yōu)化;
上述三點對應Informer的主要貢獻點:
ProbSparse self-attention,作者稱其為概率稀疏自注意力,通過“篩選”Query中的重要部分,減少相似度計算。
Self-attention distilling,作者稱其為自注意力蒸餾,通過卷積和最大池化減少維度和網(wǎng)絡參數(shù)量。
Generative style decoder,作者稱為生成式解碼器,一次前向計算輸出所有預測結果。
研究方法
左邊:編碼過程,編碼器接收長序列輸入(綠色部分),通過ProbSparse自注意力模塊和自注意力蒸餾模塊,得到特征表示。(堆疊結構增加模型魯棒性)
右邊:解碼過程,解碼器接收長序列輸入(預測目標部分設置為0),通過多頭注意力與編碼特征進行交互,最后直接預測輸出目標部分(橙黃色部分)。

創(chuàng)新點
和上述動機對應的貢獻是一樣,對應以下這三點,現(xiàn)在分別簡單敘述,詳情請見論文。1.概率稀疏注意力機;2. 自注意力蒸餾編碼器;3. 生成式解碼器
1.概率稀疏注意力機制
我們首先對典型自我注意的學習注意模式進行定性評估?!跋∈栊浴?self-attention得分形成長尾分布,即少數(shù)點積對主要注意有貢獻,其他點積對可以忽略。那么,這個問題可以進一步推為如何區(qū)分它們?。我直接引用一些文章的分析,如下:


其實這一部分核心工作就是紅框所示(解釋和推理工作比較長)。
2. 自注意力蒸餾編碼器
編碼器的主要功能是捕獲長序列輸入之間的長范圍依賴。在輸入表示部分,筆者已經介紹過輸入為。包含了三個部分(卷積后的序列輸入,全局位置嵌入,局部位置表示)。


此后將輸入送至自注意力模塊,值得注意的是這里采用的是自注意力蒸餾操作,可以減少網(wǎng)絡參數(shù),并且隨著堆疊層數(shù)增加,不斷”蒸餾“突出特征。
具體而言,”蒸餾”操作主要為使用1D卷積和最大池化,將上一層的輸出送至模型后的多頭注意力模塊之前做維度修剪和降低內存占用。

3. 生成式解碼器
解決方法加入concat,不選擇一個額定的標記作為標記,這樣不用依賴前一個才能預測后一個(這個是問題核心)。在公式中,就是加。

結論
無論是單變量的長序列預測還是多變量的長序列預測,Informer均能在多數(shù)數(shù)據(jù)集上取得最優(yōu)表現(xiàn)。
Informer能獲得AAAI的Best Paper確實有很多值得肯定的地方。首先,從邏輯上對本工作的研究動機、研究內容,講故事的能力確實很重要。此外,實驗部分比較充實,能夠把動機提出的疑惑都一一解答了,堪稱完美。
在研究內容上,Best Paper肯定不是靠A+B。確實,本文在self-attention模型的問題上認識較為深刻。
參考
作者 周號益視頻講解:
【AI TIME PhD AAAI-8】類Transformer模型的長序列分析預測新方向-周號益_嗶哩嗶哩_bilibili
B站講解:
【AI Drive】AAAI 2021最佳論文:比Transformer更有效的長時間序列預測_嗶哩嗶哩_bilibili
源代碼:
GitHub - zhouhaoyi/Informer2020: The GitHub repository for the paper "Informer" accepted by AAAI 2021.
基于Transformer的時間序列預測-Informer-AAAI21 BEST PAPER - 知乎 (zhihu.com)
AAAI21最佳論文Informer:效果遠超Transformer的長序列預測神器! (qq.com)
Attention 注意力機制 - 知乎 (zhihu.com)