問題背景:deep?LSTM模型在建模多元時間序列(MTS)性能有待提高,尤其是高度非線性和長間隔的MTS數(shù)據(jù)集。原因:監(jiān)督學習方法在RNN中隨機初始化神經(jīng)元,從而使最終必須正確學習MTS數(shù)據(jù)集中的相關變量的潛在特征的神經(jīng)元失效。
提出模型:無監(jiān)督學習下的一種pre-trained LSTM-based stacked autoencoder (LSTM-SAE),替代深度LSTM中的隨機權重初始化策略。
在文獻中很少使用LSTM(淺層或深層體系結構)對MTS問題進行建模。原因是由于DLSTM模型中的神經(jīng)被初始化。在大多數(shù)標準ANN方法中,神經(jīng)元的權重在使用隨機梯度下降法隨機初始化。在這種情況下,反向傳播算法可能會陷入多個局部最小值內(nèi),特別是在對幾個非線性變量進行建模時。
DLSTM在僅建模一個變量或特征的UTS分類問題中表現(xiàn)良好。相反,MTS分類問題中具有多個變量的特征是高度相關的。這種情況下,大量神經(jīng)元的隨機初始化將導致學習算法收斂到不同的局部最小值,具體取決于參數(shù)初始化的值。以前的研究表明,使用隨機權重初始化和監(jiān)督訓練來訓練具有多個層的深度網(wǎng)絡所提供的結果要比訓練淺層架構差。
貢獻:
1.為先前的模型DLSTM開發(fā)一個無監(jiān)督的預訓練框架。
2.提出一種新的基于LSTM的自動編碼器學習方法,以解決DLSTM的隨機權重初始化問題。
3.提出一個基于未標記時序的魯棒預測模塊,可將時序觀測值轉(zhuǎn)換為容易被使用和分析的代表性特征。



decoder的初始狀態(tài)--為了隨機初始化(圖2.?)
SAE:1層lstm--encoder,1層lstm--decoder。
LSTM-SAE的學習包括兩階段:1.預訓練。2.微調(diào)。
預處理階段:用貪心逐層架構訓練LSTM-SAE塊,如圖3. 分四步:
1. 訓練堆棧中的第一個LSTM-AE,保留其encoder層作為第二個LSTM-AE塊的輸入。
2.?加載保存的encoder層,用它對輸入進行編碼; 使用encoded inputs訓練堆棧中的第二個LSTM-AE塊,重建original inputs,而不是encoded inputs,為了使encoder學習原始輸入的特征。 然后,保存其LSTM encoder層,將其用作堆棧中第三個LSTM-AE塊的輸入。
3.加載保存的兩個encoder層,用它們對輸入進行兩次編碼; 使用encoded inputs訓練第三個LSTM-AE塊,重建原始輸入,并保存其LSTM encoder層。
4.使用三個保存的LSTM編碼器初始化三層DLSTM模型; 以該模型訓練階段中描述的相同方式進行。
(這個階段可以泛化到大于3層,if needed.)
微調(diào)階段:
微調(diào)開始是在DLSTM后面加上一個輸出層。
LSTM-SAE是DLSTM 的延伸。不同處在于:LSTM-SAE在自動編碼器方式使用無監(jiān)督預訓練的LSTMs,DLSTM是使用隨機初始化方式。

實驗
數(shù)據(jù)集:1. 共享單車數(shù)據(jù)集。2011.1.1-2012.12.31。十個變量:Season, Holiday, Weekday, Working day, Weather sit, Temperature, Feeling temperature, Humidity, Wind speed, and Count of total rental bikes。樣本總數(shù)17379個,訓練集10512,驗證2628,測試集4238個。預測未來每小時的租賃單車數(shù)。
2. PM2.5濃度數(shù)據(jù)集。2010.1.1-2014.12.31。8個變量:PM2.5濃度,露點,溫度,壓力,組合風向,累計風速,累計下雪小時和累計下雨小時,我們對風向進行了整數(shù)編碼。數(shù)據(jù)集總共43,800個觀測值,訓練集30,660個用于訓練,驗證4380,測試集8760個。預測將來的每小時PM2.5濃度。
度量指標:RMSE, MAE, SMAPE.
總結:
本文以分層無監(jiān)督學習的方式提出了一種基于LSTM的預訓練 LSTM-SAE 方法,取代之前的深 LSTM (DSLTM)模型單元隨機權重初始化方法,解決多元時間序列預測問題。實驗結果表明,分層預訓練方法提高了DLSTM的性能,并更好更快的收斂。另外,逐層預訓練方式可以從動態(tài)變化的多元輸入中自動學習潛在特征。但是,無監(jiān)督預訓練方法的副作用在于,需要更長的訓練時間才能依次實現(xiàn)兩個階段:預訓練階段和微調(diào)階段。這將激勵我們結合適當?shù)倪x擇性注意機制來改善訓練時間并降低時間復雜度。?