卷積神經(jīng)網(wǎng)絡(luò)的條件時(shí)間序列預(yù)測(cè)
摘要
我們提出了一種基于最新深度卷積WaveNet架構(gòu)的條件時(shí)間序列預(yù)測(cè)方法。擬議的網(wǎng)絡(luò)包含堆疊的卷積堆棧,使它們可以在預(yù)測(cè)時(shí)訪問廣泛的歷史記錄,ReLU激活函數(shù)和條件是通過將多個(gè)卷積濾波器并行應(yīng)用于單獨(dú)的時(shí)間序列來(lái)執(zhí)行的,從而可以快速處理數(shù)據(jù)和利用多元時(shí)間序列之間的相關(guān)結(jié)構(gòu)。我們使用S&P500,波動(dòng)率指數(shù),CBOE利率和幾種匯率來(lái)無(wú)條件和有條件地對(duì)卷積網(wǎng)絡(luò)的性能進(jìn)行測(cè)試和分析,并將其與眾所周知的自回歸的性能進(jìn)行廣泛比較模型和長(zhǎng)期記憶網(wǎng)絡(luò)。我們表明,卷積網(wǎng)絡(luò)非常適合回歸類型的問題,并且能夠有效地學(xué)習(xí)序列中以及序列之間的依賴關(guān)系,而無(wú)需較長(zhǎng)的歷史時(shí)間序列,它是一種省時(shí)且易于實(shí)現(xiàn)的替代遞歸類型的方法網(wǎng)絡(luò),并且往往優(yōu)于線性模型和遞歸模型。關(guān)鍵字:卷積神經(jīng)網(wǎng)絡(luò),金融時(shí)間序列,預(yù)測(cè),深度學(xué)習(xí),多元時(shí)間序列
簡(jiǎn)介
由于明顯的原因,使用過去的觀察來(lái)預(yù)測(cè)財(cái)務(wù)時(shí)間序列已成為人們非常感興趣的話題。眾所周知,盡管數(shù)據(jù)中存在時(shí)間關(guān)系,但由于序列中存在非線性趨勢(shì),粗尾和噪聲,它們很難準(zhǔn)確分析和預(yù)測(cè)[6]。在開發(fā)用于預(yù)測(cè)財(cái)務(wù)數(shù)據(jù)的模型時(shí),希望它們既能夠?qū)W習(xí)數(shù)據(jù)中的非線性依存關(guān)系,又具有很高的抗噪性。傳統(tǒng)的自回歸模型(例如VAR和ARMA [9])無(wú)法捕獲非線性模式。前饋神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)數(shù)據(jù)中依存關(guān)系的流行方法,因?yàn)榍梆伾窠?jīng)網(wǎng)絡(luò)無(wú)需使用預(yù)先指定特定的模型形式,參見[28]或[4]。Hybrid還提出了使用神經(jīng)網(wǎng)絡(luò)和計(jì)量經(jīng)濟(jì)學(xué)模型的混合方法,傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的一個(gè)缺點(diǎn)是需要大量的數(shù)據(jù)樣本才能獲得穩(wěn)定的預(yù)測(cè)結(jié)果。
本文的主要重點(diǎn)是多元時(shí)間序列預(yù)測(cè),特別是金融時(shí)間序列。特別是,我們預(yù)測(cè)以其他相關(guān)序列為條件的時(shí)間序列。眾所周知,金融時(shí)間序列既具有高噪聲成分,又具有有限的持續(xù)時(shí)間–即使可用,由于金融環(huán)境的變化,使用長(zhǎng)期股價(jià)歷史記錄也可能很困難。同時(shí),存在許多不同但密切相關(guān)的財(cái)務(wù)時(shí)間序列。在這里,我們旨在利用條件的概念來(lái)開發(fā)多變量預(yù)測(cè),以減少短時(shí)序列中的噪聲。實(shí)際上,我們將多個(gè)財(cái)務(wù)時(shí)間序列用作神經(jīng)網(wǎng)絡(luò)的輸入,從而根據(jù)其自身的歷史以及多個(gè)其他時(shí)間序列的歷史來(lái)對(duì)時(shí)間序列的預(yù)測(cè)進(jìn)行調(diào)整。在多個(gè)股票系列上訓(xùn)練模型可以使網(wǎng)絡(luò)利用這些系列之間的相關(guān)結(jié)構(gòu),以便網(wǎng)絡(luò)可以在較短的數(shù)據(jù)序列中了解市場(chǎng)動(dòng)態(tài)。如圖所示[30]對(duì)于分類,使用多個(gè)條件時(shí)間序列作為輸入可以通過學(xué)習(xí)序列之間的長(zhǎng)期時(shí)間依賴性來(lái)提高模型的魯棒性和預(yù)測(cè)質(zhì)量。
卷積神經(jīng)網(wǎng)絡(luò)(CNN),參見[18],是一種生物啟發(fā)型的深度神經(jīng)網(wǎng)絡(luò)(DNN),由于其在分類問題(例如圖像識(shí)別[16]或時(shí)間序列分類[ 26])。 CNN由一系列卷積層組成,其輸出僅連接到輸入中的局部區(qū)域。這是通過在輸入上滑動(dòng)濾波器或權(quán)重矩陣并在每個(gè)點(diǎn)計(jì)算兩者之間的點(diǎn)積(即輸入和濾波器之間的卷積)來(lái)實(shí)現(xiàn)的。這種結(jié)構(gòu)允許模型學(xué)習(xí)能夠識(shí)別輸入數(shù)據(jù)中特定模式的過濾器。 CNN用于時(shí)間序列預(yù)測(cè)的最新進(jìn)展包括[20],其中作者提出了基于未抽取小波變換的時(shí)間序列建模的未抽取卷積網(wǎng)絡(luò),[3]作者建議使用自回歸型加權(quán)系統(tǒng)來(lái)預(yù)測(cè)金融時(shí)間序列,其中權(quán)重通過通過CNN進(jìn)行學(xué)習(xí)而被允許與數(shù)據(jù)相關(guān)。在一般的文獻(xiàn)中,關(guān)于卷積架構(gòu)的金融時(shí)間序列預(yù)測(cè)的文獻(xiàn)仍然很少,因?yàn)檫@些類型的網(wǎng)絡(luò)更常用于分類問題。直觀地,將CNN應(yīng)用于時(shí)間序列預(yù)測(cè)的想法是學(xué)習(xí)表示代表該序列中某些重復(fù)模式的過濾器,并使用它們來(lái)預(yù)測(cè)未來(lái)值。由于CNN的分層結(jié)構(gòu),它們可以在嘈雜序列上很好地工作,通過在每個(gè)后續(xù)層中丟棄噪聲并僅提取有意義的模式,從而與使用小波變換時(shí)間序列的神經(jīng)網(wǎng)絡(luò)(即,高頻和低頻分量)作為輸入,請(qǐng)參見例如[1],[17]。
當(dāng)前,遞歸神經(jīng)網(wǎng)絡(luò)(RNN),尤其是長(zhǎng)期短期記憶單元(LSTM)[12],[5]是時(shí)間序列預(yù)測(cè)的最新技術(shù),另請(qǐng)參見[14]和特別是[7]的財(cái)務(wù)預(yù)測(cè)結(jié)果。這些網(wǎng)絡(luò)的效率可以通過循環(huán)連接來(lái)解釋,循環(huán)連接允許網(wǎng)絡(luò)訪問以前時(shí)間序列值的整個(gè)歷史記錄。另一種選擇是采用多層卷積的卷積神經(jīng)網(wǎng)絡(luò)[27]。通過跳過輸入中的某些元素來(lái)應(yīng)用濾波器的擴(kuò)張卷積允許網(wǎng)絡(luò)的接收?qǐng)龀手笖?shù)增長(zhǎng),從而允許網(wǎng)絡(luò)類似于RNN,訪問范圍廣泛的歷史記錄。 CNN相對(duì)于遞歸型網(wǎng)絡(luò)的優(yōu)勢(shì)在于,由于網(wǎng)絡(luò)的卷積結(jié)構(gòu),可訓(xùn)練權(quán)重的數(shù)量很少,從而可以更有效地進(jìn)行訓(xùn)練和預(yù)測(cè)。
受[25]的影響,作者將PixelCNN與用于圖像生成的網(wǎng)絡(luò)PixelRNN [24]的性能進(jìn)行了比較。在本文中,我們旨在研究卷積神經(jīng)網(wǎng)絡(luò)與自回歸算法和自回歸算法相比的性能。預(yù)測(cè)嘈雜的財(cái)務(wù)時(shí)間序列的遞歸模型。我們使用的CNN是受最早為音頻預(yù)測(cè)而開發(fā)的[23]的卷積WaveNet模型啟發(fā)的網(wǎng)絡(luò),我們對(duì)其結(jié)構(gòu)進(jìn)行了簡(jiǎn)化和優(yōu)化以進(jìn)行多元時(shí)間序列預(yù)測(cè)。我們的網(wǎng)絡(luò)專注于學(xué)習(xí)多元,嘈雜的時(shí)間序列內(nèi)以及之間的長(zhǎng)期關(guān)系。與[23]相似,它使用膨脹卷積,但是這些卷積與輸入時(shí)間序列以及我們所依據(jù)的時(shí)間序列中的參數(shù)化跳過連接[11]一起應(yīng)用,從而學(xué)習(xí)了長(zhǎng)和短術(shù)語(yǔ)相互依存關(guān)系的有效方式。此外,原始WaveNet模型的門控激活功能被整流線性單元(ReLU)取代,簡(jiǎn)化了模型并減少了訓(xùn)練時(shí)間。
本文包括幾個(gè)主要的貢獻(xiàn)。首先,我們介紹了受WaveNet模型啟發(fā)的CNN,其結(jié)構(gòu)經(jīng)過簡(jiǎn)化和優(yōu)化以用于時(shí)間序列預(yù)測(cè),即使用ReLU激活以及通過參數(shù)化跳過連接進(jìn)行新穎,更優(yōu)化的調(diào)節(jié)方式。其次,據(jù)我們所知,知道CNN在分類問題上的出色表現(xiàn),我們的工作是(據(jù)我們所知)第一個(gè)表明它們可以成功地用于預(yù)測(cè)有限長(zhǎng)度的金融時(shí)間序列。通過對(duì)WaveNet模型進(jìn)行廣泛的分析并將性能與LSTM,當(dāng)前最新的預(yù)測(cè)技術(shù)以及計(jì)量經(jīng)濟(jì)學(xué)中流行的自回歸模型進(jìn)行比較,我們證明WaveNet模型是一種高效的方法且易于實(shí)施以替代遞歸型網(wǎng)絡(luò),并且往往優(yōu)于線性模型和遞歸模型。最后,我們使用人工時(shí)間序列以及S&P500,VIX,CBOE利率和五種匯率的示例表明,WaveNet模型中有效的條件調(diào)節(jié)方式使人們能夠提取時(shí)間序列之間的時(shí)間關(guān)系,從而改善預(yù)測(cè),而同時(shí)限制了長(zhǎng)期歷史價(jià)格序列的需求并降低了噪音,因?yàn)樗试S人們利用相關(guān)時(shí)間序列之間的相關(guān)性??傮w而言,我們表明卷積網(wǎng)絡(luò)可以更簡(jiǎn)單,更容易地訓(xùn)練循環(huán)網(wǎng)絡(luò)的替代方法,同時(shí)在非線性,嘈雜的預(yù)測(cè)任務(wù)上至少達(dá)到相同或更高的準(zhǔn)確性。
模型
在這一節(jié)中,我們首先回顧一下神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。然后,我們介紹了將用于時(shí)間序列預(yù)測(cè)的特定卷積網(wǎng)絡(luò)結(jié)構(gòu)。
前饋神經(jīng)網(wǎng)絡(luò)
略
Convolutions(卷積)
兩個(gè)一維信號(hào)f和g的離散卷積被定義為f?g

根據(jù)卷積的定義,可以將輸入中不存在的樣本定義為0,通常稱為補(bǔ)零,或者僅在樣本同時(shí)存在于兩個(gè)信號(hào)中的點(diǎn)處計(jì)算乘積。請(qǐng)注意,卷積是可交換的,即(f?g) = (g?f)如果信號(hào)是有限的,那么無(wú)限的卷積可能會(huì)被截?cái)唷Q句話說,假設(shè)f = [f(0),…, f(N - 1)]和g = [g(0),…, g(M?1)],兩者的卷積由下面公式給出

卷積輸出的大小取決于處理未定義樣本的方式。如果將一定數(shù)量的未定義樣本設(shè)置為0,這稱為零填充。如果我們不應(yīng)用0填充,則輸出的大小為N - M + 1(因?yàn)閕 = 0..N-M)當(dāng)在輸入信號(hào)f的兩邊填充p個(gè)0時(shí),輸出的大小為N - M + 2p+ 1。因此,零填充允許一個(gè)人控制卷積的輸出大小,調(diào)整它或減少,或相同,或增加相對(duì)于輸入大小。因此,通過將信號(hào)g在輸入f上沿j移動(dòng)并計(jì)算兩者的加權(quán)和,可以計(jì)算出在點(diǎn)i處的卷積。
Convolutional neural networks
卷積神經(jīng)網(wǎng)絡(luò)是在局部連通的思想下發(fā)展起來(lái)的。每個(gè)節(jié)點(diǎn)只連接到輸入中的一個(gè)局部區(qū)域,參見圖2.1。這種連接的空間范圍被稱為節(jié)點(diǎn)的接受域。局部連通是通過卷積代替神經(jīng)網(wǎng)絡(luò)的加權(quán)和來(lái)實(shí)現(xiàn)的。在卷積神經(jīng)網(wǎng)絡(luò)的每一層,輸入與權(quán)矩陣(也稱為過濾器)進(jìn)行卷積,以創(chuàng)建一個(gè)特征映射。換句話說,權(quán)重矩陣在輸入上滑動(dòng)并計(jì)算輸入和權(quán)重矩陣之間的點(diǎn)積。注意,與常規(guī)的神經(jīng)網(wǎng)絡(luò)不同,輸出特征圖中的所有值共享相同的權(quán)值。這意味著輸出中的所有節(jié)點(diǎn)都檢測(cè)到完全相同的模式。CNNs的局部連通性和共享權(quán)值方面減少了可學(xué)習(xí)參數(shù)的總數(shù),從而提高了訓(xùn)練的效率。因此,卷積神經(jīng)網(wǎng)絡(luò)背后的直覺是,在每一層中學(xué)習(xí)一個(gè)權(quán)重矩陣,該矩陣將能夠從輸入中提取必要的、平移不變的特征。
卷積層的輸入通常是三維的:高度、重量和通道數(shù)。在第一層,這個(gè)輸入與一組應(yīng)用于所有輸入通道的m1三維過濾器進(jìn)行卷積(換句話說,過濾器映射的第三維總是等于輸入中的通道數(shù)),以創(chuàng)建特征輸出映射?,F(xiàn)在考慮一個(gè)沒有填充0的一維輸入:
x =
然后通過卷積每個(gè)過濾器: for h=1,....,
得到第一層的輸出特征圖,…, m1,輸入:
= ()(i)=
where ?
注意,由于在本例中輸入通道的數(shù)量為1,因此權(quán)重矩陣也只有一個(gè)通道。與前饋神經(jīng)網(wǎng)絡(luò)相似,輸出通過非線性h(·)得到= h()。
在每個(gè)后續(xù)層l = 2,...,L中,輸入特征圖∈,其中是輸出濾波器圖的大小從先前的 = 的卷積中,與一組filters ∈,h = 1,...,進(jìn)行卷積以創(chuàng)建特征圖∈:=
然后將其輸出通過非線性傳遞,得出。濾波器尺寸參數(shù)k因此控制每個(gè)輸出節(jié)點(diǎn)的接收?qǐng)?。如果沒有零填充,則對(duì)于l = 1,..,L,每層卷積輸出的寬度。由于特征圖中的所有元素共享相同的權(quán)重,因此可以將特征以時(shí)不變的方式進(jìn)行檢測(cè),同時(shí)減少了可訓(xùn)練參數(shù)的數(shù)量。經(jīng)過L個(gè)卷積層后,網(wǎng)絡(luò)的輸出將為矩陣,其大小取決于濾波器大小和最終層中使用的濾波器數(shù)量。根據(jù)我們希望模型學(xué)習(xí)的內(nèi)容,對(duì)模型中的權(quán)重進(jìn)行訓(xùn)練,以最小化網(wǎng)絡(luò)的輸出與我們感興趣的真實(shí)輸出之間的誤差。

圖2.1:具有三層(L)的前饋神經(jīng)網(wǎng)絡(luò)與具有兩層且過濾器大小為1×2的卷積神經(jīng)網(wǎng)絡(luò),因此每個(gè)節(jié)點(diǎn)的感受野都包含來(lái)自上一層的兩個(gè)輸入神經(jīng)元,并且權(quán)重是共享的跨層,用相同的顏色(R)表示。
Structure
考慮一維時(shí)間序列。給定一個(gè)具有參數(shù)值θ的模型,預(yù)測(cè)變量的任務(wù)是根據(jù)序列的歷史記錄輸出下一個(gè)值。這可以通過最大化似然函數(shù)來(lái)完成

其中d是擴(kuò)張因子,M是通道數(shù)。換句話說,在膨脹卷積中,將濾波器應(yīng)用于輸入向量中的第d個(gè)輸入向量中,從而使模型可以有效地學(xué)習(xí)相距甚遠(yuǎn)的數(shù)據(jù)點(diǎn)之間的連接。我們使用類似于[27]和[23]的架構(gòu),其中L層膨脹的卷積l = 1,...,L,并且膨脹增加了兩倍:。選擇濾波器w的大小為1×k:= 1×2。圖2.2給出了一個(gè)三層膨脹卷積網(wǎng)絡(luò)的示例。使用膨脹卷積代替常規(guī)卷積可以使輸出y受到輸入中更多節(jié)點(diǎn)的影響。網(wǎng)絡(luò)的輸入由時(shí)間序列給出。在隨后的每個(gè)層中,我們應(yīng)用膨脹的卷積,然后進(jìn)行非線性處理,得到輸出特征圖fl,l = 1,...,L。然后,這L層膨脹的卷積層之后是1×1卷積將通道數(shù)減少回一,因此模型輸出一維向量。由于我們對(duì)預(yù)測(cè)時(shí)間序列的后續(xù)值感興趣,因此我們將對(duì)模型進(jìn)行訓(xùn)練,以使該輸出為預(yù)測(cè)的時(shí)間序列。

神經(jīng)元的感受野被定義為其輸入中修改該神經(jīng)元輸出值的一組元素?,F(xiàn)在,我們將模型的接收?qǐng)鰎定義為第一層輸入中的神經(jīng)元數(shù)量(即時(shí)間序列),它可以修改最后一層中的輸出(即預(yù)測(cè)時(shí)間序列)。然后,這取決于層數(shù)L和濾波器大小k,由下式給出
???????????????????????r:=
在圖2.2中,接收?qǐng)鲇蓃 = 8給出。一個(gè)輸出值受八個(gè)輸入神經(jīng)元的影響
如前所述,有時(shí)在邊界周圍用零填充輸入很方便。然后,此零填充的大小將控制輸出的大小。在我們的案例中,為了不違反對(duì)x的適應(yīng)性約束,我們要確保預(yù)測(cè)時(shí)網(wǎng)絡(luò)的接收?qǐng)鰞H包含。為此,我們使用因果卷積,其中因果一詞表示卷積輸出不應(yīng)依賴于將來(lái)的輸入。在時(shí)間序列中,這等效于用接受域大小的零向量填充輸入,因此輸入由下式給出:
?????????
L層Wavenet的輸出是:
?????????
因此,在訓(xùn)練時(shí),通過將輸入與每一層中的內(nèi)核l = 1,...,L卷積,然后進(jìn)行1×1卷積,可以計(jì)算出的預(yù)測(cè)。在測(cè)試時(shí),通過在訓(xùn)練中輸入給出(t + 1)≥r的單步提前預(yù)測(cè)prediction 模型。通過在下一個(gè)時(shí)間步將每個(gè)預(yù)測(cè)反饋回網(wǎng)絡(luò),依次進(jìn)行n步提前預(yù)測(cè)。使用進(jìn)行兩步提前的樣本外預(yù)測(cè)?。
因此,網(wǎng)絡(luò)的思想是使用卷積神經(jīng)網(wǎng)絡(luò)的功能作為自回歸預(yù)測(cè)模型。在簡(jiǎn)單的p階自回歸模型中,的預(yù)測(cè)值由給出,其中,i = 1,... ,p是可學(xué)習(xí)的權(quán)重,是白噪聲。使用上面定義的WaveNet模型,每個(gè)t∈{0,...,N}的預(yù)測(cè)條件期望為

其中函數(shù)βi,i = 1,...,r與數(shù)據(jù)相關(guān),并通過卷積網(wǎng)絡(luò)進(jìn)行了優(yōu)化。我們指出,即使權(quán)重取決于基礎(chǔ)數(shù)據(jù),由于網(wǎng)絡(luò)的卷積結(jié)構(gòu),權(quán)重也會(huì)在輸出的過濾器映射圖之間共享,從而導(dǎo)致權(quán)重矩陣平移不變。
目標(biāo)函數(shù):訓(xùn)練網(wǎng)絡(luò)權(quán)重(濾波器wl h)以使平均絕對(duì)誤差(MAE)最小化;為了避免過度擬合,即權(quán)重過大,我們使用帶有正則項(xiàng)γ的L2正則化,因此成本函數(shù)為

其中? x(t +1)表示使用x(0),...,x(t)的x(t +1)預(yù)測(cè)。最小化E(w)會(huì)導(dǎo)致權(quán)重的選擇,從而在擬合訓(xùn)練數(shù)據(jù)與減小訓(xùn)練數(shù)據(jù)之間進(jìn)行權(quán)衡。權(quán)重過大通常會(huì)導(dǎo)致網(wǎng)絡(luò)過度擬合訓(xùn)練數(shù)據(jù),因此L2正則化(通過強(qiáng)制權(quán)重不要太大)使模型可以更好地針對(duì)看不見的數(shù)據(jù)進(jìn)行泛化。
備注1(與貝葉斯框架有關(guān)):在貝葉斯框架中,使此成本函數(shù)最小化等效于最大化Laplace分布似然函數(shù)下的后驗(yàn)分布,該函數(shù)的中心為由模型^輸出的值,具有固定比例參數(shù)β= 1/2

并在模型參數(shù)上具有高斯先驗(yàn)。
通過運(yùn)行通過網(wǎng)絡(luò)的前向通行獲得輸出,最佳權(quán)重是來(lái)自后驗(yàn)分布的點(diǎn)估計(jì)。由于MAE是依賴于比例尺的精度度量,因此應(yīng)該對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理,以使誤差在不同的時(shí)間序列中具有可比性。
Weight optimization
訓(xùn)練模型的目的是要找到使(1)中的成本函數(shù)最小的權(quán)重。一種標(biāo)準(zhǔn)的權(quán)重優(yōu)化基于梯度下降,其中,根據(jù)誤差函數(shù)的梯度來(lái)增量更新權(quán)重,

對(duì)于τ= 1,...,T,其中T是訓(xùn)練迭代的次數(shù),η是學(xué)習(xí)率。因此,每次迭代τ都由一個(gè)正向運(yùn)行和一個(gè)向后遍歷組成,前者在其中計(jì)算預(yù)測(cè)矢量? x和相應(yīng)的誤差E(w(τ)),后者由梯度矢量?E(w(τ))計(jì)算。根據(jù)(2)計(jì)算關(guān)于每個(gè)權(quán)重的權(quán)重,并更新權(quán)重。梯度矢量是通過反向傳播計(jì)算的,相當(dāng)于從最終層中計(jì)算出的誤差函數(shù)迭代應(yīng)用鏈規(guī)則,直到獲得所需層權(quán)重的梯度為止:

在這里我們對(duì)感興趣權(quán)重發(fā)生的所有節(jié)點(diǎn)求和。選擇訓(xùn)練迭代的次數(shù)T以實(shí)現(xiàn)誤差的收斂。在這里,我們使用亞當(dāng)梯度下降法[15],對(duì)權(quán)重進(jìn)行了稍微修改。該方法通過保持過去梯度和平方梯度的指數(shù)衰減平均值,并使用這些參數(shù)來(lái)更新參數(shù),從而為每個(gè)參數(shù)計(jì)算自適應(yīng)學(xué)習(xí)率。自適應(yīng)學(xué)習(xí)率允許梯度下降更準(zhǔn)確地找到最小值。
Activation functions
在每一層中,我們使用非線性或激活函數(shù)來(lái)轉(zhuǎn)換卷積的輸出,從而允許模型學(xué)習(xí)數(shù)據(jù)的非線性表示。在我們的模型中,非線性采用定義為ReLU(x):= max(x,0)的整流線性單位(ReLU)的形式,因此層l的輸出為

其中b∈R表示將輸入轉(zhuǎn)換為非線性的偏差,* d照常表示具有膨脹d的卷積,而表示具有濾波器,h=1,...的卷積的輸出。層l中的M1。與[23]中用于音頻生成的門控激活函數(shù)不同,在這里我們建議使用ReLU,因?yàn)楫?dāng)將其應(yīng)用于非平穩(wěn),嘈雜的時(shí)間序列的預(yù)測(cè)時(shí),它是最有效的。同時(shí)使用ReLU減少了訓(xùn)練時(shí)間,從而簡(jiǎn)化了模型。最后一層l = L,具有線性激活函數(shù),隨后是1×1卷積,然后輸出時(shí)間序列的預(yù)測(cè)值? x = [? x(0),...,? x(N) ]。
當(dāng)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)時(shí),使網(wǎng)絡(luò)無(wú)法學(xué)習(xí)最佳權(quán)重的問題之一就是消失/爆炸梯度[2] [8]。當(dāng)反向傳播通過鏈?zhǔn)揭?guī)則計(jì)算梯度時(shí),當(dāng)激活函數(shù)的導(dǎo)數(shù)取小值或大值時(shí),這些數(shù)字的乘積可導(dǎo)致初始層中權(quán)重的梯度分別消失或爆炸。這導(dǎo)致權(quán)重由于梯度太小而更新得太慢,或者由于梯度下降步幅太大而無(wú)法收斂到最小值。該問題的一種解決方案是以這種方式初始化卷積層的權(quán)重,使得無(wú)論是在網(wǎng)絡(luò)的正向傳播還是在反向傳播中,權(quán)重都不會(huì)分別減小或放大輸入信號(hào)和梯度的幅度。權(quán)重的正確初始化將使信號(hào)和梯度在整個(gè)層中的值范圍內(nèi)保持合理,從而在訓(xùn)練網(wǎng)絡(luò)時(shí)不會(huì)丟失任何信息。如[10]中所推導(dǎo)的,為了確保輸入的方差與輸出的方差相似,充分條件是

這導(dǎo)致零均值高斯分布,其標(biāo)準(zhǔn)偏差為,其中z是層中可訓(xùn)練參數(shù)的總數(shù)。換句話說,將ReLU單元的權(quán)重初始化為(對(duì)于τ= 0)為

當(dāng)時(shí),層l中的濾波器數(shù)量乘以濾波器大小1×k
Residual learning
當(dāng)向網(wǎng)絡(luò)添加更多層時(shí),標(biāo)準(zhǔn)反向傳播將無(wú)法找到最佳權(quán)重,從而導(dǎo)致更高的訓(xùn)練誤差。因此,這個(gè)問題稱為退化問題[11],它不是由過度擬合引起的??紤]一個(gè)具有少量層的淺層網(wǎng)絡(luò),以及更深的對(duì)應(yīng)層。更深層次的模型不應(yīng)導(dǎo)致更高的訓(xùn)練誤差,因?yàn)榇嬖谝环N構(gòu)造上的解決方案:將添加的層中的所有權(quán)重設(shè)置為標(biāo)識(shí)映射。然而,在實(shí)踐中,梯度下降算法在學(xué)習(xí)身份映射時(shí)往往會(huì)遇到問題。解決此問題的建議方法是使用殘差連接[11],該殘差迫使網(wǎng)絡(luò)逼近所需映射H(x)-x,而不是H(x),以便可以通過驅(qū)動(dòng)所有權(quán)重來(lái)學(xué)習(xí)身份映射。歸零。通過將權(quán)重驅(qū)動(dòng)為零來(lái)優(yōu)化殘差映射往往比學(xué)習(xí)身份更容易。殘余連接的實(shí)現(xiàn)方式是使用快捷連接,該連接跳過一個(gè)或多個(gè)層,因此可以不修改地添加到跳過層的輸出中。盡管實(shí)際上,最佳權(quán)重不太可能完全是身份映射,但是如果最佳功能比零映射更接近身份,則建議的殘差連接仍將幫助網(wǎng)絡(luò)學(xué)習(xí)更好的最佳權(quán)重。
類似于[23],在我們的網(wǎng)絡(luò)中,我們?cè)趶妮斎氲骄矸e再到輸出的每個(gè)膨脹卷積之后添加一個(gè)殘差連接。在> 1的情況下,來(lái)自非線性的輸出在添加剩余連接之前經(jīng)過1×1卷積。這樣做是為了確保殘留連接和膨脹卷積的輸出都具有相同數(shù)量的通道。這使我們可以堆疊多個(gè)層,同時(shí)保留網(wǎng)絡(luò)正確映射初始層中學(xué)習(xí)到的依賴項(xiàng)的能力
Relation to discrete wavelet transform
網(wǎng)絡(luò)的結(jié)構(gòu)與離散小波變換(DWT)密切相關(guān)。小波分析可用于通過將具有不同比例(寬度)和位置的小波函數(shù)與該函數(shù)匹配,來(lái)了解給定函數(shù)如何從一個(gè)周期到下一個(gè)周期變化。 DWT是且的線性變換,通過將信號(hào)與高通和低通濾波器進(jìn)行卷積,將信號(hào)分解為高頻和低頻分量。特別是,在變換的每個(gè)級(jí)別j,輸入信號(hào)都被分解為小波,并且縮放系數(shù)和(也稱為近似值和細(xì)節(jié)),其中k = 0,... ,? 1,同時(shí)將輸入x與濾波器h和g進(jìn)行卷積

其中ψ(·)是小波,而φ(·)是縮放函數(shù)。在隨后的每個(gè)級(jí)別中,我們都將變換應(yīng)用于近似系數(shù),以這種方式丟棄高頻分量(細(xì)節(jié))并最終得到輸入信號(hào)的平滑版本。這與CNN的結(jié)構(gòu)非常相似,在CNN的每個(gè)后續(xù)層中,我們使用可學(xué)習(xí)的濾波器對(duì)來(lái)自上一層的輸入進(jìn)行卷積。在每一層中,過濾器用于識(shí)別數(shù)據(jù)中的局部依存關(guān)系,隨后將其組合以表示更多的全局特征,直到在最后一層中我們計(jì)算出感興趣的輸出為止。與DWT中的固定á優(yōu)先級(jí)相反,通過允許濾波器是可學(xué)習(xí)的,我們的目標(biāo)是通過以這種方式識(shí)別數(shù)據(jù)中的某些模式,從而找到使目標(biāo)函數(shù)(1)最小的濾波器權(quán)重。時(shí)間序列的準(zhǔn)確預(yù)測(cè)。
Conditioning
當(dāng)以另一個(gè)序列預(yù)測(cè)一個(gè)時(shí)間序列時(shí),我們的目標(biāo)是最大化條件似然,

時(shí)間序列y的條件是通過計(jì)算卷積的激活函數(shù)來(lái)完成的,其中第一層的濾波器and 為

對(duì)于每個(gè)濾波器h = 1,...,。預(yù)測(cè)x(t + 1)時(shí),網(wǎng)絡(luò)的接收?qǐng)霰仨殐H包含x(0),...,x(t)和y(0),...,y(t)。因此,類似于輸入,為保持因果關(guān)系,條件后會(huì)附加一個(gè)零值的矢量,大小為接收?qǐng)龅拇笮?。在[23]中,作者建議采用具有1×1的濾波器。給定較短的輸入窗口,這種類型的條件并不總是能夠捕獲時(shí)間序列之間的所有依賴關(guān)系。因此,我們使用1×k卷積,以較少的層數(shù)增加了學(xué)習(xí)正確依賴項(xiàng)的可能性。因此,網(wǎng)絡(luò)的接收域包含輸入和條件的k個(gè)元素
代替第一層中的剩余連接,我們從輸入以及條件到膨脹卷積的結(jié)果中添加由1×1卷積參數(shù)化的跳過連接。通過使用來(lái)自每個(gè)單獨(dú)條件的M個(gè)擴(kuò)張卷積并將它們與輸入相加,可以輕松地將條件擴(kuò)展為多元M×N時(shí)間序列。跳過連接的參數(shù)化確保我們的模型能夠正確提取預(yù)測(cè)與輸入和條件之間的必要關(guān)系。具體而言,如果特定條件不能改善預(yù)測(cè),則模型可以簡(jiǎn)單地通過將參數(shù)化跳過連接(即1×1卷積)中的權(quán)重設(shè)置為零來(lái)簡(jiǎn)單地學(xué)習(xí)舍棄該條件。這使條件能夠以區(qū)分方式增強(qiáng)預(yù)測(cè)。如果濾波器的數(shù)量filers大于1,則參數(shù)化的跳過連接將使用與filers的1×1卷積,從而使跳過連接與原始卷積之和有效。網(wǎng)絡(luò)結(jié)構(gòu)如圖2.3所示。

圖2.3:網(wǎng)絡(luò)結(jié)構(gòu)。在第一層(L)中,對(duì)輸入和條件(具有零填充)進(jìn)行卷積,通過非線性傳遞并與參數(shù)化的跳過連接求和。來(lái)自該第一層的結(jié)果是后續(xù)擴(kuò)張的卷積層中的輸入,并且從卷積的輸入到輸出都有剩余連接。對(duì)其他層重復(fù)此操作,直到獲得層L(M)的輸出。該輸出通過1×1卷積傳遞,得到最終輸出:預(yù)測(cè)的時(shí)間序列(R)。
備注2(學(xué)習(xí)非線性依賴性的能力)。我們?cè)谶@里對(duì)模型學(xué)習(xí)時(shí)間序列內(nèi)部和之間的非線性相關(guān)性的能力進(jìn)行評(píng)論。前饋神經(jīng)網(wǎng)絡(luò)需要至少一個(gè)具有足夠大量隱藏單元的隱藏層,以便近似非線性函數(shù)[13]。如果在CNN中將濾波器寬度設(shè)置為1,則模型學(xué)習(xí)非線性相關(guān)性的必要條件將是> 1,因?yàn)樵谶@種情況下,濾波器的作用類似于隱藏單元的作用。替代地,在CNN中學(xué)習(xí)非線性要求同時(shí)使用濾波器寬度和大于一層的層數(shù)。每一層實(shí)質(zhì)上是計(jì)算一個(gè)點(diǎn)積和前一層中幾個(gè)輸出的非線性變換之和。該輸出又是輸入和條件的組合,并且隱藏單元的作用通過濾波器寬度上的總和來(lái)發(fā)揮,從而允許在時(shí)間序列中和時(shí)間序列之間學(xué)習(xí)非線性關(guān)系。
討論與結(jié)論在本文中,我們介紹并分析了基于卷積神經(jīng)網(wǎng)絡(luò)WaveNet架構(gòu)[23]的條件時(shí)間序列預(yù)測(cè)方法的性能。該網(wǎng)絡(luò)利用了應(yīng)用于輸入和多種條件的膨脹卷積層,從而了解了數(shù)據(jù)中以及數(shù)據(jù)之間的趨勢(shì)和關(guān)系。我們分析了WaveNet模型在各種時(shí)間序列上的性能,并將其與時(shí)間序列預(yù)測(cè)的最新技術(shù),LSTM模型和線性自回歸模型進(jìn)行了比較。我們得出結(jié)論,即使時(shí)間序列預(yù)測(cè)仍然是一項(xiàng)復(fù)雜的任務(wù),并且很難找到一個(gè)適合所有人的模型,但我們已經(jīng)證明,WaveNet是一個(gè)簡(jiǎn)單,高效且易于解釋的網(wǎng)絡(luò),可以作為預(yù)測(cè)的強(qiáng)大基準(zhǔn)。盡管如此,仍有改進(jìn)的空間。提高CNN學(xué)習(xí)非線性依賴性的能力的一種方法是使用大量的層和濾波器。從圖3.3中我們可以看到,在學(xué)習(xí)非線性(需要大量的層和濾波器)的能力與過度擬合之間存在權(quán)衡的問題,因?yàn)榇罅康膶訒?huì)導(dǎo)致較大的接受度字段和許多參數(shù)。通過使用自回歸模型和CNN的組合,在[3]中也解決了內(nèi)存需求和非線性之間不平衡的問題。解決此問題的另一種方法可能是將參數(shù)化的跳過連接與自適應(yīng)濾波器結(jié)合使用,并將在我們的進(jìn)一步工作中進(jìn)行研究。此外,WaveNet模型被證明是LSTM模型的強(qiáng)大競(jìng)爭(zhēng)者,尤其是在考慮訓(xùn)練時(shí)間時(shí)。盡管在相對(duì)較短的時(shí)間序列上,與訓(xùn)練時(shí)間相比,預(yù)測(cè)時(shí)間可以忽略不計(jì),但對(duì)于較長(zhǎng)的時(shí)間序列,可以通過實(shí)施利用網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)的最新變體來(lái)加快自回歸模型的預(yù)測(cè),請(qǐng)參見[21]。 ]或通過在頻域中進(jìn)行傅里葉變換來(lái)加快卷積,如[19],[22]中所述。最后,眾所周知,數(shù)據(jù)點(diǎn)之間的相關(guān)性在日內(nèi)基礎(chǔ)上更強(qiáng)。因此,可能有必要在日間數(shù)據(jù)上測(cè)試模型,以查看該模型學(xué)習(xí)長(zhǎng)期依賴項(xiàng)的能力在這種情況下是否更有價(jià)值
文獻(xiàn)綜述
[1] A. Aussem and F. Murtagh, Combining neural network forecasts on wavelet-transformed time series,Connection Science, 9 (1997), pp. 113–122.
[1] A. Aussem和F. Murtagh,結(jié)合小波變換時(shí)間序列的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),Connection Science,9(1997),第113-122頁(yè)。
[2] Y. Bengio, P. Simard, and P. Frasconi, Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 5 (1994).
[3] M. Binkowski, G. Marti, and P. Donnat, Autoregressive convolutional neural networks for asyn-chronous time series, ICML 2017 Time Series Workshop, (2017).
[4] K. Chakraborty, K. Mehrotra, C. K. Mohan, and S. Ranka, Forecasting the Behavior of Multivariate Time Series using Neural Networks, Neural networks, 5 (1992), pp. 961–970.
[5] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, (2014).
[6] R. Cont, Empirical properties of asset returns: Stylized facts and statistical issues, (2001).
[7] T. Fisher and C. Krauss, Deep learning with Long Short-Term Memory networks for financial market predictions, F AU Discussion papers in Economics, (2017).
[8] X. Glorot and Y. Bengio, Understanding the Difficulty of Training Deep Feedforward Neural Net-works, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, (2010).
[9] J. D. Hamilton, Time series analysis, vol. 2, Princeton university press Princeton, 1994.
[10] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level per-formance on imagenet classification, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034.
[11] , Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[12] S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural computation, 9 (1997),pp. 1735–1780.
[13] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural networks, 4 (1991),pp. 251–257.
[14] D. Hsu, Time series forecasting based on augmented Long Short-Term Memory, arXiv preprint arXiv:1707.00666, (2017).
[15] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980,(2014).
[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, (2012), pp. 1097–1105.
[17] S. Lahmiri, Wavelet low- and high- frequency components as features for predicting stock prices with backpropagation neural networks, Journal of King Saud University - Computer and Information Sciences,26 (2014), pp. 218–227.
[2] Y. Bengio,P。Simard和P. Frasconi,用梯度下降學(xué)習(xí)長(zhǎng)期依賴性很困難,IEEE Transactions on Neural Networks,5(1994)。
[3] M. Binkowski,G。Marti和P. Donnat,異步時(shí)間序列的自回歸卷積神經(jīng)網(wǎng)絡(luò),ICML 2017時(shí)間序列研討會(huì),(2017年)。
[4] K. Chakraborty,K。Mehrotra,C。K. Mohan和S. Ranka,《使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)多元時(shí)間序列的行為》,《神經(jīng)網(wǎng)絡(luò)》,第5期(1992年),第961–970頁(yè)。
[5] J. Chung,C。Gulcehre,K。Cho和Y. Bengio,門控循環(huán)神經(jīng)網(wǎng)絡(luò)在序列建模上的經(jīng)驗(yàn)評(píng)估,arXiv預(yù)印本arXiv:1412.3555,(2014年)。
[6] R. Cont,資產(chǎn)收益的經(jīng)驗(yàn)性質(zhì):程式化的事實(shí)和統(tǒng)計(jì)問題,(2001年)。
[7] T. Fisher和C. Krauss,《用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)進(jìn)行金融市場(chǎng)預(yù)測(cè)》,《非盟經(jīng)濟(jì)學(xué)討論》,(2017年)。
[8] X. Glorot和Y. Bengio,“理解深度前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度”,第13屆人工智能與統(tǒng)計(jì)國(guó)際會(huì)議論文集,(2010年)。
[9] J. D. Hamilton,時(shí)間序列分析,第一卷。 2,普林斯頓大學(xué)出版社,普林斯頓,1994年。
[10] K. He,X。Zhang,S。Ren和J. Sun,深入研究整流器:在IEEE國(guó)際會(huì)議論文集上超越了人類在圖像網(wǎng)絡(luò)分類方面的性能。計(jì)算機(jī)視覺,2015年,第1026至1034頁(yè)。
[11],用于圖像識(shí)別的深度殘差學(xué)習(xí),在IEEE計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集,2016年,第770–778頁(yè)。
[12] S. Hochreiter和J. Schmidhuber,《長(zhǎng)短期記憶,神經(jīng)計(jì)算》,第9期,1997年,第1735-1780頁(yè)。
[13] K. Hornik,多層前饋網(wǎng)絡(luò)的逼近能力,神經(jīng)網(wǎng)絡(luò),第4期(1991),第251-257頁(yè)。
[14] D. Hsu,基于增強(qiáng)的長(zhǎng)期短期記憶的時(shí)間序列預(yù)測(cè),arXiv預(yù)印本arXiv:1707.00666,(2017年)。
[15] D. Kingma和J. Ba,亞當(dāng):一種隨機(jī)優(yōu)化方法,arXiv預(yù)印本arXiv:1412.6980,(2014年)。
[16] A. Krizhevsky,I。Sutskever和G. E. Hinton,《深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類》,神經(jīng)信息處理系統(tǒng)進(jìn)展25,(2012年),第1097-1105頁(yè)。
[17] S. Lahmiri,“小波低頻和高頻分量作為利用反向傳播神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)股票價(jià)格的特征”,《沙特國(guó)王大學(xué)學(xué)報(bào)-計(jì)算機(jī)與信息科學(xué)》,第26卷(2014年),第218-227頁(yè)。
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[19] M. Mathieu, M. Henaff, and Y. LeCun, Fast training of convolutional networks through FFTs,ArXiv e-prints, (2013).
[20] R. Mittelman, Time-series modeling with undecimated fully convolutional neural networks, arXiv preprint arXiv:1508.00317, (2015).
[21] P. Ramachandran, T. L. Paine, P. Khorrami, M. Babaeizadeh, S. Chang, Y. Zhang, M. A.Hasegawa-Johnson, R. H. Campbell, and T. S. Huang, Fast generation for convolutional autore-gressive models, arXiv preprint arXiv:1704.06001, (2017).
[22] O. Rippel, J. Snoek, and R. P. Adams, Spectral representations for convolutional neural networks,NIPS15 Proceedings of the 28th International Conference on Neural Information Processing Systems,(2015), pp. 2449–2457.
[23] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalch-brenner, A. Senior, and K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, ArXiv e-prints, (2016).
[24] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, Pixel Recurrent Neural Networks,CoRR, abs/1601.06759 (2016).
[25] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and
K. Kavukcuoglu, Conditional Image Generation with PixelCNN Decoders, CoRR, abs/1606.05328 (2016).
[26] Z. W ang, W. Yan, and T. Oates, Time Series Classification from Scratch with Deep Neural Net-works: A Strong Baseline, CoRR, abs/1611.06455 (2016).
[27] F. Yu and V. Koltun, Multi-Scale Context Aggregation by Dilated Convolutions, ArXiv e-prints,(2015).
[28] G. Zhang, B. E. Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art, International journal of forecasting, 14 (1998), pp. 35–62.
[29] G. P. Zhang, Time series forecasting using a hybrid ARIMA and neural network model, Neurocom-puting, 50 (2003), pp. 159–175.
[30] Y. Zheng, Q. Liu, E. Chen, Y. Ge, and J. Zhao, Exploiting Multi-Channels Deep Convolutional Neural Networks for Multivariate Time Series Classification, Front. Comput. Sci., 10 (2016), pp. 96–112.
[18] Y. LeCun,L。Bottou,Y。Bengio和P. Haffner,基于梯度的學(xué)習(xí)應(yīng)用于文檔識(shí)別,IEEE,86(1998),pp。2278-2324。
[19] M. Mathieu,M。Henaff和Y. LeCun,通過FFT快速訓(xùn)練卷積網(wǎng)絡(luò),ArXiv電子版,(2013年)。
[20] R. Mittelman,使用未抽取的全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)間序列建模,arXiv預(yù)印本arXiv:1508.00317,(2015年)。
[21] P. Ramachandran,TL Paine,P。Khorrami,M。Babaeizadeh,S。Chang,Y。Zhang,MA Hasegawa-Johnson,RH Campbell和TS Huang,卷積自回歸模型的快速生成,arXiv預(yù)印本arXiv:1704.06001 ,(2017年)。
[22] O. Rippel,J。Snoek和R. P. Adams,卷積神經(jīng)網(wǎng)絡(luò)的頻譜表示,第28屆國(guó)際神經(jīng)信息處理系統(tǒng)會(huì)議NIPS15論文集,(2015年),第2449-2457頁(yè)。
[23] A. van den Oord,S。Dieleman,H。Zen,K。Simonyan,O。Vinyals,A。Graves,N。Kalchbrenner,A。Senior和K. Kavukcuoglu,WaveNet:原始音頻的生成模型,ArXiv電子版,(2016年)。
[24] A. van den Oord,N。Kalchbrenner和K. Kavukcuoglu,像素遞歸神經(jīng)網(wǎng)絡(luò),CoRR,abs / 1601.06759(2016)。
[25] A. van den Oord,N。Kalchbrenner,O。Vinyals,L。Espeholt,A。Graves和K. Kavukcuoglu,《使用PixelCNN解碼器的條件圖像生成》,CoRR,abs / 1606.05328(2016年)。
[26] Z. Wang,W。Yan和T. Oates,《使用深度神經(jīng)網(wǎng)絡(luò)從頭開始的時(shí)間序列分類:強(qiáng)大的基線》,CoRR,abs / 1611.06455(2016)。
[27] F. Yu和V. Koltun,通過膨脹卷積進(jìn)行多尺度上下文聚合,ArXiv電子版,(2015年)。
[28] G. Zhang,B。E. Patuwo和M. Y. Hu,《使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè):最新技術(shù)》,國(guó)際預(yù)測(cè)雜志,第14期(1998年),第35-62頁(yè)。
[29] G. P. Zhang,使用混合ARIMA和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時(shí)間序列預(yù)測(cè),Neurocomputing,50(2003年),第159-175頁(yè)。
[30]鄭Y,劉Q,陳鄂,葛Y,趙J,為多變量時(shí)間序列分類開發(fā)多通道深度卷積神經(jīng)網(wǎng)絡(luò),前面。計(jì)算Sci。,10(2016),第96–112頁(yè)。
下面就是我閱讀論文后對(duì)論文的理解