卷積神經(jīng)網(wǎng)絡(luò)的條件時(shí)間序列預(yù)測(cè)

摘要
我們提出了一種基于最新深度卷積WaveNet架構(gòu)的條件時(shí)間序列預(yù)測(cè)方法。擬議的網(wǎng)絡(luò)包含堆疊的卷積堆棧，使它們可以在預(yù)測(cè)時(shí)訪問廣泛的歷史記錄，ReLU激活函數(shù)和條件是通過將多個(gè)卷積濾波器并行應(yīng)用于單獨(dú)的時(shí)間序列來(lái)執(zhí)行的，從而可以快速處理數(shù)據(jù)和利用多元時(shí)間序列之間的相關(guān)結(jié)構(gòu)。我們使用S＆P500，波動(dòng)率指數(shù)，CBOE利率和幾種匯率來(lái)無(wú)條件和有條件地對(duì)卷積網(wǎng)絡(luò)的性能進(jìn)行測(cè)試和分析，并將其與眾所周知的自回歸的性能進(jìn)行廣泛比較模型和長(zhǎng)期記憶網(wǎng)絡(luò)。我們表明，卷積網(wǎng)絡(luò)非常適合回歸類型的問題，并且能夠有效地學(xué)習(xí)序列中以及序列之間的依賴關(guān)系，而無(wú)需較長(zhǎng)的歷史時(shí)間序列，它是一種省時(shí)且易于實(shí)現(xiàn)的替代遞歸類型的方法網(wǎng)絡(luò)，并且往往優(yōu)于線性模型和遞歸模型。關(guān)鍵字：卷積神經(jīng)網(wǎng)絡(luò)，金融時(shí)間序列，預(yù)測(cè)，深度學(xué)習(xí)，多元時(shí)間序列
簡(jiǎn)介
由于明顯的原因，使用過去的觀察來(lái)預(yù)測(cè)財(cái)務(wù)時(shí)間序列已成為人們非常感興趣的話題。眾所周知，盡管數(shù)據(jù)中存在時(shí)間關(guān)系，但由于序列中存在非線性趨勢(shì)，粗尾和噪聲，它們很難準(zhǔn)確分析和預(yù)測(cè)[6]。在開發(fā)用于預(yù)測(cè)財(cái)務(wù)數(shù)據(jù)的模型時(shí)，希望它們既能夠?qū)W習(xí)數(shù)據(jù)中的非線性依存關(guān)系，又具有很高的抗噪性。傳統(tǒng)的自回歸模型（例如VAR和ARMA [9]）無(wú)法捕獲非線性模式。前饋神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)數(shù)據(jù)中依存關(guān)系的流行方法，因?yàn)榍梆伾窠?jīng)網(wǎng)絡(luò)無(wú)需使用預(yù)先指定特定的模型形式，參見[28]或[4]。Hybrid還提出了使用神經(jīng)網(wǎng)絡(luò)和計(jì)量經(jīng)濟(jì)學(xué)模型的混合方法，傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的一個(gè)缺點(diǎn)是需要大量的數(shù)據(jù)樣本才能獲得穩(wěn)定的預(yù)測(cè)結(jié)果。
本文的主要重點(diǎn)是多元時(shí)間序列預(yù)測(cè)，特別是金融時(shí)間序列。特別是，我們預(yù)測(cè)以其他相關(guān)序列為條件的時(shí)間序列。眾所周知，金融時(shí)間序列既具有高噪聲成分，又具有有限的持續(xù)時(shí)間–即使可用，由于金融環(huán)境的變化，使用長(zhǎng)期股價(jià)歷史記錄也可能很困難。同時(shí)，存在許多不同但密切相關(guān)的財(cái)務(wù)時(shí)間序列。在這里，我們旨在利用條件的概念來(lái)開發(fā)多變量預(yù)測(cè)，以減少短時(shí)序列中的噪聲。實(shí)際上，我們將多個(gè)財(cái)務(wù)時(shí)間序列用作神經(jīng)網(wǎng)絡(luò)的輸入，從而根據(jù)其自身的歷史以及多個(gè)其他時(shí)間序列的歷史來(lái)對(duì)時(shí)間序列的預(yù)測(cè)進(jìn)行調(diào)整。在多個(gè)股票系列上訓(xùn)練模型可以使網(wǎng)絡(luò)利用這些系列之間的相關(guān)結(jié)構(gòu)，以便網(wǎng)絡(luò)可以在較短的數(shù)據(jù)序列中了解市場(chǎng)動(dòng)態(tài)。如圖所示[30]對(duì)于分類，使用多個(gè)條件時(shí)間序列作為輸入可以通過學(xué)習(xí)序列之間的長(zhǎng)期時(shí)間依賴性來(lái)提高模型的魯棒性和預(yù)測(cè)質(zhì)量。
卷積神經(jīng)網(wǎng)絡(luò)（CNN），參見[18]，是一種生物啟發(fā)型的深度神經(jīng)網(wǎng)絡(luò)（DNN），由于其在分類問題（例如圖像識(shí)別[16]或時(shí)間序列分類[ 26]）。 CNN由一系列卷積層組成，其輸出僅連接到輸入中的局部區(qū)域。這是通過在輸入上滑動(dòng)濾波器或權(quán)重矩陣并在每個(gè)點(diǎn)計(jì)算兩者之間的點(diǎn)積（即輸入和濾波器之間的卷積）來(lái)實(shí)現(xiàn)的。這種結(jié)構(gòu)允許模型學(xué)習(xí)能夠識(shí)別輸入數(shù)據(jù)中特定模式的過濾器。 CNN用于時(shí)間序列預(yù)測(cè)的最新進(jìn)展包括[20]，其中作者提出了基于未抽取小波變換的時(shí)間序列建模的未抽取卷積網(wǎng)絡(luò)，[3]作者建議使用自回歸型加權(quán)系統(tǒng)來(lái)預(yù)測(cè)金融時(shí)間序列，其中權(quán)重通過通過CNN進(jìn)行學(xué)習(xí)而被允許與數(shù)據(jù)相關(guān)。在一般的文獻(xiàn)中，關(guān)于卷積架構(gòu)的金融時(shí)間序列預(yù)測(cè)的文獻(xiàn)仍然很少，因?yàn)檫@些類型的網(wǎng)絡(luò)更常用于分類問題。直觀地，將CNN應(yīng)用于時(shí)間序列預(yù)測(cè)的想法是學(xué)習(xí)表示代表該序列中某些重復(fù)模式的過濾器，并使用它們來(lái)預(yù)測(cè)未來(lái)值。由于CNN的分層結(jié)構(gòu)，它們可以在嘈雜序列上很好地工作，通過在每個(gè)后續(xù)層中丟棄噪聲并僅提取有意義的模式，從而與使用小波變換時(shí)間序列的神經(jīng)網(wǎng)絡(luò)（即，高頻和低頻分量）作為輸入，請(qǐng)參見例如[1]，[17]。
當(dāng)前，遞歸神經(jīng)網(wǎng)絡(luò)（RNN），尤其是長(zhǎng)期短期記憶單元（LSTM）[12]，[5]是時(shí)間序列預(yù)測(cè)的最新技術(shù)，另請(qǐng)參見[14]和特別是[7]的財(cái)務(wù)預(yù)測(cè)結(jié)果。這些網(wǎng)絡(luò)的效率可以通過循環(huán)連接來(lái)解釋，循環(huán)連接允許網(wǎng)絡(luò)訪問以前時(shí)間序列值的整個(gè)歷史記錄。另一種選擇是采用多層卷積的卷積神經(jīng)網(wǎng)絡(luò)[27]。通過跳過輸入中的某些元素來(lái)應(yīng)用濾波器的擴(kuò)張卷積允許網(wǎng)絡(luò)的接收?qǐng)龀手笖?shù)增長(zhǎng)，從而允許網(wǎng)絡(luò)類似于RNN，訪問范圍廣泛的歷史記錄。 CNN相對(duì)于遞歸型網(wǎng)絡(luò)的優(yōu)勢(shì)在于，由于網(wǎng)絡(luò)的卷積結(jié)構(gòu)，可訓(xùn)練權(quán)重的數(shù)量很少，從而可以更有效地進(jìn)行訓(xùn)練和預(yù)測(cè)。
受[25]的影響，作者將PixelCNN與用于圖像生成的網(wǎng)絡(luò)PixelRNN [24]的性能進(jìn)行了比較。在本文中，我們旨在研究卷積神經(jīng)網(wǎng)絡(luò)與自回歸算法和自回歸算法相比的性能。預(yù)測(cè)嘈雜的財(cái)務(wù)時(shí)間序列的遞歸模型。我們使用的CNN是受最早為音頻預(yù)測(cè)而開發(fā)的[23]的卷積WaveNet模型啟發(fā)的網(wǎng)絡(luò)，我們對(duì)其結(jié)構(gòu)進(jìn)行了簡(jiǎn)化和優(yōu)化以進(jìn)行多元時(shí)間序列預(yù)測(cè)。我們的網(wǎng)絡(luò)專注于學(xué)習(xí)多元，嘈雜的時(shí)間序列內(nèi)以及之間的長(zhǎng)期關(guān)系。與[23]相似，它使用膨脹卷積，但是這些卷積與輸入時(shí)間序列以及我們所依據(jù)的時(shí)間序列中的參數(shù)化跳過連接[11]一起應(yīng)用，從而學(xué)習(xí)了長(zhǎng)和短術(shù)語(yǔ)相互依存關(guān)系的有效方式。此外，原始WaveNet模型的門控激活功能被整流線性單元（ReLU）取代，簡(jiǎn)化了模型并減少了訓(xùn)練時(shí)間。
本文包括幾個(gè)主要的貢獻(xiàn)。首先，我們介紹了受WaveNet模型啟發(fā)的CNN，其結(jié)構(gòu)經(jīng)過簡(jiǎn)化和優(yōu)化以用于時(shí)間序列預(yù)測(cè)，即使用ReLU激活以及通過參數(shù)化跳過連接進(jìn)行新穎，更優(yōu)化的調(diào)節(jié)方式。其次，據(jù)我們所知，知道CNN在分類問題上的出色表現(xiàn)，我們的工作是（據(jù)我們所知）第一個(gè)表明它們可以成功地用于預(yù)測(cè)有限長(zhǎng)度的金融時(shí)間序列。通過對(duì)WaveNet模型進(jìn)行廣泛的分析并將性能與LSTM，當(dāng)前最新的預(yù)測(cè)技術(shù)以及計(jì)量經(jīng)濟(jì)學(xué)中流行的自回歸模型進(jìn)行比較，我們證明WaveNet模型是一種高效的方法且易于實(shí)施以替代遞歸型網(wǎng)絡(luò)，并且往往優(yōu)于線性模型和遞歸模型。最后，我們使用人工時(shí)間序列以及S＆P500，VIX，CBOE利率和五種匯率的示例表明，WaveNet模型中有效的條件調(diào)節(jié)方式使人們能夠提取時(shí)間序列之間的時(shí)間關(guān)系，從而改善預(yù)測(cè)，而同時(shí)限制了長(zhǎng)期歷史價(jià)格序列的需求并降低了噪音，因?yàn)樗试S人們利用相關(guān)時(shí)間序列之間的相關(guān)性?？傮w而言，我們表明卷積網(wǎng)絡(luò)可以更簡(jiǎn)單，更容易地訓(xùn)練循環(huán)網(wǎng)絡(luò)的替代方法，同時(shí)在非線性，嘈雜的預(yù)測(cè)任務(wù)上至少達(dá)到相同或更高的準(zhǔn)確性。
模型
在這一節(jié)中，我們首先回顧一下神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。然后，我們介紹了將用于時(shí)間序列預(yù)測(cè)的特定卷積網(wǎng)絡(luò)結(jié)構(gòu)。
前饋神經(jīng)網(wǎng)絡(luò)
略
Convolutions（卷積）
兩個(gè)一維信號(hào)f和g的離散卷積被定義為f?g

根據(jù)卷積的定義，可以將輸入中不存在的樣本定義為0，通常稱為補(bǔ)零，或者僅在樣本同時(shí)存在于兩個(gè)信號(hào)中的點(diǎn)處計(jì)算乘積。請(qǐng)注意，卷積是可交換的，即(f?g) = (g?f)如果信號(hào)是有限的，那么無(wú)限的卷積可能會(huì)被截?cái)唷Q句話說，假設(shè)f = [f(0)，…， f(N - 1)]和g = [g(0)，…， g(M?1)]，兩者的卷積由下面公式給出

卷積輸出的大小取決于處理未定義樣本的方式。如果將一定數(shù)量的未定義樣本設(shè)置為0，這稱為零填充。如果我們不應(yīng)用0填充，則輸出的大小為N - M + 1(因?yàn)閕 = 0..N-M)當(dāng)在輸入信號(hào)f的兩邊填充p個(gè)0時(shí)，輸出的大小為N - M + 2p+ 1。因此，零填充允許一個(gè)人控制卷積的輸出大小，調(diào)整它或減少，或相同，或增加相對(duì)于輸入大小。因此，通過將信號(hào)g在輸入f上沿j移動(dòng)并計(jì)算兩者的加權(quán)和，可以計(jì)算出在點(diǎn)i處的卷積。
Convolutional neural networks
卷積神經(jīng)網(wǎng)絡(luò)是在局部連通的思想下發(fā)展起來(lái)的。每個(gè)節(jié)點(diǎn)只連接到輸入中的一個(gè)局部區(qū)域，參見圖2.1。這種連接的空間范圍被稱為節(jié)點(diǎn)的接受域。局部連通是通過卷積代替神經(jīng)網(wǎng)絡(luò)的加權(quán)和來(lái)實(shí)現(xiàn)的。在卷積神經(jīng)網(wǎng)絡(luò)的每一層，輸入與權(quán)矩陣(也稱為過濾器)進(jìn)行卷積，以創(chuàng)建一個(gè)特征映射。換句話說，權(quán)重矩陣在輸入上滑動(dòng)并計(jì)算輸入和權(quán)重矩陣之間的點(diǎn)積。注意，與常規(guī)的神經(jīng)網(wǎng)絡(luò)不同，輸出特征圖中的所有值共享相同的權(quán)值。這意味著輸出中的所有節(jié)點(diǎn)都檢測(cè)到完全相同的模式。CNNs的局部連通性和共享權(quán)值方面減少了可學(xué)習(xí)參數(shù)的總數(shù)，從而提高了訓(xùn)練的效率。因此，卷積神經(jīng)網(wǎng)絡(luò)背后的直覺是，在每一層中學(xué)習(xí)一個(gè)權(quán)重矩陣，該矩陣將能夠從輸入中提取必要的、平移不變的特征。
卷積層的輸入通常是三維的:高度、重量和通道數(shù)。在第一層，這個(gè)輸入與一組應(yīng)用于所有輸入通道的m1三維過濾器進(jìn)行卷積(換句話說，過濾器映射的第三維總是等于輸入中的通道數(shù))，以創(chuàng)建特征輸出映射?，F(xiàn)在考慮一個(gè)沒有填充0的一維輸入:
x =
然后通過卷積每個(gè)過濾器: for h=1,....,
得到第一層的輸出特征圖，…， m1，輸入:
= ()(i)=
where ?
注意，由于在本例中輸入通道的數(shù)量為1，因此權(quán)重矩陣也只有一個(gè)通道。與前饋神經(jīng)網(wǎng)絡(luò)相似，輸出通過非線性h(·)得到= h()。
在每個(gè)后續(xù)層l = 2，...，L中，輸入特征圖∈，其中是輸出濾波器圖的大小從先前的 = 的卷積中，與一組filters ∈，h = 1，...，進(jìn)行卷積以創(chuàng)建特征圖∈：=
然后將其輸出通過非線性傳遞，得出。濾波器尺寸參數(shù)k因此控制每個(gè)輸出節(jié)點(diǎn)的接收?qǐng)?。如果沒有零填充，則對(duì)于l = 1，..，L，每層卷積輸出的寬度。由于特征圖中的所有元素共享相同的權(quán)重，因此可以將特征以時(shí)不變的方式進(jìn)行檢測(cè)，同時(shí)減少了可訓(xùn)練參數(shù)的數(shù)量。經(jīng)過L個(gè)卷積層后，網(wǎng)絡(luò)的輸出將為矩陣，其大小取決于濾波器大小和最終層中使用的濾波器數(shù)量。根據(jù)我們希望模型學(xué)習(xí)的內(nèi)容，對(duì)模型中的權(quán)重進(jìn)行訓(xùn)練，以最小化網(wǎng)絡(luò)的輸出與我們感興趣的真實(shí)輸出之間的誤差。

圖2.1

圖2.1：具有三層（L）的前饋神經(jīng)網(wǎng)絡(luò)與具有兩層且過濾器大小為1×2的卷積神經(jīng)網(wǎng)絡(luò)，因此每個(gè)節(jié)點(diǎn)的感受野都包含來(lái)自上一層的兩個(gè)輸入神經(jīng)元，并且權(quán)重是共享的跨層，用相同的顏色（R）表示。
Structure
考慮一維時(shí)間序列。給定一個(gè)具有參數(shù)值θ的模型，預(yù)測(cè)變量的任務(wù)是根據(jù)序列的歷史記錄輸出下一個(gè)值。這可以通過最大化似然函數(shù)來(lái)完成

其中d是擴(kuò)張因子，M是通道數(shù)。換句話說，在膨脹卷積中，將濾波器應(yīng)用于輸入向量中的第d個(gè)輸入向量中，從而使模型可以有效地學(xué)習(xí)相距甚遠(yuǎn)的數(shù)據(jù)點(diǎn)之間的連接。我們使用類似于[27]和[23]的架構(gòu)，其中L層膨脹的卷積l = 1，...，L，并且膨脹增加了兩倍：。選擇濾波器w的大小為1×k：＝ 1×2。圖2.2給出了一個(gè)三層膨脹卷積網(wǎng)絡(luò)的示例。使用膨脹卷積代替常規(guī)卷積可以使輸出y受到輸入中更多節(jié)點(diǎn)的影響。網(wǎng)絡(luò)的輸入由時(shí)間序列給出。在隨后的每個(gè)層中，我們應(yīng)用膨脹的卷積，然后進(jìn)行非線性處理，得到輸出特征圖fl，l = 1，...，L。然后，這L層膨脹的卷積層之后是1×1卷積將通道數(shù)減少回一，因此模型輸出一維向量。由于我們對(duì)預(yù)測(cè)時(shí)間序列的后續(xù)值感興趣，因此我們將對(duì)模型進(jìn)行訓(xùn)練，以使該輸出為預(yù)測(cè)的時(shí)間序列。

圖2.2

神經(jīng)元的感受野被定義為其輸入中修改該神經(jīng)元輸出值的一組元素?，F(xiàn)在，我們將模型的接收?qǐng)鰎定義為第一層輸入中的神經(jīng)元數(shù)量（即時(shí)間序列），它可以修改最后一層中的輸出（即預(yù)測(cè)時(shí)間序列）。然后，這取決于層數(shù)L和濾波器大小k，由下式給出
???????????????????????r:=
在圖2.2中，接收?qǐng)鲇蓃 = 8給出。一個(gè)輸出值受八個(gè)輸入神經(jīng)元的影響
如前所述，有時(shí)在邊界周圍用零填充輸入很方便。然后，此零填充的大小將控制輸出的大小。在我們的案例中，為了不違反對(duì)x的適應(yīng)性約束，我們要確保預(yù)測(cè)時(shí)網(wǎng)絡(luò)的接收?qǐng)鰞H包含。為此，我們使用因果卷積，其中因果一詞表示卷積輸出不應(yīng)依賴于將來(lái)的輸入。在時(shí)間序列中，這等效于用接受域大小的零向量填充輸入，因此輸入由下式給出:
?????????
L層Wavenet的輸出是:
?????????
因此，在訓(xùn)練時(shí)，通過將輸入與每一層中的內(nèi)核l = 1，...，L卷積，然后進(jìn)行1×1卷積，可以計(jì)算出的預(yù)測(cè)。在測(cè)試時(shí)，通過在訓(xùn)練中輸入給出（t + 1）≥r的單步提前預(yù)測(cè)prediction 模型。通過在下一個(gè)時(shí)間步將每個(gè)預(yù)測(cè)反饋回網(wǎng)絡(luò)，依次進(jìn)行n步提前預(yù)測(cè)。使用進(jìn)行兩步提前的樣本外預(yù)測(cè)?。
因此，網(wǎng)絡(luò)的思想是使用卷積神經(jīng)網(wǎng)絡(luò)的功能作為自回歸預(yù)測(cè)模型。在簡(jiǎn)單的p階自回歸模型中，的預(yù)測(cè)值由給出，其中，i = 1，... ，p是可學(xué)習(xí)的權(quán)重，是白噪聲。使用上面定義的WaveNet模型，每個(gè)t∈{0，...，N}的預(yù)測(cè)條件期望為

其中函數(shù)βi，i = 1，...，r與數(shù)據(jù)相關(guān)，并通過卷積網(wǎng)絡(luò)進(jìn)行了優(yōu)化。我們指出，即使權(quán)重取決于基礎(chǔ)數(shù)據(jù)，由于網(wǎng)絡(luò)的卷積結(jié)構(gòu)，權(quán)重也會(huì)在輸出的過濾器映射圖之間共享，從而導(dǎo)致權(quán)重矩陣平移不變。
目標(biāo)函數(shù)：訓(xùn)練網(wǎng)絡(luò)權(quán)重（濾波器wl h）以使平均絕對(duì)誤差（MAE）最小化；為了避免過度擬合，即權(quán)重過大，我們使用帶有正則項(xiàng)γ的L2正則化，因此成本函數(shù)為

其中? x(t +1)表示使用x(0)，...，x(t)的x(t +1)預(yù)測(cè)。最小化E(w)會(huì)導(dǎo)致權(quán)重的選擇，從而在擬合訓(xùn)練數(shù)據(jù)與減小訓(xùn)練數(shù)據(jù)之間進(jìn)行權(quán)衡。權(quán)重過大通常會(huì)導(dǎo)致網(wǎng)絡(luò)過度擬合訓(xùn)練數(shù)據(jù)，因此L2正則化（通過強(qiáng)制權(quán)重不要太大）使模型可以更好地針對(duì)看不見的數(shù)據(jù)進(jìn)行泛化。
備注1（與貝葉斯框架有關(guān)）:在貝葉斯框架中，使此成本函數(shù)最小化等效于最大化Laplace分布似然函數(shù)下的后驗(yàn)分布，該函數(shù)的中心為由模型^輸出的值，具有固定比例參數(shù)β= 1/2

并在模型參數(shù)上具有高斯先驗(yàn)。
通過運(yùn)行通過網(wǎng)絡(luò)的前向通行獲得輸出，最佳權(quán)重是來(lái)自后驗(yàn)分布的點(diǎn)估計(jì)。由于MAE是依賴于比例尺的精度度量，因此應(yīng)該對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理，以使誤差在不同的時(shí)間序列中具有可比性。
Weight optimization
訓(xùn)練模型的目的是要找到使（1）中的成本函數(shù)最小的權(quán)重。一種標(biāo)準(zhǔn)的權(quán)重優(yōu)化基于梯度下降，其中，根據(jù)誤差函數(shù)的梯度來(lái)增量更新權(quán)重，

對(duì)于τ= 1，...，T，其中T是訓(xùn)練迭代的次數(shù)，η是學(xué)習(xí)率。因此，每次迭代τ都由一個(gè)正向運(yùn)行和一個(gè)向后遍歷組成，前者在其中計(jì)算預(yù)測(cè)矢量? x和相應(yīng)的誤差E(w(τ))，后者由梯度矢量?E(w(τ))計(jì)算。根據(jù)（2）計(jì)算關(guān)于每個(gè)權(quán)重的權(quán)重，并更新權(quán)重。梯度矢量是通過反向傳播計(jì)算的，相當(dāng)于從最終層中計(jì)算出的誤差函數(shù)迭代應(yīng)用鏈規(guī)則，直到獲得所需層權(quán)重的梯度為止：

在這里我們對(duì)感興趣權(quán)重發(fā)生的所有節(jié)點(diǎn)求和。選擇訓(xùn)練迭代的次數(shù)T以實(shí)現(xiàn)誤差的收斂。在這里，我們使用亞當(dāng)梯度下降法[15]，對(duì)權(quán)重進(jìn)行了稍微修改。該方法通過保持過去梯度和平方梯度的指數(shù)衰減平均值，并使用這些參數(shù)來(lái)更新參數(shù)，從而為每個(gè)參數(shù)計(jì)算自適應(yīng)學(xué)習(xí)率。自適應(yīng)學(xué)習(xí)率允許梯度下降更準(zhǔn)確地找到最小值。
Activation functions
在每一層中，我們使用非線性或激活函數(shù)來(lái)轉(zhuǎn)換卷積的輸出，從而允許模型學(xué)習(xí)數(shù)據(jù)的非線性表示。在我們的模型中，非線性采用定義為ReLU（x）：= max（x，0）的整流線性單位（ReLU）的形式，因此層l的輸出為

image.png

其中b∈R表示將輸入轉(zhuǎn)換為非線性的偏差，* d照常表示具有膨脹d的卷積，而表示具有濾波器，h=1,...的卷積的輸出。層l中的M1。與[23]中用于音頻生成的門控激活函數(shù)不同，在這里我們建議使用ReLU，因?yàn)楫?dāng)將其應(yīng)用于非平穩(wěn)，嘈雜的時(shí)間序列的預(yù)測(cè)時(shí)，它是最有效的。同時(shí)使用ReLU減少了訓(xùn)練時(shí)間，從而簡(jiǎn)化了模型。最后一層l = L，具有線性激活函數(shù)，隨后是1×1卷積，然后輸出時(shí)間序列的預(yù)測(cè)值? x = [? x（0），...，? x（N） ]。
當(dāng)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)時(shí)，使網(wǎng)絡(luò)無(wú)法學(xué)習(xí)最佳權(quán)重的問題之一就是消失/爆炸梯度[2] [8]。當(dāng)反向傳播通過鏈?zhǔn)揭?guī)則計(jì)算梯度時(shí)，當(dāng)激活函數(shù)的導(dǎo)數(shù)取小值或大值時(shí)，這些數(shù)字的乘積可導(dǎo)致初始層中權(quán)重的梯度分別消失或爆炸。這導(dǎo)致權(quán)重由于梯度太小而更新得太慢，或者由于梯度下降步幅太大而無(wú)法收斂到最小值。該問題的一種解決方案是以這種方式初始化卷積層的權(quán)重，使得無(wú)論是在網(wǎng)絡(luò)的正向傳播還是在反向傳播中，權(quán)重都不會(huì)分別減小或放大輸入信號(hào)和梯度的幅度。權(quán)重的正確初始化將使信號(hào)和梯度在整個(gè)層中的值范圍內(nèi)保持合理，從而在訓(xùn)練網(wǎng)絡(luò)時(shí)不會(huì)丟失任何信息。如[10]中所推導(dǎo)的，為了確保輸入的方差與輸出的方差相似，充分條件是

這導(dǎo)致零均值高斯分布，其標(biāo)準(zhǔn)偏差為，其中z是層中可訓(xùn)練參數(shù)的總數(shù)。換句話說，將ReLU單元的權(quán)重初始化為（對(duì)于τ= 0）為

當(dāng)時(shí)，層l中的濾波器數(shù)量乘以濾波器大小1×k
Residual learning
當(dāng)向網(wǎng)絡(luò)添加更多層時(shí)，標(biāo)準(zhǔn)反向傳播將無(wú)法找到最佳權(quán)重，從而導(dǎo)致更高的訓(xùn)練誤差。因此，這個(gè)問題稱為退化問題[11]，它不是由過度擬合引起的?？紤]一個(gè)具有少量層的淺層網(wǎng)絡(luò)，以及更深的對(duì)應(yīng)層。更深層次的模型不應(yīng)導(dǎo)致更高的訓(xùn)練誤差，因?yàn)榇嬖谝环N構(gòu)造上的解決方案：將添加的層中的所有權(quán)重設(shè)置為標(biāo)識(shí)映射。然而，在實(shí)踐中，梯度下降算法在學(xué)習(xí)身份映射時(shí)往往會(huì)遇到問題。解決此問題的建議方法是使用殘差連接[11]，該殘差迫使網(wǎng)絡(luò)逼近所需映射H（x）-x，而不是H（x），以便可以通過驅(qū)動(dòng)所有權(quán)重來(lái)學(xué)習(xí)身份映射。歸零。通過將權(quán)重驅(qū)動(dòng)為零來(lái)優(yōu)化殘差映射往往比學(xué)習(xí)身份更容易。殘余連接的實(shí)現(xiàn)方式是使用快捷連接，該連接跳過一個(gè)或多個(gè)層，因此可以不修改地添加到跳過層的輸出中。盡管實(shí)際上，最佳權(quán)重不太可能完全是身份映射，但是如果最佳功能比零映射更接近身份，則建議的殘差連接仍將幫助網(wǎng)絡(luò)學(xué)習(xí)更好的最佳權(quán)重。
類似于[23]，在我們的網(wǎng)絡(luò)中，我們?cè)趶妮斎氲骄矸e再到輸出的每個(gè)膨脹卷積之后添加一個(gè)殘差連接。在＞ 1的情況下，來(lái)自非線性的輸出在添加剩余連接之前經(jīng)過1×1卷積。這樣做是為了確保殘留連接和膨脹卷積的輸出都具有相同數(shù)量的通道。這使我們可以堆疊多個(gè)層，同時(shí)保留網(wǎng)絡(luò)正確映射初始層中學(xué)習(xí)到的依賴項(xiàng)的能力
Relation to discrete wavelet transform
網(wǎng)絡(luò)的結(jié)構(gòu)與離散小波變換（DWT）密切相關(guān)。小波分析可用于通過將具有不同比例（寬度）和位置的小波函數(shù)與該函數(shù)匹配，來(lái)了解給定函數(shù)如何從一個(gè)周期到下一個(gè)周期變化。 DWT是且的線性變換，通過將信號(hào)與高通和低通濾波器進(jìn)行卷積，將信號(hào)分解為高頻和低頻分量。特別是，在變換的每個(gè)級(jí)別j，輸入信號(hào)都被分解為小波，并且縮放系數(shù)和（也稱為近似值和細(xì)節(jié)），其中k = 0，... ，? 1，同時(shí)將輸入x與濾波器h和g進(jìn)行卷積

其中ψ（·）是小波，而φ（·）是縮放函數(shù)。在隨后的每個(gè)級(jí)別中，我們都將變換應(yīng)用于近似系數(shù)，以這種方式丟棄高頻分量（細(xì)節(jié)）并最終得到輸入信號(hào)的平滑版本。這與CNN的結(jié)構(gòu)非常相似，在CNN的每個(gè)后續(xù)層中，我們使用可學(xué)習(xí)的濾波器對(duì)來(lái)自上一層的輸入進(jìn)行卷積。在每一層中，過濾器用于識(shí)別數(shù)據(jù)中的局部依存關(guān)系，隨后將其組合以表示更多的全局特征，直到在最后一層中我們計(jì)算出感興趣的輸出為止。與DWT中的固定á優(yōu)先級(jí)相反，通過允許濾波器是可學(xué)習(xí)的，我們的目標(biāo)是通過以這種方式識(shí)別數(shù)據(jù)中的某些模式，從而找到使目標(biāo)函數(shù)（1）最小的濾波器權(quán)重。時(shí)間序列的準(zhǔn)確預(yù)測(cè)。
Conditioning
當(dāng)以另一個(gè)序列預(yù)測(cè)一個(gè)時(shí)間序列時(shí)，我們的目標(biāo)是最大化條件似然，

image.png

時(shí)間序列y的條件是通過計(jì)算卷積的激活函數(shù)來(lái)完成的，其中第一層的濾波器and 為

對(duì)于每個(gè)濾波器h = 1，...，。預(yù)測(cè)x(t + 1)時(shí)，網(wǎng)絡(luò)的接收?qǐng)霰仨殐H包含x（0），...，x（t）和y（0），...，y（t）。因此，類似于輸入，為保持因果關(guān)系，條件后會(huì)附加一個(gè)零值的矢量，大小為接收?qǐng)龅拇笮?。在[23]中，作者建議采用具有1×1的濾波器。給定較短的輸入窗口，這種類型的條件并不總是能夠捕獲時(shí)間序列之間的所有依賴關(guān)系。因此，我們使用1×k卷積，以較少的層數(shù)增加了學(xué)習(xí)正確依賴項(xiàng)的可能性。因此，網(wǎng)絡(luò)的接收域包含輸入和條件的k個(gè)元素
代替第一層中的剩余連接，我們從輸入以及條件到膨脹卷積的結(jié)果中添加由1×1卷積參數(shù)化的跳過連接。通過使用來(lái)自每個(gè)單獨(dú)條件的M個(gè)擴(kuò)張卷積并將它們與輸入相加，可以輕松地將條件擴(kuò)展為多元M×N時(shí)間序列。跳過連接的參數(shù)化確保我們的模型能夠正確提取預(yù)測(cè)與輸入和條件之間的必要關(guān)系。具體而言，如果特定條件不能改善預(yù)測(cè)，則模型可以簡(jiǎn)單地通過將參數(shù)化跳過連接（即1×1卷積）中的權(quán)重設(shè)置為零來(lái)簡(jiǎn)單地學(xué)習(xí)舍棄該條件。這使條件能夠以區(qū)分方式增強(qiáng)預(yù)測(cè)。如果濾波器的數(shù)量filers大于1，則參數(shù)化的跳過連接將使用與filers的1×1卷積，從而使跳過連接與原始卷積之和有效。網(wǎng)絡(luò)結(jié)構(gòu)如圖2.3所示。

圖2.3

圖2.3：網(wǎng)絡(luò)結(jié)構(gòu)。在第一層（L）中，對(duì)輸入和條件（具有零填充）進(jìn)行卷積，通過非線性傳遞并與參數(shù)化的跳過連接求和。來(lái)自該第一層的結(jié)果是后續(xù)擴(kuò)張的卷積層中的輸入，并且從卷積的輸入到輸出都有剩余連接。對(duì)其他層重復(fù)此操作，直到獲得層L（M）的輸出。該輸出通過1×1卷積傳遞，得到最終輸出：預(yù)測(cè)的時(shí)間序列（R）。
備注2（學(xué)習(xí)非線性依賴性的能力）。我們?cè)谶@里對(duì)模型學(xué)習(xí)時(shí)間序列內(nèi)部和之間的非線性相關(guān)性的能力進(jìn)行評(píng)論。前饋神經(jīng)網(wǎng)絡(luò)需要至少一個(gè)具有足夠大量隱藏單元的隱藏層，以便近似非線性函數(shù)[13]。如果在CNN中將濾波器寬度設(shè)置為1，則模型學(xué)習(xí)非線性相關(guān)性的必要條件將是> 1，因?yàn)樵谶@種情況下，濾波器的作用類似于隱藏單元的作用。替代地，在CNN中學(xué)習(xí)非線性要求同時(shí)使用濾波器寬度和大于一層的層數(shù)。每一層實(shí)質(zhì)上是計(jì)算一個(gè)點(diǎn)積和前一層中幾個(gè)輸出的非線性變換之和。該輸出又是輸入和條件的組合，并且隱藏單元的作用通過濾波器寬度上的總和來(lái)發(fā)揮，從而允許在時(shí)間序列中和時(shí)間序列之間學(xué)習(xí)非線性關(guān)系。

討論與結(jié)論在本文中，我們介紹并分析了基于卷積神經(jīng)網(wǎng)絡(luò)WaveNet架構(gòu)[23]的條件時(shí)間序列預(yù)測(cè)方法的性能。該網(wǎng)絡(luò)利用了應(yīng)用于輸入和多種條件的膨脹卷積層，從而了解了數(shù)據(jù)中以及數(shù)據(jù)之間的趨勢(shì)和關(guān)系。我們分析了WaveNet模型在各種時(shí)間序列上的性能，并將其與時(shí)間序列預(yù)測(cè)的最新技術(shù)，LSTM模型和線性自回歸模型進(jìn)行了比較。我們得出結(jié)論，即使時(shí)間序列預(yù)測(cè)仍然是一項(xiàng)復(fù)雜的任務(wù)，并且很難找到一個(gè)適合所有人的模型，但我們已經(jīng)證明，WaveNet是一個(gè)簡(jiǎn)單，高效且易于解釋的網(wǎng)絡(luò)，可以作為預(yù)測(cè)的強(qiáng)大基準(zhǔn)。盡管如此，仍有改進(jìn)的空間。提高CNN學(xué)習(xí)非線性依賴性的能力的一種方法是使用大量的層和濾波器。從圖3.3中我們可以看到，在學(xué)習(xí)非線性（需要大量的層和濾波器）的能力與過度擬合之間存在權(quán)衡的問題，因?yàn)榇罅康膶訒?huì)導(dǎo)致較大的接受度字段和許多參數(shù)。通過使用自回歸模型和CNN的組合，在[3]中也解決了內(nèi)存需求和非線性之間不平衡的問題。解決此問題的另一種方法可能是將參數(shù)化的跳過連接與自適應(yīng)濾波器結(jié)合使用，并將在我們的進(jìn)一步工作中進(jìn)行研究。此外，WaveNet模型被證明是LSTM模型的強(qiáng)大競(jìng)爭(zhēng)者，尤其是在考慮訓(xùn)練時(shí)間時(shí)。盡管在相對(duì)較短的時(shí)間序列上，與訓(xùn)練時(shí)間相比，預(yù)測(cè)時(shí)間可以忽略不計(jì)，但對(duì)于較長(zhǎng)的時(shí)間序列，可以通過實(shí)施利用網(wǎng)絡(luò)存儲(chǔ)結(jié)構(gòu)的最新變體來(lái)加快自回歸模型的預(yù)測(cè)，請(qǐng)參見[21]。 ]或通過在頻域中進(jìn)行傅里葉變換來(lái)加快卷積，如[19]，[22]中所述。最后，眾所周知，數(shù)據(jù)點(diǎn)之間的相關(guān)性在日內(nèi)基礎(chǔ)上更強(qiáng)。因此，可能有必要在日間數(shù)據(jù)上測(cè)試模型，以查看該模型學(xué)習(xí)長(zhǎng)期依賴項(xiàng)的能力在這種情況下是否更有價(jià)值

文獻(xiàn)綜述

[1] A. Aussem and F. Murtagh, Combining neural network forecasts on wavelet-transformed time series,Connection Science, 9 (1997), pp. 113–122.
[1] A. Aussem和F. Murtagh，結(jié)合小波變換時(shí)間序列的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)，Connection Science，9（1997），第113-122頁(yè)。
[2] Y. Bengio, P. Simard, and P. Frasconi, Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 5 (1994).
[3] M. Binkowski, G. Marti, and P. Donnat, Autoregressive convolutional neural networks for asyn-chronous time series, ICML 2017 Time Series Workshop, (2017).
[4] K. Chakraborty, K. Mehrotra, C. K. Mohan, and S. Ranka, Forecasting the Behavior of Multivariate Time Series using Neural Networks, Neural networks, 5 (1992), pp. 961–970.
[5] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, (2014).
[6] R. Cont, Empirical properties of asset returns: Stylized facts and statistical issues, (2001).
[7] T. Fisher and C. Krauss, Deep learning with Long Short-Term Memory networks for financial market predictions, F AU Discussion papers in Economics, (2017).
[8] X. Glorot and Y. Bengio, Understanding the Difficulty of Training Deep Feedforward Neural Net-works, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, (2010).
[9] J. D. Hamilton, Time series analysis, vol. 2, Princeton university press Princeton, 1994.
[10] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level per-formance on imagenet classification, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034.
[11] , Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[12] S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural computation, 9 (1997),pp. 1735–1780.
[13] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural networks, 4 (1991),pp. 251–257.
[14] D. Hsu, Time series forecasting based on augmented Long Short-Term Memory, arXiv preprint arXiv:1707.00666, (2017).
[15] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980,(2014).
[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, (2012), pp. 1097–1105.
[17] S. Lahmiri, Wavelet low- and high- frequency components as features for predicting stock prices with backpropagation neural networks, Journal of King Saud University - Computer and Information Sciences,26 (2014), pp. 218–227.
[2] Y. Bengio，P。Simard和P. Frasconi，用梯度下降學(xué)習(xí)長(zhǎng)期依賴性很困難，IEEE Transactions on Neural Networks，5（1994）。
[3] M. Binkowski，G。Marti和P. Donnat，異步時(shí)間序列的自回歸卷積神經(jīng)網(wǎng)絡(luò)，ICML 2017時(shí)間序列研討會(huì)，（2017年）。
[4] K. Chakraborty，K。Mehrotra，C。K. Mohan和S. Ranka，《使用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)多元時(shí)間序列的行為》，《神經(jīng)網(wǎng)絡(luò)》，第5期（1992年），第961–970頁(yè)。
[5] J. Chung，C。Gulcehre，K。Cho和Y. Bengio，門控循環(huán)神經(jīng)網(wǎng)絡(luò)在序列建模上的經(jīng)驗(yàn)評(píng)估，arXiv預(yù)印本arXiv：1412.3555，（2014年）。
[6] R. Cont，資產(chǎn)收益的經(jīng)驗(yàn)性質(zhì)：程式化的事實(shí)和統(tǒng)計(jì)問題，（2001年）。
[7] T. Fisher和C. Krauss，《用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)進(jìn)行金融市場(chǎng)預(yù)測(cè)》，《非盟經(jīng)濟(jì)學(xué)討論》，（2017年）。
[8] X. Glorot和Y. Bengio，“理解深度前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度”，第13屆人工智能與統(tǒng)計(jì)國(guó)際會(huì)議論文集，（2010年）。
[9] J. D. Hamilton，時(shí)間序列分析，第一卷。 2，普林斯頓大學(xué)出版社，普林斯頓，1994年。
[10] K. He，X。Zhang，S。Ren和J. Sun，深入研究整流器：在IEEE國(guó)際會(huì)議論文集上超越了人類在圖像網(wǎng)絡(luò)分類方面的性能。計(jì)算機(jī)視覺，2015年，第1026至1034頁(yè)。
[11]，用于圖像識(shí)別的深度殘差學(xué)習(xí)，在IEEE計(jì)算機(jī)視覺和模式識(shí)別會(huì)議論文集，2016年，第770–778頁(yè)。
[12] S. Hochreiter和J. Schmidhuber，《長(zhǎng)短期記憶，神經(jīng)計(jì)算》，第9期，1997年，第1735-1780頁(yè)。
[13] K. Hornik，多層前饋網(wǎng)絡(luò)的逼近能力，神經(jīng)網(wǎng)絡(luò)，第4期（1991），第251-257頁(yè)。
[14] D. Hsu，基于增強(qiáng)的長(zhǎng)期短期記憶的時(shí)間序列預(yù)測(cè)，arXiv預(yù)印本arXiv：1707.00666，（2017年）。
[15] D. Kingma和J. Ba，亞當(dāng)：一種隨機(jī)優(yōu)化方法，arXiv預(yù)印本arXiv：1412.6980，（2014年）。
[16] A. Krizhevsky，I。Sutskever和G. E. Hinton，《深度卷積神經(jīng)網(wǎng)絡(luò)的ImageNet分類》，神經(jīng)信息處理系統(tǒng)進(jìn)展25，（2012年），第1097-1105頁(yè)。
[17] S. Lahmiri，“小波低頻和高頻分量作為利用反向傳播神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)股票價(jià)格的特征”，《沙特國(guó)王大學(xué)學(xué)報(bào)-計(jì)算機(jī)與信息科學(xué)》，第26卷（2014年），第218-227頁(yè)。
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[19] M. Mathieu, M. Henaff, and Y. LeCun, Fast training of convolutional networks through FFTs,ArXiv e-prints, (2013).
[20] R. Mittelman, Time-series modeling with undecimated fully convolutional neural networks, arXiv preprint arXiv:1508.00317, (2015).
[21] P. Ramachandran, T. L. Paine, P. Khorrami, M. Babaeizadeh, S. Chang, Y. Zhang, M. A.Hasegawa-Johnson, R. H. Campbell, and T. S. Huang, Fast generation for convolutional autore-gressive models, arXiv preprint arXiv:1704.06001, (2017).
[22] O. Rippel, J. Snoek, and R. P. Adams, Spectral representations for convolutional neural networks,NIPS15 Proceedings of the 28th International Conference on Neural Information Processing Systems,(2015), pp. 2449–2457.
[23] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalch-brenner, A. Senior, and K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, ArXiv e-prints, (2016).
[24] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, Pixel Recurrent Neural Networks,CoRR, abs/1601.06759 (2016).
[25] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and
K. Kavukcuoglu, Conditional Image Generation with PixelCNN Decoders, CoRR, abs/1606.05328 (2016).
[26] Z. W ang, W. Yan, and T. Oates, Time Series Classification from Scratch with Deep Neural Net-works: A Strong Baseline, CoRR, abs/1611.06455 (2016).
[27] F. Yu and V. Koltun, Multi-Scale Context Aggregation by Dilated Convolutions, ArXiv e-prints,(2015).
[28] G. Zhang, B. E. Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art, International journal of forecasting, 14 (1998), pp. 35–62.
[29] G. P. Zhang, Time series forecasting using a hybrid ARIMA and neural network model, Neurocom-puting, 50 (2003), pp. 159–175.
[30] Y. Zheng, Q. Liu, E. Chen, Y. Ge, and J. Zhao, Exploiting Multi-Channels Deep Convolutional Neural Networks for Multivariate Time Series Classification, Front. Comput. Sci., 10 (2016), pp. 96–112.
[18] Y. LeCun，L。Bottou，Y。Bengio和P. Haffner，基于梯度的學(xué)習(xí)應(yīng)用于文檔識(shí)別，IEEE，86（1998），pp。2278-2324。
[19] M. Mathieu，M。Henaff和Y. LeCun，通過FFT快速訓(xùn)練卷積網(wǎng)絡(luò)，ArXiv電子版，（2013年）。
[20] R. Mittelman，使用未抽取的全卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)間序列建模，arXiv預(yù)印本arXiv：1508.00317，（2015年）。
[21] P. Ramachandran，TL Paine，P。Khorrami，M。Babaeizadeh，S。Chang，Y。Zhang，MA Hasegawa-Johnson，RH Campbell和TS Huang，卷積自回歸模型的快速生成，arXiv預(yù)印本arXiv：1704.06001 ，（2017年）。
[22] O. Rippel，J。Snoek和R. P. Adams，卷積神經(jīng)網(wǎng)絡(luò)的頻譜表示，第28屆國(guó)際神經(jīng)信息處理系統(tǒng)會(huì)議NIPS15論文集，（2015年），第2449-2457頁(yè)。
[23] A. van den Oord，S。Dieleman，H。Zen，K。Simonyan，O。Vinyals，A。Graves，N。Kalchbrenner，A。Senior和K. Kavukcuoglu，WaveNet：原始音頻的生成模型，ArXiv電子版，（2016年）。
[24] A. van den Oord，N。Kalchbrenner和K. Kavukcuoglu，像素遞歸神經(jīng)網(wǎng)絡(luò)，CoRR，abs / 1601.06759（2016）。
[25] A. van den Oord，N。Kalchbrenner，O。Vinyals，L。Espeholt，A。Graves和K. Kavukcuoglu，《使用PixelCNN解碼器的條件圖像生成》，CoRR，abs / 1606.05328（2016年）。
[26] Z. Wang，W。Yan和T. Oates，《使用深度神經(jīng)網(wǎng)絡(luò)從頭開始的時(shí)間序列分類：強(qiáng)大的基線》，CoRR，abs / 1611.06455（2016）。
[27] F. Yu和V. Koltun，通過膨脹卷積進(jìn)行多尺度上下文聚合，ArXiv電子版，（2015年）。
[28] G. Zhang，B。E. Patuwo和M. Y. Hu，《使用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)：最新技術(shù)》，國(guó)際預(yù)測(cè)雜志，第14期（1998年），第35-62頁(yè)。
[29] G. P. Zhang，使用混合ARIMA和神經(jīng)網(wǎng)絡(luò)模型進(jìn)行時(shí)間序列預(yù)測(cè)，Neurocomputing，50（2003年），第159-175頁(yè)。
[30]鄭Y，劉Q，陳鄂，葛Y，趙J，為多變量時(shí)間序列分類開發(fā)多通道深度卷積神經(jīng)網(wǎng)絡(luò)，前面。計(jì)算Sci。，10（2016），第96–112頁(yè)。

下面就是我閱讀論文后對(duì)論文的理解

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

20-4-4論文閱讀：Conditional time series forecasting with convolutional neural networks

20-4-4論文閱讀：Conditional time series forecasting with convolutional neural networks

卷積神經(jīng)網(wǎng)絡(luò)的條件時(shí)間序列預(yù)測(cè)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

20-4-4論文閱讀：Conditional time series forecasting with convolutional neural networks

卷積神經(jīng)網(wǎng)絡(luò)的條件時(shí)間序列預(yù)測(cè)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av