Hetero-ConvLSTM: A Deep Learning Approach to Traffic
Accident Prediction on Heterogeneous Spatio-Temporal Data****(****KDD2018****)
Author: Zhuoning Yuan, Xun Zhou, Tianbao Yang
中文提示:交通事故預(yù)測(cè)
摘要:
預(yù)測(cè)交通事故是改善交通和公共安全以及安全路線的關(guān)鍵問題。由于空間和時(shí)間事故的稀疏性以及環(huán)境的空間異質(zhì)性(例如,城市與農(nóng)村),這個(gè)問題具有挑戰(zhàn)性。 大多數(shù)先前由領(lǐng)域研究人員進(jìn)行的交通事故預(yù)測(cè)研究只是在有限數(shù)據(jù)上應(yīng)用經(jīng)典預(yù)測(cè)模型,而沒有恰當(dāng)?shù)亟鉀Q上述挑戰(zhàn),從而導(dǎo)致性能并不令人滿意。 最近的一些小型作品試圖將深度學(xué)習(xí)用于交通事故預(yù)測(cè)。 然而,他們要么忽略時(shí)間信息,要么僅使用來自小而均勻的研究區(qū)域(城市)的數(shù)據(jù),沒有同時(shí)正確處理空間異質(zhì)性和時(shí)間自相關(guān)。
在本文中,我們使用卷積長短期記憶(ConvLSTM)神經(jīng)網(wǎng)絡(luò)模型對(duì)交通事故預(yù)測(cè)問題進(jìn)行了全面研究。8年來,愛荷華州的大型數(shù)據(jù)集中提取了許多詳細(xì)的功能,如天氣,環(huán)境,道路狀況和交通量。為了解決數(shù)據(jù)中的空間異質(zhì)性挑戰(zhàn),我們提出了一個(gè)Hetero-ConvLSTM框架,其中在基本的ConvLSTM模型之上實(shí)現(xiàn)了一些新穎的想法,例如合并空間圖特征和空間模型集合。 對(duì)整個(gè)愛荷華州的8年數(shù)據(jù)進(jìn)行的大量實(shí)驗(yàn)表明,提出的框架可以做出相當(dāng)準(zhǔn)確的預(yù)測(cè),并顯著提高基線方法的預(yù)測(cè)準(zhǔn)確性。
為了解決數(shù)據(jù)中的空間異質(zhì)性挑戰(zhàn),我們提出了一個(gè)Hetero-ConvLSTM框架,其中在基本的ConvLSTM模型之上實(shí)現(xiàn)了一些新穎的想法,例如合并空間圖特征和空間模型集成。
事故發(fā)生原因多:
隨機(jī)因素+常見因素
環(huán)境因素
燈光照明因素
天氣
人為環(huán)境:當(dāng)前車流量, 當(dāng)前車速
道路結(jié)構(gòu) 彎曲程度 車道數(shù)
駕駛?cè)艘蛩兀?/p>
駕駛?cè)似?、分?/p>
駕駛車速過快
汽車拋錨
城鎮(zhèn)影響因素不同。 往年的工作沒有考慮空間異質(zhì)性和時(shí)間自相關(guān),或使用傳統(tǒng)的回歸方法。 事故多發(fā)地:Interasection 交叉路口。 大橋、河流 道路彎曲度高
研究方法:
將一個(gè)州分成網(wǎng)格狀
將車流量、道路狀況、降水量、溫度、衛(wèi)星地圖收集起來并匹配到網(wǎng)格中去。
給定交通事故的次數(shù)和其他城市或環(huán)境的特征,我們預(yù)測(cè)未來時(shí)隙中網(wǎng)格中發(fā)生交通事故的次數(shù)。
空間深度學(xué)習(xí)——ConvLSTM
卷積 LSTM
使用數(shù)據(jù)
1 2006-2013 8年的摩托車碰撞數(shù)據(jù) 道路情況
2 高分辨率的降水量數(shù)據(jù) 4km范圍每小時(shí)的降水量 8026瓦?
3 高速(主干道)天氣信息系統(tǒng) 溫度和風(fēng)速風(fēng)向
4 路網(wǎng)結(jié)構(gòu) 包括年日均交通量(AADT)
5 衛(wèi)星圖數(shù)據(jù) 從Google Earth獲取
6 交通快照數(shù)據(jù) 記錄路口每個(gè)地方的雙向車流量
方法:
劃分網(wǎng)格 5km*5km 1天一個(gè)時(shí)隙 用前t-1天預(yù)測(cè)第t天的
Laplacian eigenmaps and spectral techniques for embedding and clustering
拉普拉斯矩陣:https://blog.csdn.net/v_JULY_v/article/details/40738211
S 空間劃分 T 時(shí)間劃分
C(s,t)發(fā)生次數(shù)(標(biāo)簽) F(s,t)特征
特征提取:
時(shí)不變特征:
路網(wǎng)mask 把道路分割出來置為1
道路狀態(tài)特征 交叉路口的數(shù)量、車道數(shù)、道路功能、道路彎曲、AADT 年日均交通量
谷歌衛(wèi)星圖
時(shí)變特征:
1. 降水量 4km
2. 天氣 溫度(對(duì)附近k站點(diǎn)求均值,將一天中的均值作為結(jié)果)、風(fēng)速、風(fēng)向(?)、露點(diǎn)
3. 車流量:對(duì)于每個(gè)grid網(wǎng)格,偵測(cè)3個(gè)最近的camera統(tǒng)計(jì)數(shù)據(jù),記錄每小時(shí)網(wǎng)格路段中的流量
4. 日期數(shù)據(jù)包括:日/年 日/周 月 季度 是否節(jié)日
空間圖特征
人口密度不同所產(chǎn)生的交通事故分布不同
G(V,E) 頂點(diǎn)和邊 拉普拉斯矩陣
L=D-W(D為圖的度矩陣,W是圖的鄰接(邊與邊的鄰接關(guān)系,0為斷開,1為連著)矩陣)
先寫出W 然后把每列元素加起來放在對(duì)角線成為D
L=D-W****得到拉普拉斯矩陣。
對(duì)L進(jìn)行特征值分解,分解到對(duì)應(yīng)的特征向量 令V為特征向量m*K(k個(gè)重要特征,這里k=10)用每行的V去生成一個(gè)新的特征,對(duì)應(yīng)于每個(gè)路段,表征道路的拓?fù)浣Y(jié)構(gòu)。
其過程和譜聚類相似。
對(duì)于每個(gè)網(wǎng)格中有多個(gè)路段的,使用最長的路段作為其特征表示,這種近似是合理的,因?yàn)橥痪W(wǎng)格單元中的路段通常是連接的,并且往往具有非常相似的空間圖形特征。這里是10個(gè)時(shí)不變的空間圖特征。
此處該特征具有一定的語義信息。
特征值分析
卷積LSTM
Input-to-state state-to-state transitions
ConvLSTM單元的輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)換包含輸出三維張量的卷積運(yùn)算。
雖然我們結(jié)合了第4.3節(jié)中詳述的SpatialGraph功能,但由于環(huán)境條件的變化,模型精度可能會(huì)受到影響。 同時(shí)訓(xùn)練單個(gè)大型ConvLSTM模型可能需要過多的時(shí)間。
使用滑動(dòng)窗口解決 不同參數(shù)的窗口學(xué)習(xí)網(wǎng)絡(luò)模型
一個(gè)單獨(dú)的cell


提出了Hetero-ConvLSTM框架。首先,我們使用移動(dòng)窗口獲取研究區(qū)域中子區(qū)域的數(shù)據(jù),并為每個(gè)具有不同參數(shù)的窗口學(xué)習(xí)ConvLSTM網(wǎng)絡(luò)模型。 選擇窗口的大小使得可以在合理的時(shí)間內(nèi)訓(xùn)練模型,同時(shí)該區(qū)域仍然足夠大以包括足夠的訓(xùn)練樣本。 在我們的例子中,我們選擇一個(gè)大小為32×32的區(qū)域。
對(duì)于每一個(gè)區(qū)域的窗口,我們建立一ConvLSTM模型。4層 ConvLSTM 每一層有128個(gè)濾波器(核)來抽取特征。
兩層之間使用BN(批歸一化層)加速訓(xùn)練過程。對(duì)于逐點(diǎn)預(yù)測(cè),我們串聯(lián)所有輸出并讓他們變成1*1的前向卷積層來為每一步時(shí)間t生成二維的映射。
用滑動(dòng)窗去訓(xùn)練模型每個(gè)窗口為32*32,滑動(dòng)步長為16,所以每次都有50%的覆蓋。最后采用加權(quán)的方法去結(jié)合。 而每個(gè)區(qū)域Si的prediction值可以由這塊區(qū)域所被覆蓋的window加權(quán)得到,這個(gè)權(quán)重可以由線性回歸去學(xué)習(xí)得到。
實(shí)驗(yàn)部分:
用過去7天的數(shù)據(jù)去預(yù)測(cè)后7天的交通事故數(shù)量。
14幀,7幀訓(xùn)練,7幀測(cè)試。前面2006-2012為訓(xùn)練集,2013作為測(cè)試集。 訓(xùn)練集中10%作為驗(yàn)證集。
Metric:MSE CE(交叉熵) RMSE
對(duì)于每一個(gè)region,我們每次都添加1-2個(gè)特征組并且去計(jì)算MSE、CE、RMSE。
Urban區(qū)域:RN V RC CL 可以帶來誤差降低;
E 空間圖特征影響弱 可能異質(zhì)性較低
RA(rainfall) RW(road weather,wind speed/temperature)E 降低誤差
Cross-k 函數(shù)是 兩種對(duì)象空間的聚類傾向的度量
創(chuàng)新點(diǎn):
首次利用空間的多源數(shù)據(jù)、使用深度學(xué)習(xí)模型去預(yù)測(cè) 空間異質(zhì)數(shù)據(jù)
將城鎮(zhèn)結(jié)合起來,預(yù)測(cè)整體的下一時(shí)段的危險(xiǎn)圖,預(yù)測(cè)結(jié)果是次數(shù)。
用模型融合的方式結(jié)合若干模型,其中使用滑動(dòng)窗的方法,通過線性回歸得到滑動(dòng)窗所占的權(quán)重,一個(gè)區(qū)域s由多個(gè)滑動(dòng)窗覆蓋,最終由其覆蓋的幾個(gè)滑動(dòng)窗加權(quán)得到結(jié)果。
對(duì)不同的參數(shù)設(shè)置、特征集等進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)鄉(xiāng)村事故發(fā)生往往和天氣和空間圖特征有關(guān),城市往往和道路情況、交通流量、節(jié)假日信息有關(guān)。
使用空間圖,引入拉普拉斯矩陣和特征值分析的方法,對(duì)路網(wǎng)中各個(gè)部分的圖特征進(jìn)行提取,使得其具有空間語義特征。