競賽2-阿里天池-KDD高速公路之車流量預(yù)測

排名42/3574--Loss 0.1676
賽題描述
https://tianchi.aliyun.com/competition/information.htm?spm=5176.100067.5678.2.Ei7xDI&raceId=231597
這次比賽分兩個小比賽,一個是時間預(yù)測,一個是流量預(yù)測,我只參加了流量預(yù)測,所以以下都只針對流量預(yù)測來說。
比賽分為兩個階段,第一階段給出9月18到10月17的每20分鐘時間窗的車流信息、天氣、道路拓撲結(jié)構(gòu),和前序2小時的車流量,預(yù)測接下來一周早高峰8-10點和晚高峰17-19點每20分鐘的車流量。共有3個收費站,1,3可進可出,2只進不出,所以分為了5個方向都要分別預(yù)測。第二階段是增加了10月18到10月25的信息,和接下來一周6-8,15-17的車流信息,以此來預(yù)測在接下來一周的響應(yīng)時間的車流量。
評價指標是相對誤差。

</br>
自己的思路 -- 排名42/3574--Loss 0.1676
暫時未找到前幾名的開源,就先寫一下我們隊自己的思路吧。
還是和@lyq組隊,在倒數(shù)第二次提交時loss降到了0.1676,因為lyq犯蠢最后一次提交修改的沒存到最后,所以提交了和倒數(shù)第二次一樣的文件,浪費了最后一次前進幾名的機會。
吸取了之前口碑競賽的經(jīng)驗教訓(xùn),我們一上來就確定了大方向:去掉節(jié)假日信息、按照不同分布分情況建模。
根據(jù)可視化觀察,把車型分成1、2和其余車型這三類。數(shù)據(jù)清洗的目標是把車流量分別按這三類車型整理成(324n,5)的矩陣,n是天數(shù),5是方向數(shù)。 在第一階段的訓(xùn)練集中,去掉十一假期和前后一天,還剩20天的數(shù)據(jù)。
我們將車流量分成了三部分:每天不同時段造成的周期性+相對星期幾+天氣影響。注意因為十一假期調(diào)休相對星期幾和實際星期幾可能不同。周期性就用 sm.tsa.seasonal_decompose分解時間序列得到。因為數(shù)據(jù)量少,為了防止過擬合,相對星期幾和天氣都用簡單的線性模型。權(quán)重由數(shù)據(jù)減去了周期性的殘差計算得到。
在原來影響車流量的三個因素之外還要再加一個因素:前序時間對車流的影響,這描述了當(dāng)天的一些突發(fā)事件。對于前兩小時的影響,我們認為越接近要預(yù)測的時段的流量對于流量的影響權(quán)重越大。配合離線調(diào)優(yōu)和可視化觀察,我們適當(dāng)增大了前一小時的影響,得到了最終結(jié)果。

第28名題解

https://github.com/search?q=KDD2017
KNN,XgBoost,MedianModel, LightGBM, Box-Cox變換

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容