
《基于雷達(dá)圖像的短期降水預(yù)報》是由ACM頂級數(shù)據(jù)挖掘會議CIKM舉辦的數(shù)據(jù)科學(xué)競賽。CIKM 2017以“智慧城市,智慧型國家”為主題,通過人工智能同各學(xué)科領(lǐng)域的交叉研究,通過技術(shù)手段有效管理城市。
本次 CIKM AnalytiCup 2017 由深圳氣象局與阿里巴巴聯(lián)合承辦,旨在提升基于雷達(dá)回波外推數(shù)據(jù)的短期降水預(yù)報的準(zhǔn)確性。比賽共吸引了來自全球1395個團(tuán)隊,來自清華大學(xué)的Marmot團(tuán)隊(姚易辰,李中杰)在比賽中脫穎而出,在復(fù)賽中以絕對優(yōu)勢排名第一。本文摘錄了他們團(tuán)隊解題方案的核心思路予以展示。
比賽官網(wǎng):阿里天池大數(shù)據(jù)平臺
完整解題方案及代碼:https://github.com/yaoyichen/CIKM-Cup-2017

賽題目標(biāo)
賽題提供10,000組的雷達(dá)圖像樣本。每組樣本包含60幅圖像,為過去90分鐘內(nèi)(間隔6 min,共15幀),分布在4個高度(0.5km, 1.5km, 2.5km, 3.5km)上的雷達(dá)反射率圖像。
-
每張雷達(dá)圖像大小為[101,101],對應(yīng)的空間覆蓋范圍為101×101km。每個網(wǎng)格點(diǎn)記錄的是雷達(dá)反射率因子值Z。反射率因子,表征氣象目標(biāo)對雷達(dá)波后向散射能力的強(qiáng)弱,散射強(qiáng)度一定程度上反映了氣象目標(biāo)內(nèi)部降水粒子的尺度和數(shù)密度,進(jìn)而推測其與降水量之間的聯(lián)系。
-
目標(biāo):利用各個雷達(dá)站點(diǎn)在不同高度上的雷達(dá)歷史圖像序列,預(yù)測圖像中心位于[50,50]坐標(biāo)位置的目標(biāo)站點(diǎn)未來1-2小時之間的地面總降水量,損失函數(shù)為降水量預(yù)測值與真實(shí)值的均方誤差。
算法架構(gòu)
本次比賽的特點(diǎn)在于時空序列的預(yù)測,即給出了目標(biāo)站點(diǎn)周圍一定空間范圍的歷史信息,需要預(yù)測在站點(diǎn)坐標(biāo)上未來的降水走勢,因而搭建時空之間的關(guān)聯(lián)特性為解決問題的重中之重。同時有別于一般的計算機(jī)視覺問題,此次比賽提供的氣象圖像,其沿著時空方向的演化規(guī)律會滿足一定的守恒律及連續(xù)性限制,發(fā)現(xiàn)物理問題的特殊性并尋找對應(yīng)的表征量也是解決問題的關(guān)鍵。
解決方案的流程分為前處理,特征提取,模型訓(xùn)練三個部分。前處理步驟中,完成局部圖像的拼接,并通過SIFT描述子尋找時間方向的對應(yīng)關(guān)系,獲得云團(tuán)運(yùn)動的軌跡。特征描述中,將問題的特征歸納為3部分,分別為時間空間方向的矢量描述,云團(tuán)形狀的統(tǒng)計描述,及由云團(tuán)軌跡外推得到目標(biāo)站點(diǎn)的雷達(dá)反射率的空間圖像描述。模型訓(xùn)練主模型采用了卷積神經(jīng)網(wǎng)絡(luò)CNN,圖像部分采用2層卷積池化,隨后將向量拉平到一維,即在全連接層與其余非圖像類特征合并,共同輸入到2個隱藏層的神經(jīng)網(wǎng)絡(luò)中。

圖像拼接
賽題給出的局部雷達(dá)圖像,樣本與樣本之間并不完全獨(dú)立,圖像樣本之間存在一定的重疊,可以通過模板匹配的方式尋找樣本之間的坐標(biāo)關(guān)聯(lián)特性。通過樣本之間的局部圖像拼接,能夠?qū)⒁幌盗行》秶木植坷走_(dá)圖像恢復(fù)到空間更大范圍的雷達(dá)圖像,進(jìn)而獲得關(guān)于云團(tuán)更加整體的特性。通過局部圖像的拼接,能夠獲得如下兩方面效果:
- 為目標(biāo)站點(diǎn)的時空軌跡追蹤提供更大的空間延伸量。目標(biāo)站點(diǎn)附近更大的空間圖像范圍,能夠?qū)?yīng)更長的時間外推量
- 獲得云團(tuán)整體的結(jié)構(gòu),方便從更為宏觀的視角提取特征描述云團(tuán)形態(tài)


????圖像拼接后瞬時流場圖中,能看到顯著的對流特性。即在空間某個固定坐標(biāo)點(diǎn)上,由湍流脈動引起的反射率改變量要遠(yuǎn)小于大氣對流運(yùn)動產(chǎn)生的反射率變化量。我們也會著重利用這一特性,利用SIFT算子在時間方向的匹配,尋找每個空間點(diǎn)上對流速度矢量。
軌跡追蹤
根據(jù)流體力學(xué)中的泰勒凍結(jié)假設(shè)(Taylor Frozen Hypothesis),認(rèn)為流場中存在顯著的時空關(guān)聯(lián)特性。其認(rèn)為雷達(dá)反射圖,云團(tuán)在短時間內(nèi)趨向于在空間以當(dāng)?shù)仄骄鶎α魉俣绕揭?/strong>,短時間內(nèi)并不會發(fā)生外形或者反射強(qiáng)度的劇烈改變。即監(jiān)測點(diǎn)x 處在未來τ 時刻后的雷達(dá)信號f,能夠通過平均對流速度U,從當(dāng)前時刻t 位于坐標(biāo)的x-Uτ 的信號中體現(xiàn):

為了尋找每個空間坐標(biāo)對應(yīng)的對流速度U, 可以通過SIFT描述子在一定時間間隔內(nèi),在空間坐標(biāo)上的匹配,尋找相同關(guān)鍵點(diǎn)在較短時間間隔δt 內(nèi)像素的平移量δx,即得到空間每個位置處的對流速度。

下圖給出了相鄰兩幀圖像上,SIFT描述子及相應(yīng)的空間匹配關(guān)系。其中圓圈大小對應(yīng)了關(guān)鍵點(diǎn)的特征尺度,圓圈中的刻度方向表征其主方向。兩幀圖像的匹配連線基本平行,即全場以一個近似相同的速度作對流運(yùn)動。

特征提取
特征包含時間外插反射率圖像,時間空間的矢量,云團(tuán)形狀的統(tǒng)計描述三部分。
時間外插反射率圖像:由上述的圖像拼接及軌跡追蹤后,已經(jīng)能夠定位出全場的速度矢量見下圖。以泰勒凍結(jié)假設(shè)和關(guān)鍵點(diǎn)匹配追蹤到未來1.5個小時流場速度矢量后,能夠外插未來每個坐標(biāo)點(diǎn)的運(yùn)動軌跡,即能夠推測出未來位于目標(biāo)站點(diǎn)上方的云團(tuán),在當(dāng)前時刻雷達(dá)圖像上的空間坐標(biāo)。 圖中白色圓圈坐標(biāo)點(diǎn)的云團(tuán),會在1.5小時由圖中對流矢量的作用下,運(yùn)動到紅色目標(biāo)站點(diǎn)上方。因此截取空間軌跡上白點(diǎn)周圍41×41大小,3個空間高度(1.5km,2.5km,3.5km)的局部圖像作為卷積神經(jīng)網(wǎng)絡(luò)的圖像輸入。

時間和空間特征提取: 在時間和空間方向(高度方向)提取圖像像素的統(tǒng)計值(平均值、最大值、極值點(diǎn)個數(shù)、方差等等),作為時空特征的描述輸入CNN的全連接層。
全局云團(tuán)形狀特征提取: 某些特定的云層形態(tài)會對應(yīng)典型降水事件。從拼接后的全局圖像中提取云團(tuán)形狀的整體形態(tài)特征,有雷達(dá)反射率的直方圖和統(tǒng)計類信息、云團(tuán)運(yùn)動速度和方向、加速度、流線曲率、SIFT描述子的直方圖、監(jiān)測點(diǎn)位置、檢測點(diǎn)反射率與最大值比值等。

訓(xùn)練模型
- 卷積層的圖像的輸入為時間外推得到目標(biāo)站點(diǎn)附近41×41的空間范圍,采用較大的空間圖像輸入,希望能夠包含軌跡預(yù)測的誤差以及測評目標(biāo)在1小時內(nèi)的總降水量。圖像部分采用2層卷積池化,隨后將向量拉平到一維,即在全連接層與其余非圖像類特征合并,共同輸入到2個隱藏層的神經(jīng)網(wǎng)絡(luò)中。
- 模型通過dropout防止過擬合,取值為0.65,梯度下降采用的Adam優(yōu)化算法。1200個迭代步后即達(dá)到穩(wěn)定。
總結(jié)
雖然之前參加過多次大數(shù)據(jù)競賽,但初次接觸圖像類比賽能夠獲獎也是非常意外。本次解題方案并未使用Imagenet上較為流行的InceptionNet或者ResNet,用深度的圖像卷積網(wǎng)絡(luò)來做訓(xùn)練。而是針對氣象問題的特殊性,針對時間空間間關(guān)聯(lián)這一重要線索,采用傳統(tǒng)的關(guān)鍵點(diǎn)提取SIFT方法與卷積神經(jīng)網(wǎng)絡(luò)CNN結(jié)合的形式預(yù)測目標(biāo)站點(diǎn)的降水量。

由于思路的特殊性,團(tuán)隊在未做調(diào)參的情況下已經(jīng)能夠大幅領(lǐng)先其他隊伍。未來會對氣象業(yè)務(wù)有更多探討,用大數(shù)據(jù)力量推動氣象預(yù)報的發(fā)展。感謝天池大數(shù)據(jù)平臺組織比賽,感謝深圳氣象局提供比賽數(shù)據(jù),感謝CIKM2017組委會。
完整解題方案及代碼:https://github.com/yaoyichen/CIKM-Cup-2017
深圳市氣象局和阿里巴巴集團(tuán)保留本次比賽數(shù)據(jù)的版權(quán)。 數(shù)據(jù)僅用于比賽和研究目的。 所有數(shù)據(jù)由深圳氣象局提供,并已全部做過脫敏處理。

