
KDD CUP作為全球頂級數據挖掘競賽,幸得師弟鼓勵拉上本拖油瓶一起參賽~~
5.31日比賽就結束了,這次的kdd cup作為我們的練習賽吧,本來早就要做這個可視化分析的,但是工作太忙,一直抽不出時間,抱歉了,戰(zhàn)友們=。=
明確目的
- kdd cup 2018的題目要求:給出北京、倫敦各空氣監(jiān)測站點2017-2018年每天每小時的空氣質量監(jiān)測數據,以及當時附近的環(huán)境質量數據,預測未來48小時內北京35個站點的PM2.5,PM10和O3的濃度,以及倫敦13個站點的PM2.5和PM10的濃度,預測數據將與未來的實時數據進行比較,連續(xù)21天預測數據的經驗風險越小的隊伍越流弊。
- 本次可視化分析目的:觀察北京監(jiān)測點的空氣質量之間的相關性、與季節(jié)的關系、與工作日的關系以及對空氣質量參數的時序分析,發(fā)現規(guī)律,幫助把握數據結構、理清思路,為下一步建模提供支撐
選點探索
- 北京有35個站點的PM2.5、PM10、O3需要預測,這里暫選城區(qū)"dongsi_aq"和交通污染監(jiān)控點"dongsihuan_aq"兩個監(jiān)測點進行探索
- 直覺預測,交通污染監(jiān)測點的空氣質量與工作日與否強相關,各監(jiān)測點空氣質量與季節(jié)強相關
- 以下分析僅基于"dongsi_aq"和"dongsihuan_aq"兩個監(jiān)測點
一、數據觀察
- info
- describe
觀察結果
- 表內容:北京2017-2018年,指定站點在各整點時間的空氣質量
- 共有31萬條數據,其中PM2.5/No2/O3/SO2缺失2萬條數據、CO缺失5萬條數據、PM10缺失9萬條數據(數據清洗和補全)
- PM2.5均值在59左右,最大值為1004爆表
二、數據清洗和補全
- 通過數據觀察,可以看到,6個指標都有不同程度的缺失,需要補全,補全思路是:
- 首先去除異常值,避免異常值對于補全的影響(哪些是異常值?)
- 補全思路1(簡單粗暴版):若某個站點在某個時間點的X指標有缺失值,那么結合該站點附近時間點的X指標值進行補全(取前后2小時的均值,但可能存在連續(xù)時間段缺失數據的情況)
- 補全思路2(精耕細作版):將站點空氣質量和站點附近的環(huán)境狀況關聯起來,用站點附近的與空氣質量相關性最高的一兩個環(huán)境參數作為自變量,簡單預測補全空氣質量的缺失值(這里其實就是對空氣質量的預測了,只是預測很粗糙)
- 數據客觀性考慮,下面的可視化探索暫時不補全缺失數據(補全不合理可能誤導后面的預測),對于缺失數據選擇忽略
- 數據的清洗:定義異常值?需要一定的常識,比如PM10的常識范圍是什么,排除掉不在常識范圍內的指標值等,這里選擇先排除掉常識范圍外的指標值,然后在后一步數據規(guī)律探索時發(fā)現異常并處理
三、時間字段(utc_time)的處理
為了方便下一步探索規(guī)律,對時間字段處理如下
- 從utc_time字段處理得到date、month、day、weekday、hour
- month map到season
- weekday map到星期幾

四、規(guī)律探索(可視化)
分析維度
- 分季節(jié)、分星期幾查看空氣質量參數的統(tǒng)計特征
- 6個空氣質量參數的關聯性分析(先按季節(jié)劃分)
- 空氣質量參數的時序分析
4.1 分季節(jié)、分星期幾查看空氣質量參數的統(tǒng)計特征
分季節(jié),空氣質量參數統(tǒng)計情況分析:
- 冬季的各項指標值(除了O3)都偏大,夏季的各項指標值(除了O3)都偏小,原因可能在于冬季集中供暖,加上氣溫偏低而夏季氣溫高便于污染物排出到大氣循環(huán)中
- PM2.5在春冬季較高,且冬季有大量偏高的離群點,在夏秋季偏低,說明PM2.5濃度與氣溫氣壓強相關,高氣溫低氣壓有利于PM2.5的向上排出稀釋
- PM10在春季最高,這可能歸因于北京春季的柳絮、揚塵等自然因素,其次是冬季,冬季還是主要由于集中供暖,夏秋季空氣質量較好
- O3濃度和空氣污染物濃度呈負相關,O3可能可以凈化空氣,秋季O3濃度有大量偏高點,這也許也是“秋高氣爽”的原因之一


各星期幾,空氣質量參數統(tǒng)計情況分析:
- 預測情況,工作日與非工作日的空氣質量會有較大差異,因為工作日的汽車尾氣排放量可能會高于非工作日、工廠可能也會有休息等情況
- 實際情況,工作日與非工作日的空氣質量差異不明顯,可能是由于展示了全年數據,并沒有對季節(jié)等情況進行區(qū)分,進一步,如果能下沉到具體的日期進行分析,應該可以看到一定的差異,這一點在后續(xù)時序分析中進行
- 究其根本,分工作日與否,其實想看的是汽車尾氣、工廠排放對空氣質量的影響,這一點可以后續(xù)結合周圍第三方環(huán)境數據進行分析


4.2 6個空氣質量參數的關聯性分析(先按季節(jié)劃分)
各季節(jié)空氣質量參數關聯性分析:
- 不論什么季節(jié),O3濃度與其余空氣質量參數負相關,特別在冬季,負相關程度最大,其中的原因有兩種可能:
- O3抑制PM2.5、PM10、NO2、CO、SO2(因果關系,O3凈化空氣)
- 冬季北京暖氣等取暖設備開啟,排出PM2.5、PM10、NO2、CO、SO2等污染物,消耗O3(同一因導致的果)
- 冬季,除了O3外的所有空氣質量參數呈強正相關,其中的原因可能有兩點:
- 北京冬季集中供暖,排出PM2.5、PM10、NO2、CO、SO2等污染物
- 冬季寒冷,污染物下沉在地面附近,難以向上排出稀釋
- 夏季,各空氣質量參數的相關系數與其他季節(jié)相比,都有所減小,其中可能的原因是:
- 夏季氣溫高,有利于污染物向上排出
- 夏季不需要供暖,污染物源頭本來就少于冬季
- 各季節(jié)空氣質量參數相關性有所不同,但整體趨勢一致:
- PM2.5、PM10、CO在各季節(jié)都強相關(相關系數一般>0.5)
-
星期幾與空氣質量關系
- 相關性分析,可以證實,工作日與否與空氣質量幾乎無關


4.3 空氣質量參數的時序分析
- 數據劃分原則:
- 根據前面的分析,空氣質量具有強烈的季節(jié)特征,因此先將數據按季節(jié)劃分
- 人們的活動具有規(guī)律性,與星期幾強相關,因此按季節(jié)劃分數據后,再按星期幾劃分,對空氣質量數據規(guī)律進行探索
- 分析維度(僅基于dongsi、dongsihuan)
- 各月,PM2.5/PM10/O3均值的變化
- 各季節(jié)、各星期幾,PM2.5/PM10/O3均值24小時的變化特征
- 分月,分時間點,PM2.5/PM10/O3均值隨日期的變化特征
4.3.1 各月,PM2.5/PM10/O3均值的變化
分析
- dongsihuan6月數據全部缺失
- PM2.5
- 在夏季(678月)陡降,這與高氣溫低氣壓、不供暖有關
- 123月濃度最高,與氣溫氣壓供暖有關
-
5月出現一個回升:4月濃度以及下降了,為什么5月會有回升?
- 考慮結合5月環(huán)境質量參數分析
- PM10
- 在夏季(678月)陡降,這與高氣溫低氣壓、不供暖有關
- 1~5月濃度逐漸攀升,5月達到最高點,PM10包含揚塵、粉塵等物質,北京春季揚塵較多,這可能是原因之一
- 夏季進入冬季后,由于供暖燒煤等因素,PM10濃度上升
- O3
- 隨著氣溫升高,濃度逐漸增大
- 夏季O3濃度最大,冬季最小,秋高氣爽原因可知一二

4.3.2 各季節(jié)、各星期幾,PM2.5/PM10/O3均值24小時的變化特征
dongsi監(jiān)測點PM2.5分析:
- 夏秋季各天各時段的PM2.5數據都比較平穩(wěn),夏季差別最小,秋季的周三濃度最低,周五濃度最高
- 冬春季各時段數據波動較大,冬季晚上(睡眠時段)濃度升到最高,可能是睡覺取暖的原因(燒煤、暖氣等)
- 春季周四各時段的濃度普遍高于其他日期,值得關注

dongsihuan監(jiān)測點PM2.5分析:
- 夏季情況和鄰近的dongsi站點差別很大,dongsihuan受交通污染影響更大,特別在上下班高峰時段的PM2.5濃度較高,說明汽車尾氣對于這類站點監(jiān)測數據的影響較大,應該納入建模
- 這里可以看到,周六周天的濃度普遍低于工作日,說明工作日與否對于此類站點監(jiān)測數據的影響也很大,究其根本,還是汽車尾氣對于“交通污染監(jiān)控點”的數據有影響

對于PM10、O3的分析與PM2.5類似,可視化結果展示在源代碼
4.3.3 分月,分時間點,PM2.5/PM10/O3均值隨日期的變化特征
dongsi PM2.5分析:
- 一月9點,月初和月末的濃度較高;七月9點缺失數據較多
- 一月各天的19點濃度比較平穩(wěn);七月19點,濃度在月初月末較高
- 此分析對于時序分析中的“同一時間點前后兩天”的分析有參考價值,對于特別之處的時間點,可以做此分析
- PM10、O3以及dongsihuan監(jiān)測點情況分析方法類似

五、總結
- 各小結總結點見各小結文字
- 總的分析思路如下,本次可視化分析主要探索北京dongsi、dongsihuan兩個監(jiān)測點的空氣質量之間的相關性以及時序分析
