本文共計約七千字,讀完大概需要20分鐘。
謹(jǐn)以此文獻(xiàn)給我的26歲生日和這片土地。
一、背景介紹
? 山東省既是總GDP名列中國第三的經(jīng)濟大省、人口過億的人口大省,也是能源消耗大省、大氣污染物排放大省。根據(jù)2018年《中國能源統(tǒng)計年鑒》、《中國環(huán)境統(tǒng)計年鑒》,山東省工業(yè)+居民生活所消耗的能源,換算成標(biāo)準(zhǔn)煤約為4億噸,排名全國第一。與之對應(yīng)的,是山東省排名全國第一的工業(yè)廢氣排放量。以二氧化硫(SO2) 為例,2018年山東省工業(yè)二氧化硫排放量超過了120萬噸。是因為山東省的經(jīng)濟結(jié)構(gòu)以國企重工業(yè)為主,偏重于化工業(yè)、重金屬冶煉業(yè)、礦產(chǎn)開采等。因此山東省在京津冀區(qū)域性空氣污染中發(fā)揮的作用也引起了中央政府的注意,魯西北的傳統(tǒng)重工業(yè)城市被列為京津冀大氣污染傳輸通道(濟南、淄博等)。


? 由于京津冀空氣污染區(qū)域聯(lián)防政策波及,2018年11月,山東省人民政府印發(fā)《關(guān)于加快七大高耗能行業(yè)高質(zhì)量發(fā)展的實施方案的通知》,提出到 2020年要實現(xiàn)新舊動能的轉(zhuǎn)換,重點化解鋼鐵、煤炭、電解鋁、火電、建材等行業(yè)過剩產(chǎn)能。其中要求力爭用5年左右時間,大幅壓減、轉(zhuǎn)移京津冀大氣污染傳輸通道城市的鋼鐵產(chǎn)能。目前山東省具有日照鋼鐵、山鋼日照、青島特鋼、山鋼萊鋼、山鋼永鋒鋼鐵、青島特鋼、濰坊特鋼等22家鋼企,2018年粗鋼產(chǎn)量超過7000萬噸。山東省目前制定的計劃是,在確保日照、青島、臨沂和萊蕪、泰安空氣質(zhì)量完成國家和省下達(dá)目標(biāo)的基礎(chǔ)上,將目前分散在12個市的鋼鐵企業(yè)和鋼鐵產(chǎn)能,逐步向日照-臨沂沿海和萊蕪—泰安內(nèi)陸生產(chǎn)基地轉(zhuǎn)移。到2025年,青島董家口、日照嵐山、臨沂臨港等沿海地區(qū)鋼鐵產(chǎn)能占比提升到70%以上。
? 日照市位于中國東部沿海主軸線與新亞歐大陸橋的交匯處、環(huán)渤海經(jīng)濟圈與長三角經(jīng)濟圈的結(jié)合部,因此是一帶一路的重要節(jié)點。2025年山東省將有共計8000萬噸鋼鐵產(chǎn)能,其中有一半布局在日照。根據(jù)《日照市鋼鐵及配套產(chǎn)業(yè)提升計劃實施方案(2017—2021年)》, 全市規(guī)模以上鋼鐵及配套企業(yè)16家, 2020 年鋼鐵產(chǎn)能達(dá)到 4800 萬噸,總產(chǎn)值突破萬億。而按照山東省“十三五減排計劃”,至 2020 年日照空氣質(zhì)量 PM2.5 年均濃度必須控制在 35 μg/m3以下。 如何充分利用最新的、科學(xué)的技術(shù)手段,轉(zhuǎn)變環(huán)保管理模式,提高環(huán)境管理和服務(wù)的效率是當(dāng)前污染防治和大氣保護發(fā)展的迫切需求。本文利用機器學(xué)習(xí)中流行的隨機森林算法,選擇網(wǎng)絡(luò)公開發(fā)布的歷史數(shù)據(jù),以2013年-2017年數(shù)據(jù)為訓(xùn)練集,以2018-2019年數(shù)據(jù)為未知的測試集,預(yù)測日照市空氣污染物濃度,解析控制其變化的主要影響因子,并給出AQI決策樹的判定閾值。本文為追求可解釋性,所用模型較為簡單,存在一定的分析誤差,特此說明,僅供參考(模型的不確定性分析見下文的方法論部分)。


二、方法論
1. 原理與假設(shè)
? 日照市主要工業(yè)廢氣排放源是鋼鐵工業(yè)和化工業(yè),且由于地處北方,冬季采暖期居民排放亦不容忽視。根據(jù)《中國能源統(tǒng)計年鑒》,鋼鐵工業(yè)所需能源主要是焦炭,約消耗了86%的焦炭,16%的煤,而焦炭又是從煤中經(jīng)煉焦過程提煉。以2017年為例,對于山東省,煤消耗總量為40927萬噸,焦炭消耗總量為3704萬噸,焦炭消耗量約占煤消耗量的8%,所以鋼鐵工業(yè)的能源消耗量約為(換算為萬噸標(biāo)準(zhǔn)煤)EC-ISF= 16%EC+8%86%*EC=23%EC,EC代表Energy Consumption (工業(yè)能耗),亦即約占五分之一的工業(yè)總能耗。故在此選取三個與工業(yè)排放的特征:EC_L, EC_H, EC_ISF。分別代表輕工業(yè)總能耗、重工業(yè)總能耗、鋼鐵行業(yè)的能耗。
特征工程:在機器學(xué)習(xí)里,特征可以理解為用以區(qū)分事物的突出特質(zhì),類似于自變量X。特征可以有成百上千個,用來預(yù)測一個因變量y。數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而模型和算法只是逼近這個上限而已。特征工程目的是最大限度地從原始數(shù)據(jù)中提取有效特征以供算法和模型使用。“特征做不好,調(diào)參調(diào)到老,效果還不好”。
? 至于交通排放源,由于獲得其排放源強極其困難,且面源隨著時間變化較大,不穩(wěn)定,難以量化。筆者認(rèn)為交通排放源與時間相關(guān),故只建立時間特征。根據(jù)常識,車流量在工作日是比較多的,而在一天之內(nèi),上下班高峰期也直接影響交通排放源強,而假期也是很影響大家的出行的。下圖為典型的一周內(nèi)不同時間段居民出行時間,來自于Github。可以看出,周六和周日的變化趨勢是相似的,因為它們屬于周末;而周一到周五變化趨勢相同,因為他們屬于工作日。而在周末中,周六的出行時間相對高一些,說明出行在周六更多一些;而在工作日,周五在下班時期出行時間要高一些,說明有一部分人需要往其他地方趕,比如北京的周五下班就有很多人往燕郊通州趕。所以把星期和小時作為一個組合特征比單獨兩個特征在模型里表現(xiàn)更好。在此,筆者把周1,2,3,4,5歸為一類,周6,7歸為一類;小時里也分兩類為白天和夜晚,這樣共有四個特征,編碼為(0,0), (0,1), (1, 0), (1,1), 分表代表工作日的夜間、工作日的白天、周末的夜間、周末的白天。假期的編碼就簡單多了,以0,1編碼即可,1為法定節(jié)假日,0為非假日。工具包見Github。

? 日照市屬于北方沿海城市,其空氣污染物的擴散與內(nèi)陸情況不同,尤其是受海陸風(fēng)環(huán)流的影響較大。海陸風(fēng)對空氣污染物的擴散影響體現(xiàn)在動力學(xué)和熱力學(xué)兩個方面(雖然二者經(jīng)常耦合作用)。從單純的動力學(xué)角度來講,污染物從污染源排出后,通過陸風(fēng)輸送擴散到一定距離外,但是晝夜交替時,風(fēng)向轉(zhuǎn)換,擴散出去的污染物又被海風(fēng)輸送回源地附近,造成污染物的累積,使污染物濃度升高,污染加重。風(fēng)向轉(zhuǎn)換的時間可能不是恰好在傍晚和清晨。

? 從熱力學(xué)的角度來講,海風(fēng)帶來的空氣較為穩(wěn)定,風(fēng)向單一,利于空氣污染物的長距離傳輸過程,倘若止于此,不會造成地面的污染物累積。但是陸地的地表粗糙度和海洋不同,地面受到長波輻射加熱,形成的大氣層不穩(wěn)定,術(shù)語稱之為“熱內(nèi)邊界層”,使污染物更傾向于擴散至地面。如下圖:

? 大氣邊界層內(nèi)(1-2 公里高度以下)的氣象因子之間具備一定的互斥性。氣象因子隨著高度增加而非線性變化:500 米以下為摩擦層,風(fēng)、溫、濕受到粗糙不平的地面的影響。污染物基本上在1500 米高度以下混合均勻。1500 米以上主要是自由大氣,意思是不受地面加熱造成的湍流和地表粗糙度的影響,主要受大尺度環(huán)流控制。如下圖:

? 在海陸風(fēng)環(huán)流較弱、無降水事件發(fā)生的前提下,大氣顆粒物PM2.5濃度在地面的累積主要受夜邊界層的控制,而污染物的擴散主要是白天地面加熱引起的湍流造成。此時顆粒物濃度的晝夜變化特征和邊界層的變化特征類似,極大值出現(xiàn)在早上06:00-8:00,這正是夜間邊界層最強烈的時候。之后空氣污染物擴散均勻,濃度逐漸下降。除了夜邊界層帶來的近地面逆溫外,當(dāng)大氣邊界層頂部出現(xiàn)逆溫和下沉氣流時,也會帶來污染物的累積。
注: 逆溫不利于污染物擴散的原理是冷空氣密度大而下沉,暖空氣密度小而上浮,逆溫正好形成穩(wěn)定的結(jié)構(gòu)。但是這個原理必須在風(fēng)速較小、無降水的情況下才能成立。

2. 數(shù)據(jù)與來源
(1)日照市輕重工業(yè)產(chǎn)值:日照市統(tǒng)計局月報(http://www.rztj.gov.cn/ctnlist.php/mid/)。
(2)日照市輕重工業(yè)能源消耗:日照統(tǒng)計年鑒(https://www.ceicdata.com/zh-hans/china/)。
(3)日照市地面觀測氣象數(shù)據(jù)(溫、濕、壓、風(fēng)、云量、降水、能見度)來自NCDC(美國國家氣候數(shù)據(jù)中心National Climatic Data Center)公開FTP服務(wù)器ftp://ftp.ncdc.noaa.gov/pub/data/noaa/isd-lite/,世界氣象組織WHO的共享氣象站(日照站ID = 549450) 。
(4)日照市高空再分析氣象數(shù)據(jù)來自歐洲氣象中心 (ECMWF) http://apps.ecmwf.int/datasets/ (ERA-interim 0.125°×0.125°)。再分析模型同化所采用的地面觀測數(shù)據(jù)為上文提到的WHO共享氣象站(日照站ID = 549450) 。提取日照市所在網(wǎng)格(邊長約12-15公里)的1000-850 hPa(約0-1500 m)的風(fēng)溫廓線。
(5)日照市環(huán)境監(jiān)測站發(fā)布的AQI數(shù)據(jù),中國各城市AQI數(shù)據(jù)均已網(wǎng)絡(luò)開源。取三個監(jiān)測站均值。選取時間從2013年11月到2019年3月。

3. 模型的建立與不確定性
? 本文使用的機器學(xué)習(xí)工具包為Python語言的sklearn,特此向研發(fā)者致謝。
(1)模型選取
? 隨機森林和決策樹屬于概率模型,概率模型不需要對原始數(shù)據(jù)進行歸一化預(yù)處理,因為它們不關(guān)心變量的值,而是關(guān)心變量的分布和變量之間的條件概率。隨機森林算法鑒于決策樹容易過擬合的缺點,采用多個決策樹的投票機制來改善決策樹。如果用全樣本去訓(xùn)練決策樹顯然是不可取的,全樣本訓(xùn)練忽視了局部樣本的規(guī)律,對于模型的泛化能力是有害的。隨機森林是一個集成工具,它建立多個這樣的決策樹,然后將他們合并在一起以獲得更準(zhǔn)確和穩(wěn)定的預(yù)測。 這樣做最直接的好處是,在這一組獨立的預(yù)測結(jié)果中,用投票方式得到一個最高投票結(jié)果,這個比單獨使用最好模型預(yù)測的結(jié)果要好。
? 機器學(xué)習(xí)算法應(yīng)用的原則是由簡入繁、由淺入深,先試用簡單的算法,檢查結(jié)果是否可以進一步優(yōu)化,再決定是否使用復(fù)雜的算法。筆者在使用隨機森林之前,已經(jīng)使用決策樹回歸,對上文提到公開歷史數(shù)據(jù)提取的特征和目標(biāo)變量AQI進行了擬合。下文是決策樹在訓(xùn)練集和測試集上的表現(xiàn)隨著深度的變化,可以看出,當(dāng)決策樹的深度大于6層時,雖然在訓(xùn)練集上的準(zhǔn)確度接近于1,也就是完美,但是模型在測試集上的表現(xiàn)提升不明顯,準(zhǔn)確度為穩(wěn)定在0.6到0.7之間。故決策樹深度選擇6-8之間是個明智的取舍。

(2)特征選取
? 決策樹預(yù)測目標(biāo)變量的方式,是通過詢問一些關(guān)鍵特征,答案只需要兩個結(jié)果:是或者不是,就能一步一步接近真相。比如,你根據(jù)一個班級體測結(jié)果判斷某個同學(xué)是男生還是女生,第一個問題是身高,大于180 cm有很大概率是男生;第二個問題是體重,體重小于45kg的很大概率是女生。第三個問題可能是問100米成績了?;旧?-4層決策樹就能確定分類結(jié)果。這是分類問題,對于回歸問題,比如預(yù)測AQI小時濃度,也是同樣的道理,通過詢問各個特征的值,大于/小于某個數(shù)時,空氣污染物的濃度就大于/小于某個值。在一顆決策樹里面,當(dāng)因子分別到達(dá)某個閾值并且組合起來發(fā)揮作用時,空氣污染物濃度便超環(huán)境健康限值。
? 經(jīng)過數(shù)據(jù)探索,我選取19個特征,如下圖。將其字符串格式的特征例如假期和工作日時間以0/1編碼后,特征數(shù)變?yōu)闉?2個。
Features=['EC-L',
'EC-H',
'vacation',
'week_hour',
'AT',
'AP',
'RH',
'WS',
'WD',
'VIS',
'Prec',
'T_950',
'RH_950',
'U_950',
'V_950',
'T_850',
'RH_850',
'U_850',
'V_850']
? 要預(yù)測的目標(biāo)變量如下:
Targets=['PM2.5','PM10','SO2','NO2','O3']
(3)模型不確定性分析
? 模型的不確定性一個來自數(shù)據(jù)方面,是對缺測值的暴力丟棄處理破壞了時間序列的連續(xù)性,對空氣污染物異常值的忽視也會給模型帶來很大誤差。筆者認(rèn)為,只要有一個變量缺測,該時間段的所有數(shù)據(jù)全部應(yīng)該舍棄。例如,某個時間段的O3濃度因為儀器等原因缺測,那么所有的空氣污染物濃度數(shù)據(jù)和氣象數(shù)據(jù)均予以舍棄。對于異常值,目前流行的做法是取95%分位數(shù)的值,大于該值便舍棄,但是筆者沒有這么做。一方面,空氣污染物濃度的異常高值可能是重要的科學(xué)現(xiàn)象,另一方面,過于“干凈”的數(shù)據(jù)在真實世界中并不存在,一旦用潔凈的數(shù)據(jù)訓(xùn)練出了模型,放在真實世界中,可能不適用。經(jīng)驗豐富的數(shù)據(jù)科學(xué)家甚至?xí)桃獾囊胍恍┰胍魯?shù)據(jù)。
? 模型的另一個不確定性來自于對決策樹的修剪和信息熵的壓縮。眾所周知,人的大腦對于一個復(fù)雜信息的理解能力是有限的。語言學(xué)家指出,當(dāng)一個句子超過四行,讀者便沒有興趣讀下去。對于一顆樹來說,主干的粗壯比枝葉的繁茂更加重要。同樣的道理,一個信息既要全面,又要簡潔,這實際上是個權(quán)衡取舍難題。筆者對隨機森林所得的決策樹進行了剪枝處理,將其可視化,保留核心主干。在此過程中,可能會修剪掉一些關(guān)鍵的物理機制。
在信息論中,熵(entropy)是接收的每條消息中包含的信息的平均量,又被稱為信息熵、信源熵、平均自信息量。這里,“消息”代表來自分布或數(shù)據(jù)流中的事件、樣本或特征。
? 為了避免信息熵過大,筆者限制模型使用的最大特征數(shù)為15,限制決策樹的最大深度為8,只保留最關(guān)鍵的特征和主干。參數(shù)的選取與個人經(jīng)驗有關(guān)。隨機森林算法的其他參數(shù)較為復(fù)雜,與計算學(xué)有關(guān),與科學(xué)關(guān)聯(lián)甚少,概不贅述其參數(shù)優(yōu)化過程。
? 需要注意的是,臭氧的生成與消亡機制與顆粒物迥然不同。下圖是日照市PM2.5和O3濃度的概率分布,可以看出,PM2.5是正常的單峰正態(tài)分布,而O3是反常的雙峰分布。PM2.5的來源主要是地面源,所以從統(tǒng)計學(xué)理論上確實應(yīng)該是正態(tài)分布,當(dāng)然由于顆粒物爆發(fā)性增長,高值有些長尾分布。臭氧在0-80 μg/m3的第一個峰可以看作是標(biāo)準(zhǔn)正態(tài)分布,來源主要是地面排放的NO2、VOCs等前體物經(jīng)光化學(xué)氧化而成。而在50 μg/m3左右出現(xiàn)了第二個峰,這個峰可能是其他過程的疊加效果。地面O3 濃度的升高可能來自高空向下的輸送?,F(xiàn)在夏季觀測到的臭氧濃度高值是否可以稱之為O3污染,是需要反復(fù)爭吵辯論的。所以臭氧來源的復(fù)雜性也是模型不確定性來源之一。


? 本文的原理假設(shè)未考慮沙塵過程、工業(yè)脫硫設(shè)施的更新、汽車新國標(biāo)的實施等關(guān)鍵因子,相應(yīng)地,模型預(yù)測大顆粒PM10、二氧化硫SO2、二氧化氮NO2的表現(xiàn)不盡如意。



三、日照市2013-2019年空氣污染特征分析
? 即使是采用機器學(xué)習(xí)這樣的大殺器,對數(shù)據(jù)挖掘探索也是個不能免去的繁瑣過程。這是進入決賽場之前必須的預(yù)(qian)賽(xi)。
1. 時間特征
? 我們先探索要預(yù)測的因變量AQI。為節(jié)省篇幅,以PM2.5為例。方法論中提到過,我構(gòu)建了幾個和時間有關(guān)的特征。編碼為(0,0), (0,1), (1, 0), (1,1), 分表代表工作日的夜間、工作日的白天、周末的夜間、周末的白天。從下圖可以看出,對于日照市來說,周末的白天,大氣顆粒物PM2.5平均濃度比其它的時間段平均濃度稍高,但是工作日出現(xiàn)較多極端高值。

? 至于臭氧,平均濃度的大小順序是:周末白天> 工作日白天> 周末白天> 工作日夜晚。起主要作用的是晝夜,工作日的作用較弱。這一點從臭氧的前體物之一NO2的變化也可以看出,工作日夜間NO2均值最高而O3濃度最低,而周末白天NO2濃度均值最低而O3濃度最高。這可能是因為臭氧的濃度變化和二氧化氮的濃度變化不是同步的,臭氧濃度在白天的增加需要前夜的前體物積累。


? 下面三張圖是日照市PM2.5濃度的時間變化,分別是一周滑動平均、年均值、季節(jié)均值。注意2013年(只有11月-12月)和2019年(只有1-3月)數(shù)據(jù)不全,年均值只看2014-2018年即可??梢钥闯?,由于“十二五”和“十三五”環(huán)保政策的實施,空氣污染物年均濃度逐年下降的。



2. 非時間特征
? 一開始根據(jù)常識,能見度、風(fēng)、濕這幾個氣象因子容易和大氣顆粒物濃度關(guān)聯(lián)起來。在風(fēng)速較小時污染物會累積,顆粒物經(jīng)過米氏散射陽光,使能見度下降,但是在低云、海霧現(xiàn)象中水汽和液滴也會使能見度下降。從下圖可以看出,PM2.5濃度峰值出現(xiàn)相對濕度50-70%、風(fēng)速接近于0、能見度10公里左右。這說明海霧等現(xiàn)象對大氣顆粒物濃度起到一定的增加作用。

? 至于臭氧,從下圖可以看出,其濃度高值發(fā)生在氣溫20攝氏度以上、低壓氣旋天氣,而相對濕度和云霧低能見度天氣的影響不明顯,風(fēng)速只有大于 6 m/s時才有可能起到清除臭氧的作用。高溫低壓上升氣流反而會增加地面的臭氧濃度,這一點筆者表示十分疑惑。夏季低壓一般帶來陰雨天氣,光化學(xué)氧化效應(yīng)較弱,可能的解釋是氣旋破壞了穩(wěn)定層結(jié),使高空臭氧與近地面臭氧混合。另外,臺風(fēng)中心是上升氣流,但是臺風(fēng)外側(cè)卻是輻合下沉氣流。

? 由于空氣污染物的累積過程發(fā)生在整個大氣邊界層(1-2公里高度以下),單純看地面的特征是不合適的,需要結(jié)合垂直廓線上的氣象因子的分布。以2019年3月為例,3月上旬以顆粒物污染為主,3月中下旬以臭氧污染為主。從風(fēng)溫廓線可以看出,3月上旬日照市大氣邊界層內(nèi)風(fēng)速較小,偏靜穩(wěn)狀態(tài)下顆粒物在近地面累積。而三月下旬風(fēng)力增大,伴隨著幾次升溫過程,顆粒物濃度下降,但是臭氧濃度的變化和氣象因子關(guān)系不明顯, 尤其是3月9日和3月22日的兩次來自北方的冷空氣過境,顆粒物濃度明顯下降至40 μg/m3,但是臭氧濃度仍然上升至接近100 μg/m3,倒像是與時間周期有關(guān)的序列。


3. 日照市AQI預(yù)測決策樹及控制因子
(1)隨機森林預(yù)測PM2.5
? 隨機森林算法可以給出各個特征在決策中的重要程度,最大為1,最小為0。下圖為控制PM2.5濃度的各個特征重要性。 可以看出,起主要作用的特征是能見度、邊界層頂部1500米高度的溫度和濕度、地面相對濕度、海陸風(fēng)(海陸風(fēng)環(huán)流發(fā)生在1000米高度以下,U_950可以代表約500米高度的東西方向風(fēng))。這說明云霧天氣和海陸風(fēng)環(huán)流的耦合效應(yīng)對日照市大氣顆粒物的增長具有突出貢獻(xiàn)。

? 下圖是經(jīng)過提煉和剪枝后的PM2.5濃度的決策樹:

? 可以得出如下結(jié)論:
海陸風(fēng)環(huán)流、云霧過程在不同季節(jié)、 不同氣象條件下發(fā)揮的作用不一樣甚至是相反的。
極端重污染過程發(fā)生的條件是冬季的低溫高濕但不形成降水的時間段。
非采暖季節(jié),云霧過程雖然帶來了低能見度天氣,但是帶來的降水會將顆粒物濃度清除至40 μg/m3 以下。
采暖季節(jié),云霧過程既讓能見度下降,又會使顆粒物濃度上升至60-100 μg/m3。
非采暖季節(jié),陸風(fēng)較弱,不利于顆粒物等污染物向海上擴散。而海風(fēng)也有擴散效應(yīng),但是風(fēng)力較弱時也不會使顆粒物濃度造成明顯下降。所以日照市在海陸風(fēng)環(huán)流較弱的情況下,最普遍的顆粒物濃度是80 μg/m3左右。這種良至輕微污染情況會在強北風(fēng)下消散。
日照市的輕重工業(yè)能耗對于顆粒物濃度的效應(yīng)不明顯,處于決策樹的末端枝葉,這說明自然條件占據(jù)主導(dǎo)。
(2)隨機森林預(yù)測O3
? 從下圖特征重要性可以看出,地表氣溫、地表濕度、地表風(fēng)向風(fēng)速是控制臭氧濃度的決定性因子,占90%以上的比重。

? 下圖是經(jīng)過提煉和剪枝后的O3濃度的決策樹:

? 可以得出如下結(jié)論:
冬季偏西的陸風(fēng)有利于臭氧濃度維持在一個質(zhì)量等級優(yōu)良的水平,而冬季偏東的海風(fēng)會讓臭氧達(dá)到輕度污染水平。
在非采暖季,相對濕度< 83%,未發(fā)生云霧過程時,偏南風(fēng)帶來的暖氣流使臭氧濃度上升至> 100 μg/m3。但是從西北方向來的冷空氣也會使臭氧濃度偏高。
在非采暖季,相對濕度>83%,亦即發(fā)生云霧過程時,臭氧濃度較低 (< 70 μg/m3),但是東南風(fēng)會使臭氧濃度升高。這說明臭氧高空向下傳輸更傾向于發(fā)生在偏暖的氣流條件下。
夏季,邊界層內(nèi)晴朗干燥時,臭氧濃度上升至嚴(yán)重污染等級。
日照市的輕重工業(yè)能耗對于臭氧濃度的效應(yīng)也不明顯,處于決策樹的末端枝葉,這說明自然條件占據(jù)主導(dǎo)。
(3)隨機森林預(yù)測PM10
? 隨機森林預(yù)測PM10、NO2、SO2的誤差較大,決策樹可能不準(zhǔn)確。本文的原理假設(shè)未考慮沙塵過程、工業(yè)脫硫設(shè)施的更新、汽車新國標(biāo)的實施等關(guān)鍵因子,相應(yīng)地,模型預(yù)測大顆粒、二氧化硫、二氧化氮的表現(xiàn)不盡如意。以下只給出特征重要性。

(4)隨機森林預(yù)測NO2
?

(5)隨機森林預(yù)測SO2
?

四、尾聲
? 每個行業(yè)、每個企業(yè)都在受到天氣和環(huán)境的影響。美國航空航天局NASA指出,美國至少有三分之一的經(jīng)濟產(chǎn)值與氣象和空氣污染有關(guān)。如何將將分散的氣象、環(huán)境、水文、地質(zhì)、社會經(jīng)濟等數(shù)據(jù)匯集并融合,是提高環(huán)境預(yù)測結(jié)果、解析污染特征、防范環(huán)境風(fēng)險的關(guān)鍵,而機器學(xué)習(xí)算法只是統(tǒng)計學(xué)上的勝利而已。我們相信,學(xué)科之間界限的打破、人工智能技術(shù)的發(fā)展和數(shù)據(jù)孤島之間的連接會使我們更好地來描繪整個自然界,讓人們更好地認(rèn)知環(huán)境。