原作者: Dr Shravani Basu
研究目標(biāo)
盡管秋粘蟲(Spodoptera frugiperda; FAW)在美洲熱帶和亞熱帶地區(qū)已有數(shù)十年的歷史,但在它開始傳播到非洲和世界其他地區(qū)之前,還沒有對其進(jìn)行過深入的研究。因此,從這種害蟲的爆發(fā)中獲得的信息非常有限,這種害蟲在各大洲迅速變得不可識別。因此,減輕蟲害造成的巨大損失的唯一辦法是詳細(xì)了解蟲害,并制定多管齊下的作物保護(hù)和蟲害防治戰(zhàn)略。
這項研究試圖通過結(jié)合三個不同的數(shù)據(jù)集,提供有關(guān)秋粘蟲潛在爆發(fā)的補充信息,闡明有利于秋粘蟲傳播的條件。
由于FAO使用的數(shù)據(jù)收集方法的局限性,組合數(shù)據(jù)集不允許建立預(yù)測模型。因此,這項研究的重點是提取推動秋粘蟲在非洲蔓延的特征,在非洲收集了大部分?jǐn)?shù)據(jù)。
盡管基于非洲數(shù)據(jù)集,我們進(jìn)行分析的方式可以將調(diào)查結(jié)果擴(kuò)展到全球任何秋粘蟲事件。
秋粘蟲:全球威脅
秋粘蟲幼蟲期是一種以350多種植物為食的害蟲,對玉米、水稻、高粱等重要經(jīng)濟(jì)作物、棉花、甘蔗、花生等經(jīng)濟(jì)作物、蘋果、桔子等果樹、蔬菜等造成廣泛危害。然而,玉米仍然是首選寄主。因為毛蟲吃了太多的植物,它們對作物的生存和產(chǎn)量是非常有害的。
根據(jù)糧農(nóng)組織的數(shù)據(jù),非洲每年損失的玉米多達(dá)1800萬噸,足以養(yǎng)活數(shù)千萬以玉米為主要作物的人,在非洲大陸造成的經(jīng)濟(jì)損失高達(dá)46億美元。此外,針對具體國家的研究表明,秋粘蟲接觸量與殺蟲劑使用強(qiáng)度呈正相關(guān)??刂魄镎诚x污染的幾項措施已經(jīng)存在,但并沒有顯著減少損失。
秋粘蟲爆發(fā)于2016年在非洲被發(fā)現(xiàn),此后已蔓延至亞洲,包括中東和大洋洲。這種昆蟲是一種快速繁殖的昆蟲,每年以幾代的速度繁殖,有著多種多樣的食物,它們可以在惡劣的條件下存活下來,它們可以遷徙到不同的地方(跨大陸),或者在條件更有利的時候躲藏起來重新生長。這種蛾子每晚能飛100公里。雌蛾產(chǎn)卵前可遷徙500公里。然而,這些昆蟲對低溫沒有抵抗力。它們不能在低于0℃的溫度下遷徙和繁殖。因此,全球變暖導(dǎo)致的暖冬為秋粘蟲大規(guī)模繁殖創(chuàng)造了良好條件。
糧農(nóng)組織的《食物鏈危機(jī)預(yù)警公報》(2020年1月至3月,第34號)詳細(xì)說明了秋粘蟲造成的全球感染和國別損害的程度。本文簡要介紹了最危險國家的局勢和所報告的破壞規(guī)模。
在非洲:
安哥拉-據(jù)報道,秋粘蟲在2017年損失了超過19000公頃的玉米、谷子和高粱作物,造成約180萬美元的損失。
埃塞俄比亞-秋粘蟲攻擊四季種植的玉米:主雨季、短雨季和灌溉玉米。在全國,有458個玉米種植區(qū)受到秋粘蟲的影響。
馬拉維-第一次報告秋粘蟲的存在是在2016/17主要雨季(11月至3月)。這一害蟲已對全國玉米、淡季灌溉玉米(4月至10月)和小麥等其他作物造成嚴(yán)重?fù)p害。政府宣布,在2017/18準(zhǔn)備種植季節(jié)(11月至3月),由于該蟲害,處于災(zāi)害狀態(tài)。
烏干達(dá)-已確認(rèn)所有121個地區(qū)(100%的領(lǐng)土)都存在這種害蟲。
南蘇丹-秋粘蟲的存在已被證實在全國各地(在該國所有前10個州)。田間觀察和農(nóng)民報告表明,當(dāng)作物處于水分脅迫下時,秋粘蟲污染嚴(yán)重。
斯威士蘭-秋粘蟲的存在是在2016/17賽季首次報道的。這一害蟲對全國高粱、谷子和玉米造成嚴(yán)重?fù)p害,一直持續(xù)到2017/18賽季。
埃及(北非)-自2019年5月以來,秋粘蟲已在埃及南部玉米地正式上報。秋粘蟲得以穿越撒哈拉沙漠的天然屏障。因此,北非國家處于危險之中。
蘇丹-自2017年以來,據(jù)報道,秋粘蟲從蘇丹出發(fā),尼羅河流域可能被視為埃及的可能進(jìn)口路線。埃及和蘇丹的氣候允許許多寄主植物繼續(xù)種植,這增加了害蟲傳播和破壞的可能性。
坦桑尼亞、贊比亞和津巴布韋-第一次報告秋粘蟲的存在是在2016/17年度,在2017/18年度生產(chǎn)季節(jié)(11月至3月),該害蟲繼續(xù)對玉米造成損害。
在亞洲:
孟加拉國-秋粘蟲于2018年8月首次被發(fā)現(xiàn)。從那時起,它已經(jīng)蔓延到全國的幾個地區(qū)。
柬埔寨-截至2019年6月11日,柬埔寨共摧毀了11142公頃玉米作物,其中包括白林省2544公頃、馬德望省3033公頃、班迭棉吉省4715公頃和特邦庫姆省850公頃。
緬甸農(nóng)業(yè)、畜牧業(yè)和灌溉部稱,秋粘蟲自2019年1月的第一周起就開始入侵緬甸的玉米田。秋粘蟲已在伊洛瓦底江地區(qū)得到確認(rèn),并于同年短時間內(nèi)蔓延至9個州/地區(qū)。伊洛瓦底江約有4046公頃受到影響。
印尼-秋粘蟲于2019年3月首次在西蘇門答臘被發(fā)現(xiàn)。在四個月內(nèi),這種害蟲已經(jīng)蔓延到蘇門答臘、爪哇和加里曼丹的一些地區(qū)的12個省。
菲律賓-到2019年6月,位于Negros Oriental的Mabinay地方政府宣布秋粘蟲襲擊了該山區(qū)城鎮(zhèn)32個barangays中的28個。
斯里蘭卡-秋粘蟲主要在Anuradhapura、Monaragala和Ampara地區(qū)感染了玉米,但在該國幾乎所有地區(qū)的農(nóng)場都發(fā)現(xiàn)了玉米斑。秋粘蟲在上述三個區(qū)的玉米總面積分別為61010公頃和34856公頃。此外,據(jù)報道,秋粘蟲已蔓延到水稻、西紅柿、谷子、綠豆等農(nóng)作物和甘蔗等一些牧草品種。據(jù)報道,斯里蘭卡8.2萬公頃耕地中,有43037公頃被秋粘蟲染病。該國估計的農(nóng)作物總損失在10%到25%之間。
也門(西亞)-據(jù)報道,秋粘蟲的引進(jìn)和存在自2018年以來,增加了引進(jìn)阿曼和沙特阿拉伯等鄰國的風(fēng)險。
中國-不包括在糧農(nóng)組織的報告中,但根據(jù)新聞報道,在2020年3月5日,中國政府在記者招待會上承認(rèn)秋粘蟲在2018年首次入侵中國。南部和西南部省份受影響最大。中國當(dāng)局發(fā)現(xiàn),2019年11月至1月,中國南部和西南部的秋粘蟲數(shù)量正在增加。受災(zāi)面積4萬公頃,是去年同期的90倍。由于這種害蟲已經(jīng)在老撾附近的80000公頃土地上肆虐,當(dāng)局預(yù)測中國可能會出現(xiàn)更糟糕的情況。
根據(jù)中國農(nóng)業(yè)農(nóng)村部發(fā)布的指導(dǎo)方針,秋粘蟲北移將比去年提前一個月。一旦北移,黃河、淮河流域50%的玉米田將受到威脅。
自2019年6月以來,秋粘蟲在臺灣也有報道。據(jù)臺灣動植物衛(wèi)生檢疫局(BAPHIQ)統(tǒng)計,截至2019年7月10日,臺灣已確認(rèn)有199宗秋粘蟲目擊事件,超過50公頃玉米田受到影響。
印度-根據(jù)國家農(nóng)業(yè)昆蟲資源局(NBAIR)于2018年7月進(jìn)行的一項調(diào)查,并非來自糧農(nóng)組織的報告,而是獨立核實了秋粘蟲首次在卡納塔克邦(印度南部)的Chikkaballapur地區(qū)的農(nóng)田報告。這種害蟲已經(jīng)摧毀了卡納塔克邦70%以上的農(nóng)作物,目前已進(jìn)一步蔓延到印度南部、西部、北部和東北部。玉米種植面積約930萬公頃,年總產(chǎn)量接近2800萬噸。
澳大利亞-糧農(nóng)組織的報告中沒有提到一汽在澳大利亞北部地區(qū)和西部北部的多個地區(qū)被發(fā)現(xiàn),很快就可能威脅到昆士蘭廣灣地區(qū)的農(nóng)作物。漁農(nóng)部表示,秋粘蟲自今年2月在澳大利亞被發(fā)現(xiàn)以來,僅在玉米、高粱和大豆作物中發(fā)現(xiàn)。秋粘蟲如果成立,有可能成為澳大利亞北部的棉花害蟲。
數(shù)據(jù)集
我們?yōu)檫@項研究合并了三個互補的、公開的數(shù)據(jù)集。
- 本研究使用的核心數(shù)據(jù)集是根據(jù)聯(lián)合國糧食及農(nóng)業(yè)組織(糧農(nóng)組織)發(fā)起的全球防治秋粘蟲行動(秋粘蟲)方案收集的數(shù)據(jù),該方案對主要在非洲國家發(fā)生的秋粘蟲爆發(fā)病例進(jìn)行了分類。秋粘蟲監(jiān)測預(yù)警系統(tǒng)(FAMEWS)由一個分發(fā)給農(nóng)民進(jìn)行數(shù)據(jù)采集的移動應(yīng)用程序和一個繪制現(xiàn)狀的全球平臺組成。這些數(shù)據(jù)大多由農(nóng)民自己直接在FAMEWS應(yīng)用程序中收集,使用兩種檢測技術(shù):使用信息素誘捕器收集昆蟲(秋粘蟲指南注釋3)或?qū)嵉貍刹?秋季粘蟲偵察)。本研究使用的數(shù)據(jù)集版本涵蓋了2018年2月27日至2019年9月30日期間登記的案例。選定的數(shù)據(jù)集由39013個案例組成,每個案例測量了44個變量。不幸的是,糧農(nóng)組織的這一數(shù)據(jù)集不再在其網(wǎng)站上免費提供。
- 結(jié)合秋粘蟲爆發(fā)的數(shù)據(jù)集,我們使用了饑荒預(yù)警系統(tǒng)網(wǎng)絡(luò)(FEWS-NET)土地數(shù)據(jù)同化系統(tǒng)(FLDAS)中VIC模型的重新分析的天氣數(shù)據(jù)。從2001年1月至今,數(shù)據(jù)的分辨率為0.25度,覆蓋整個非洲大陸(在本研究中,我們使用了2018年2月至2019年10月之間的可用數(shù)據(jù))。時間分辨率是每天的。有關(guān)數(shù)據(jù)集的更多信息,請訪問:FLDAS: Project Goals。該模型共提取了21個變量,包括降水量、溫度和風(fēng)速,并在:FLDAS模型數(shù)據(jù)描述 | LDAS中進(jìn)行了描述。
- 最后使用的數(shù)據(jù)集是來自協(xié)調(diào)世界土壤數(shù)據(jù)庫(HWSD)的土壤數(shù)據(jù)。這是一個30弧秒的柵格數(shù)據(jù)庫,有15000多個不同的土壤制圖單元,結(jié)合了全球土壤信息的現(xiàn)有區(qū)域和國家更新(SOTER、ESD、中國土壤圖、WISE)。數(shù)據(jù)可通過糧農(nóng)組織門戶網(wǎng)站:統(tǒng)一世界土壤數(shù)據(jù)庫v1.2 | 糧農(nóng)組織土壤門戶網(wǎng)站獲取。數(shù)據(jù)集包括58個變量,描述了土壤單元的組成和土壤參數(shù)的特征(有機(jī)碳、pH值、蓄水量、土壤深度、土壤和粘土部分的陽離子交換能力、總交換性養(yǎng)分、石灰和石膏含量、鈉交換率、鹽度、質(zhì)地等級和粒度測定)。有關(guān)變量的更多詳細(xì)信息,請訪問:http://www.fao.org/3/aq361e/aq361e.pdf.
這三個數(shù)據(jù)集基于FAMEWS數(shù)據(jù)中提供的作物田地理坐標(biāo)進(jìn)行合并。
方法
A. 篩選
在FAMEWS數(shù)據(jù)集中使用了兩種不同的檢測方法:偵察和信息素陷阱。不同的檢驗方法,作為獨立的和組合的,可能會產(chǎn)生不可預(yù)見的偏差。因此,我們將研究局限于使用童子軍檢測到的樣本,因為它代表了最大的樣本(69%的病例,即26901例-見圖5)。
如圖6所示,從法馬威的檢測樣本來看,秋粘蟲的陽性和陰性檢出率的相對分布來看,陽性檢出率占樣本的85.9%。數(shù)據(jù)集中對陽性檢測的強(qiáng)烈偏見實際上表明,通過移動應(yīng)用程序收集的數(shù)據(jù)是在秋粘蟲實際爆發(fā)之后開始的。如果數(shù)據(jù)是從某一特定地區(qū)的系統(tǒng)調(diào)查中收集的(在調(diào)查期間,無論秋粘蟲的發(fā)生率如何,該地區(qū)所有農(nóng)民都提供了數(shù)據(jù)),我們預(yù)計數(shù)據(jù)集中的檢測率將要低得多。
這一觀察結(jié)果實際上通過隨時間的偵察檢查分布得到了證實,如圖7所示:缺乏時間一致性是反應(yīng)模式的癥狀,而不是系統(tǒng)的數(shù)據(jù)收集。
聚焦于圖8所示的非洲特定地區(qū),支持類似的結(jié)論:檢查次數(shù)的分布因地點而異(對于圖8-Left中紅色的選定地區(qū),2019年的檢查次數(shù)接近于零)。
如所示,基于偵察檢查的數(shù)據(jù)集高度偏向于正面檢測。這很可能是由于疫情爆發(fā)后數(shù)據(jù)收集的反應(yīng)性(農(nóng)民只有在農(nóng)田受到感染后才使用該應(yīng)用程序)。這樣一個不平衡的數(shù)據(jù)集不允許我們在給定的日期為給定的字段建立秋粘蟲爆發(fā)的預(yù)測模型。為了實現(xiàn)這一目標(biāo),有必要進(jìn)行更系統(tǒng)和無偏見的數(shù)據(jù)收集,以提供暴發(fā)病例的現(xiàn)實表現(xiàn)。
因此,我們決定集中研究秋粘蟲在玉米作物中傳播的驅(qū)動因素和加劇因素。在實際應(yīng)用中,我們使用機(jī)器學(xué)習(xí)建模來提取一組具有預(yù)測能力的特征來識別秋粘蟲的存在。我們希望確保這些特征的預(yù)測重要性可以通過地點和時間推斷出來,以便我們從非洲過去的疫情中獲得的見解對未來的其他國家(如印度)是有效的。
B. 構(gòu)建模型, 預(yù)處理 & 驗證策略
我們決定訓(xùn)練一個極端梯度增強(qiáng)(XGBoost)優(yōu)化預(yù)測,作為一個目標(biāo)變量,在一個給定的檢查點,由秋粘蟲感染植物的百分比。如前一節(jié)所述,預(yù)測有害生物的傳播(即,是否會影響一塊田地?)由于檢測樣本的偏差,不可能。因此,我們選擇將重點放在感染水平的預(yù)測上(即,知道該領(lǐng)域受到感染,預(yù)計會受到影響的部分是什么?)
圖9顯示了每次偵察檢查的潛在感染程度范圍,表明二元目標(biāo)變量(陽性,如檢測到的,而陰性,如未檢測到的)根本不允許完全了解問題。我們還將感染率為0%和100%的病例從培訓(xùn)集中刪除,因為它們似乎更多地與缺乏來自調(diào)查的信息有關(guān),因為這些信息是由農(nóng)民輸入的。
在進(jìn)行任何模型訓(xùn)練之前,我們將對數(shù)據(jù)集進(jìn)行適當(dāng)?shù)念A(yù)處理:
- 將數(shù)據(jù)集局限于非洲大陸和玉米作物(因為數(shù)據(jù)集中也有其他作物的信息)-將總樣本減少到16705例;
- 刪除重復(fù)行和常量列;
- 從FLDAS、FAMEWS和HWDS數(shù)據(jù)集中選擇領(lǐng)域驅(qū)動的特征(只關(guān)注相關(guān)信息,刪除不相關(guān)或重復(fù)的特征,例如數(shù)據(jù)庫id);
- 某些字段的標(biāo)準(zhǔn)化(例如“cropFieldSize”,因為根據(jù)應(yīng)用程序的用戶使用不同的測量單位);
- 手動特征工程,以一種更為相關(guān)的方式結(jié)合特征進(jìn)行研究;
- 反映周平均值的天氣數(shù)據(jù)的集合.
鑒于FAMEWS數(shù)據(jù)集的性質(zhì),以及所使用的空間和時間特征(土壤和天氣數(shù)據(jù))的混合,我們必須實施特定的驗證策略,以確保最重要的特征能夠通過時間和位置進(jìn)行適當(dāng)?shù)母爬?。我們的驗證策略基于時間分離,2018年的數(shù)據(jù)用于培訓(xùn),2019年的數(shù)據(jù)用于驗證。然而,為了消除任何空間效應(yīng),我們改進(jìn)了以下基本策略:
對于2019年的驗證集,我們將3個特定區(qū)域定義為經(jīng)度間隔:A(-16°,-1°),B(26°,33°)和C(35.5°,46°)。這些領(lǐng)域經(jīng)過精心設(shè)計,以最大限度地增加培訓(xùn)和驗證實例的數(shù)量。
然后,我們在培訓(xùn)/驗證中分三次檢查數(shù)據(jù)集,每次在2018數(shù)據(jù)集上培訓(xùn)模型,不包括驗證區(qū)域內(nèi)的數(shù)據(jù)(例如,A區(qū)域外的所有2018數(shù)據(jù)),并在驗證區(qū)域內(nèi)使用2019數(shù)據(jù)集驗證(例如,A區(qū)域內(nèi)的所有2019數(shù)據(jù))。
通過這樣的驗證策略,我們從全局網(wǎng)格搜索開始優(yōu)化最重要的超參數(shù),然后再通過更局部的網(wǎng)格搜索進(jìn)行微調(diào)。利用上述三種方法,在對模型的超參數(shù)進(jìn)行微調(diào)的同時,可以計算出模型在驗證集之間的平均絕對誤差(MAE)。MAE越低,模型通過位置和時間進(jìn)行概括的能力就越高。
C. 特征選擇
一旦對模型進(jìn)行了訓(xùn)練,我們就可以為每個特征計算當(dāng)模型的決策樹之一使用該特征在數(shù)據(jù)集中進(jìn)行分割時所獲得的XGBoost目標(biāo)函數(shù)的增益。然后,我們將XGBoost模型中一個特性的重要性定義為所有這些增益的總和。
然而,特征重要性可以通過隱藏的相關(guān)性,或者掩蓋關(guān)于位置或時間的信息來人為地提高。為了確保所選的特征能夠正確概括,對于每個特征,我們再次對模型進(jìn)行微調(diào)和訓(xùn)練,使其不包含特征。然后,我們將這個新模型的MAE(不包括特性)與包含它的前一個模型進(jìn)行比較。如果在不使用該特性時MAE顯著增加(超過0.005),我們將丟棄該特性。在這種情況下,重新計算重要特征集,將丟棄的特征保留在預(yù)測集之外。
已放棄的功能示例:
- 一年一次:去除MAE后提高0.7934。
- 第1階段:一旦移除,MAE中0.5037的改進(jìn)。
- cropFieldSize:移除后,MAE的性能提高了0.0863。
從FLDAS、HWSD和FAMEWS數(shù)據(jù)集的原始組合變量集中選擇的14個特征的最終集合,對于一汽感染具有最高的預(yù)測能力,是:
分析和結(jié)果
為了可視化所選特征在區(qū)分高度和輕度受侵染作物方面的能力,我們使用一個二元目標(biāo)構(gòu)建了一個決策樹,如果作物中的植物百分比高于平均值(約為侵染的25%),則該二元目標(biāo)被定義為真,否則為假,如圖10所示。
決策樹自上而下讀取如下:
- 每個單元格表示根據(jù)所述條件(例如在頂部單元格 ‘Psurf_f_tavg_mean<96627.656’)將樣本分成兩部分;如果條件滿足(True),則根據(jù)左側(cè)的下一級單元格檢查相應(yīng)的拆分樣本,如果不滿足(False)則檢查右側(cè)的下一級單元格;
- 在每個細(xì)胞中,陰性(在我們的情況下,感染較少)和陽性(在我們的情況下,感染較多)的部分在括號中表示(例如在頂部單元格的‘value=[0.513,0.487]’,因此,51.3%的陰性和48.7%的陽性);
- 每個單元格所代表的完整樣本的比例也得到了很好的指示(例如在頂部單元格中“samples=100%”);
- 陽性細(xì)胞(感染越多)的比例越高,細(xì)胞就越藍(lán),陰性細(xì)胞(感染越少)就越紅。
為了更好地理解如何讀取樹,讓我們來看兩個最極端的情況:
1 - 第一種情況對應(yīng)于藍(lán)色最深的細(xì)胞,占本研究所用樣本集的5.7%(在非洲對玉米作物進(jìn)行偵察檢查),其中85.4%的每一個田塊(在這一子集中)受以下條件的影響(‘value=[0.146,0.854]’):
- 低表面氣壓(‘Psurf_f_tavg_mean≤96627.656’);
- 粘土的低重量分?jǐn)?shù)(雖然不是極端的)('‘10.5<T_CLAY≤24.5’');
- 有機(jī)物含量高('‘T_OC>0.955’');
- 無雨(‘Rainf_f_tavg_mean≤0’)。
2 - 第二種情況對應(yīng)于最深紅色的細(xì)胞,占本研究所用樣本集的5.5%(在非洲玉米作物的偵察檢查),其中只有17.1%的每一個田(在這個子集中)受到了感染(‘value=[0.829,0.171]’),受以下條件的青睞:
- 中間表面氣壓('‘96627.656<Psurf_f_tavg_mean≤98944.266’');
- 高濕度率(“‘Qair_f_tavg_mean>0.015’”);
- 大田施肥(‘cropFertilizer_no≤0.5’);
- 以及較老的作物(‘a(chǎn)ge>54.5’)
盡管決策樹提供了關(guān)于所選特征之間重要性和交互作用的有趣見解,但現(xiàn)在讓我們嘗試解釋為什么這些所選特征中的一些具有較高的預(yù)測能力。我們專注于一些精選的分析,而不是針對一個詳盡的研究。再次,我們的目標(biāo)是證明所使用的方法能夠讓我們識別出一汽蔓延背后最重要的驅(qū)動因素。
土壤密度的影響
在這里,我們需要強(qiáng)調(diào)的是,其中一些功能只有在與其他功能結(jié)合時才具有真正的預(yù)測能力。例如,如圖11所示,粘土‘T_-Clay’的獨立部分與我們的目標(biāo)具有相當(dāng)弱的相關(guān)性。然而,圖11中的第二個圖顯示,當(dāng)與表面壓力“Psurf_f_tavg_”結(jié)合時,它具有更強(qiáng)的影響。這個事實已經(jīng)可以用決策樹來推斷了。
一種初步的解釋是,在較高的地表氣壓下,土壤密度更大,而不考慮其成分。在低氣壓下,土壤密度越小,則粘土的質(zhì)地對密度的影響越大。由于土壤密度較低(因此在低氣壓和較低的粘土含量下),一旦蛹羽化,一汽成蟲就更容易從土壤中出來,增加了感染的風(fēng)險。
如圖12所示,可以對有機(jī)物含量的分?jǐn)?shù)提出類似的解釋:有機(jī)物含量分?jǐn)?shù)越高,土壤密度越低,因此感染風(fēng)險越高。
注意,在圖11和圖12中,我們使用了三階回歸。在粘土或有機(jī)物含量重量分?jǐn)?shù)極端情況下,測量中的低統(tǒng)計數(shù)據(jù)妨礙了此類測量的任何解釋,并且可能不夠可靠。
作物生長發(fā)育階段對作物健康的影響
秋粘蟲毛毛蟲主要以玉米葉片和輪蟲的幼嫩部分為食,這說明幼齡作物感染風(fēng)險更大,而較老作物感染風(fēng)險迅速降低,如圖13所示。感染高峰在30-80天左右。玉米在種植后130-135天成熟,這解釋了超過這個年齡的統(tǒng)計數(shù)據(jù)(和感染病例)的迅速減少,因為這些病例可能主要與數(shù)據(jù)收集的錯誤有關(guān)(因為年齡是根據(jù)農(nóng)民直接收集的數(shù)據(jù)計算的)。
在圖14中,我們研究了土壤溫度對侵染率的影響(空氣溫度和土壤輻射溫度與土壤溫度密切相關(guān),因此我們只關(guān)注這個變量)。在20-25℃(293-298K)附近有一個明顯的峰值,在17℃(290K)以下和27℃(300K)以上有明顯的下降。這些溫度與玉米根系有效生長的理想土壤溫度相對應(yīng),這意味著這一變量與作物的內(nèi)在健康有關(guān)(更健康的作物顯然對應(yīng)更高的侵染率)。
天氣條件的影響
當(dāng)顯示風(fēng)對蟲害的影響時,如圖15所示,在強(qiáng)風(fēng)(高達(dá)2米/秒)的情況下,蟲害開始明顯增加,但當(dāng)風(fēng)越來越強(qiáng)時,蟲害減少(高達(dá)4米/秒)。一種可能的解釋是,有些風(fēng)會提高秋粘蟲蛾子在農(nóng)田不同區(qū)域傳播和恢復(fù)輪回的機(jī)會,但強(qiáng)風(fēng)會阻止秋粘蟲毛蟲留在葉子上繼續(xù)覓食。
圖16顯示了蟲害與空氣比濕度和降雨量之間的負(fù)相關(guān)關(guān)系。這些結(jié)果表明,盡管濕度和降雨量有利于植物的生長,但過量的雨水會沖走葉中的秋粘蟲毛毛蟲,事實上降低了蟲害率。這是一個有爭議的結(jié)果,因為文獻(xiàn)中的一些研究傾向于指出相反的結(jié)果。
灌溉影響
如圖16所示,降雨似乎正在減緩蟲害。我們進(jìn)一步調(diào)查澆水的影響,看是否確實降雨對秋粘蟲有害。
在圖17左邊,土壤濕度顯示出與感染率類似的負(fù)相關(guān),如空氣濕度和降雨量。然而,當(dāng)觀察不同類型的澆水的效果時,在圖17的中央,很明顯,雖然灌溉似乎有利于蟲害,但雨水澆水確實降低了蟲害率,證實了上述結(jié)果。如圖17右圖所示,降雨時土壤濕度平均高于灌溉時的土壤濕度,這意味著降雨也有利于植物的生長(事實上,土壤濕度也取決于土壤成分,即我們數(shù)據(jù)集中可用水量“in fact soil moisture also depends of soil composition, information provided by the Available Water Capacity ‘AWC_CLASS’ in our dataset.”提供的信息)
從這一分析中可以對灌溉進(jìn)行一個明確的觀察,即任何模擬降雨的灌溉系統(tǒng)(如噴灌機(jī))都會重現(xiàn)降雨(減少感染率)所引起的影響。
值得注意的是,我們的分析沒有證據(jù)表明,土壤水分缺乏(水分脅迫)會加劇秋粘蟲的侵?jǐn)_,正如上述糧農(nóng)組織報告中南蘇丹的報告所述。為了理解這種差異,需要更多的數(shù)據(jù)和更深入的調(diào)查。
結(jié)論和建議
所開展的工作,除了提供一些切實可行的見解(例如,灌溉方面的見解)外,還表明了采取基于數(shù)據(jù)科學(xué)的方法,在限制性調(diào)查范圍之外,利用各種信息來源,支持發(fā)展綜合性和注重成果的農(nóng)業(yè)項目的重要性。
- 我們強(qiáng)調(diào)了通過組合不同但高度互補的數(shù)據(jù)集(來自農(nóng)民“FAMEWS”、天氣“FLDAS”和土壤數(shù)據(jù)“HWSD”)的整體方法的重要性,從而得出一致和可靠的圖像。正如在研究中所看到的,所有重要的特征都是從三個數(shù)據(jù)集中提取出來的,并且大多數(shù)的洞察力都是基于來自不同數(shù)據(jù)源的特征的組合(從決策樹中可以看到)。
- 整個工作基于開放存取數(shù)據(jù)的可用性。我們要感謝構(gòu)建這些數(shù)據(jù)集(數(shù)據(jù)收集、數(shù)據(jù)分析、建模和仿真)的團(tuán)隊所做的工作。我們要再次強(qiáng)調(diào)自由分享這些數(shù)據(jù)的重要性,并對糧農(nóng)組織最近從其網(wǎng)站上刪除對FAMEWS數(shù)據(jù)集的訪問感到難過(根據(jù)最新情況,到2019年底,仍然可以以csv/excel格式下載)。
- 我們已經(jīng)確定了一組重要特征(14個特征),這些特征可以用來更好地了解秋粘蟲傳播背后的驅(qū)動因素。盡管我們建議盡可能多地聚合數(shù)據(jù),但這些功能可以用作未來數(shù)據(jù)收集策略的指導(dǎo)原則。這里進(jìn)行的分析的大多數(shù)結(jié)果當(dāng)然是以先前的研究和常識為基礎(chǔ)的,但這種分析提供了可量化的信息,可用于建立預(yù)測模型和確定限制有害生物傳播的可行措施。
- 數(shù)據(jù)采集是任何研究的一個關(guān)鍵要素,法默斯所做的出色工作值得在此強(qiáng)調(diào)。為農(nóng)民提供一個應(yīng)用程序,讓他們了解自己農(nóng)田的狀況,是防止秋粘蟲等害蟲蔓延的主要武器。然而,由于農(nóng)民輸入的“非正式”密鑰,數(shù)據(jù)集呈現(xiàn)出自身的局限性,導(dǎo)致一定的準(zhǔn)確性不足,并產(chǎn)生無法控制的偏差。FAMEWS采取的收集策略意味著對爆發(fā)后測量的一個重要偏差,因為農(nóng)民主要在感染發(fā)生后使用app,這就阻止了建立秋粘蟲蔓延預(yù)測模型的可能性。
我們建議采取系統(tǒng)的調(diào)查戰(zhàn)略,直接在農(nóng)場一級收集信息,而不受幾個季節(jié)蟲害的影響,并將農(nóng)民的投入與獨立的天氣和土壤信息結(jié)合起來。調(diào)查的設(shè)計需要有預(yù)測性和規(guī)范性的模型作為目標(biāo),在此基礎(chǔ)上可以采取措施盡可能地消除偏見。這樣的項目需要數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)專家的參與。
PS:我是黑胡桃實驗室社區(qū)的一名成員,最近經(jīng)常在看一些老外做的有趣的人工智能項目,如果有興趣或疑問可以在評論區(qū)留言或私信與我交流μ