本篇筆記基于張江老師《從網(wǎng)絡(luò)隱藏幾何的角度看網(wǎng)絡(luò)驅(qū)動(dòng)的病毒傳播》公開(kāi)課程,探究交通流量數(shù)據(jù)與城市間病毒傳播的關(guān)系。
1、背景
傳播源頭、新病例爆發(fā)在哪里、何時(shí)病毒傳到特定地點(diǎn)、共有多少病例?
2、傳統(tǒng)模型
反應(yīng)擴(kuò)散模型(Reaction Diffusion Method不適合于現(xiàn)在社會(huì))、基于個(gè)體模型(Agent based models)、隨機(jī)集合種群模型(Stochastic metapopulation models)。
上圖為基于個(gè)體模型--SIR模型,S表示易感者,I表示感染者,R表示移出者。紅色節(jié)點(diǎn)為感染者會(huì)以α概率隨機(jī)選擇傳播他的鄰居,連接為社會(huì)接觸,而感染者會(huì)以β概率進(jìn)行恢復(fù)。
NetLogo自帶病毒傳播仿真程序,起初病毒感染了三個(gè)人,按照一定概率規(guī)則進(jìn)行病毒傳播,傳播過(guò)程中不停擴(kuò)散整個(gè)網(wǎng)絡(luò),感染個(gè)體又會(huì)變成恢復(fù)態(tài),恢復(fù)的人因?yàn)橛锌贵w所以不會(huì)再被感染,直到不再有感染者。
3、有效距離
城市之間通過(guò)輸運(yùn)網(wǎng)絡(luò)、航空網(wǎng)絡(luò)等,城市之間可以輸運(yùn)病毒或健康個(gè)體。所以,以某個(gè)城市為節(jié)點(diǎn),看一個(gè)城市里感染的人數(shù)和康復(fù)的人數(shù),如何變化?
一般來(lái)講,兩個(gè)城市地理空間更近,那么病毒傳播的更快。也就是地理空間距離與病毒傳播天數(shù)呈正相關(guān)。但是事實(shí)告訴我們,猜想是錯(cuò)誤的。以H1N1和SARS病毒為例,橫坐標(biāo)表示其他城市距離病毒爆發(fā)城市的地理距離,縱坐標(biāo)表示病毒傳播天數(shù)。坐標(biāo)圖并沒(méi)有呈現(xiàn)出很明顯的正相關(guān)關(guān)系。
那么如何設(shè)計(jì)來(lái)增強(qiáng)距離與傳播的天數(shù)的正相關(guān)關(guān)系?這就需要引出有效距離(Effective Distance)的概念。這種有效距離可以回答背景中所提出的三個(gè)問(wèn)題,病毒源頭?病毒傳到哪里?在某一城市病毒何時(shí)出現(xiàn)?
有效距離的計(jì)算需要人口流動(dòng)數(shù)據(jù),即任意兩個(gè)城市的人口流量(最好是穩(wěn)態(tài)數(shù)據(jù),搜集數(shù)據(jù)時(shí)間越接近效果越好)。
通過(guò)人口流量的網(wǎng)絡(luò)可以轉(zhuǎn)換為概率網(wǎng)絡(luò),需要注意的是A與B的人口流量是不一致的,比如武漢到北京的人口流量是不等同于北京到武漢的人口流量。
概率定義是某一條連邊上,例如,從A出發(fā)向外隨機(jī)跳躍,A到B的跳轉(zhuǎn)概率就是用A到B的流量除以A的所有流量,那么P(B|A)=300/300×7=1/7,同理,從C出發(fā)只有到B的一條路徑,P(B|C)=50/50=1?;谔D(zhuǎn)概率可以計(jì)算兩個(gè)節(jié)點(diǎn)之間的有效距離。
dA→B=1-lgP(B|A),A到B跳轉(zhuǎn)概率越大,A到B有效距離越短,即跳轉(zhuǎn)概率與有效距離呈負(fù)相關(guān)關(guān)系。A到C的距離根據(jù)距離的傳遞性,計(jì)算A到B的距離,B到C的距離,二者距離相加為A到C的距離。關(guān)于這個(gè)公式有幾點(diǎn)說(shuō)明。
a.取對(duì)數(shù):若計(jì)算A到C的概率,那么概率是相乘的,為了保證距離的可加性,因?yàn)閘gab=lga+lgb。
b.取1-:當(dāng)A、B只有一條路徑時(shí),P(B|A)=1,dA→B=1,lgP(B|A)=0,即網(wǎng)格距離也為1。
如果一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)存在多條路徑情況,那么有效距離如何計(jì)算?
例如,A到D的距離,分別計(jì)算A到B到D的距離、A到D的距離以及A到C到D的距離,取三個(gè)距離中的最小值,作為A到D的有效距離。(我自己的計(jì)算結(jié)果與所給結(jié)果,雖結(jié)論相同,但是所算距離數(shù)據(jù)并不相等)
引入有效距離,以H1N1和SARS病毒為例,可以很明顯看出距離與傳播的天數(shù)的正相關(guān)關(guān)系。
4、預(yù)測(cè)到達(dá)時(shí)間
用有效距離除以相應(yīng)的傳播速度,可以算出有效時(shí)間。但是傳播速度依賴于傳播模型。那是不是就無(wú)法計(jì)算傳播時(shí)間呢?并不,我們可以通過(guò)間接方式計(jì)算傳播時(shí)間。
n、m、k為城市,假設(shè)我們已知k到n的傳播時(shí)間,有效距離已知,就可以計(jì)算出k到m的傳播時(shí)間。
5、尋找源頭
假設(shè)每個(gè)城市為傳染源,遍歷每一個(gè)城市,尋找傳播擴(kuò)散圖呈現(xiàn)圓形、對(duì)稱的,那么這個(gè)城市就是傳播源頭。
計(jì)算T,D的相關(guān)性:如果知道每個(gè)城市感染病毒的時(shí)間以及任意兩個(gè)城市之間的有效距離,只需要求相關(guān)性,任何一個(gè)城市作為假設(shè)的傳播源頭,那么已知它到達(dá)每個(gè)城市的時(shí)間以及有效距離,計(jì)算它們之間的相關(guān)性。如果源頭為真正源頭,二者相關(guān)性是最高的。遍歷所有城市,得到相關(guān)性,將相關(guān)性進(jìn)行排序,相關(guān)性最大即為源頭。
左圖為H1N1相關(guān)性計(jì)算,右圖為SARS相關(guān)性計(jì)算。根據(jù)計(jì)算結(jié)果墨西哥和中國(guó)分別H1N1和SARS的傳播源頭,符合客觀事實(shí)。
但是這種方法的弊端是必須知道每一個(gè)城市到達(dá)每一個(gè)城市的傳播時(shí)間,如果病毒沒(méi)有傳播結(jié)束,前提是要遍歷每一個(gè)城市,未出現(xiàn)病毒城市的傳播時(shí)間可以通過(guò)間接方法計(jì)算(傳播時(shí)間之比等于有效距離之比)。但是真實(shí)的傳播時(shí)間并不一定等于計(jì)算時(shí)間,可能會(huì)出現(xiàn)誤差。所以可能會(huì)發(fā)生并沒(méi)有出現(xiàn)感染者的某一城市被推算為傳播源頭。為了避免這種情況,提出一種新的算法。
以此刻,已感染的城市為源頭,以這個(gè)城市為中心,看所有城市的有效距離。如果這個(gè)城市為傳播源頭,那么這個(gè)城市一定是所有城市傳播事件中心的位置,它到其他感染城市的有效距離差不多大小,方差也比較小。具體做法:將所有城市有效距離的均值和方差繪制二維坐標(biāo)圖,那么均值和方差都比較小的一定是傳播源頭,即離圓點(diǎn)最近的為傳播源。
下圖為H1N1的真實(shí)數(shù)據(jù),基本推測(cè)準(zhǔn)確。
6、傳播模型
SIR模型在復(fù)雜網(wǎng)絡(luò)的擴(kuò)展模型
其中,jn為n城市感染比例
sn為n城市疑似病例
rn為n城市康復(fù)比例
γ為人口流動(dòng)平均比例
反應(yīng)項(xiàng):當(dāng)感染者接觸疑似者時(shí),可能會(huì)到疑似者感染,感染人數(shù)增加。
康復(fù)項(xiàng)
傳播項(xiàng):n城市轉(zhuǎn)移到m城市
以上,就是我對(duì)于該課程的理解,如果存在理解有誤的地方,希望可以批評(píng)指正。