當(dāng)年我在看第一本大數(shù)據(jù)的書(shū)叫《大數(shù)據(jù)時(shí)代》,這是迄今為止我唯一讀完的一本有關(guān)大數(shù)據(jù)的書(shū)。實(shí)際上當(dāng)時(shí)讀這本書(shū)也是為了給某省運(yùn)營(yíng)商做大數(shù)據(jù)啟蒙課程硬著頭片讀完的。
不管是大數(shù)據(jù)還是數(shù)據(jù),最基本的數(shù)據(jù)挖掘理論并沒(méi)有發(fā)生變化,兩者真正的差距應(yīng)該是反映在以下幾個(gè)方面:數(shù)據(jù)的類型在發(fā)生延展,從傳統(tǒng)的格式化數(shù)據(jù)向多元化數(shù)據(jù)的轉(zhuǎn)換,非格式化和半格式化數(shù)據(jù)豐富了數(shù)據(jù)分析的樣本。誠(chéng)然,這個(gè)轉(zhuǎn)換從表面上看只是一個(gè)邁步,實(shí)際上他大大提高了數(shù)據(jù)的采集能力、數(shù)據(jù)的建模能力和數(shù)據(jù)的轉(zhuǎn)換能力以及數(shù)據(jù)識(shí)別和計(jì)算能力的需求和技術(shù)實(shí)現(xiàn)能力的要求,也就是說(shuō),如果在傳統(tǒng)的數(shù)據(jù)挖掘中都沒(méi)有形成有效的數(shù)據(jù)模型的情況下,大數(shù)據(jù)只會(huì)加速基礎(chǔ)設(shè)施的崩潰,大數(shù)據(jù)不代表大量數(shù)據(jù),數(shù)據(jù)量越大產(chǎn)生的無(wú)效計(jì)算會(huì)越多,這就增加了數(shù)據(jù)分析本身的質(zhì)量問(wèn)題和效率問(wèn)題。
第二個(gè)方面,數(shù)據(jù)的實(shí)時(shí)性要求增加。數(shù)據(jù)在數(shù)字化或者信息化社會(huì)中是實(shí)時(shí)波動(dòng)的,傳統(tǒng)數(shù)據(jù)分析是為事務(wù)提供一種預(yù)測(cè)力來(lái)為后續(xù)工作提供一種支撐和分析能力。而大數(shù)據(jù)最終的目的是決策型機(jī)制,其目的是為工作提供一種決策的引擎,也就是說(shuō)他在指導(dǎo)、控制和引導(dǎo)每一步工作,這就使得大數(shù)據(jù)本身在采集活動(dòng)必須討論實(shí)時(shí)性和多來(lái)源數(shù)據(jù)在形成一個(gè)算例過(guò)程中時(shí)延、數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)解釋等相關(guān)活動(dòng)中可能產(chǎn)生的誤差、錯(cuò)誤、偏移、延時(shí)等等相關(guān)問(wèn)題的產(chǎn)生。沒(méi)有了實(shí)時(shí)性的要求,大數(shù)據(jù)的本質(zhì)也就失去了靈魂;
第三個(gè)方面,數(shù)據(jù)量的問(wèn)題。傳統(tǒng)數(shù)據(jù)更多的是在組織內(nèi)部充分獲取數(shù)據(jù)的基礎(chǔ)上,我們可以延展的行業(yè)數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)交易中的數(shù)據(jù);但是大數(shù)據(jù)從本質(zhì)上而言是要收集一切可收集的數(shù)據(jù),同時(shí)基于一個(gè)具體的目標(biāo)建立數(shù)據(jù)漏斗,篩選需要完成分析目的具體數(shù)據(jù)用例。這就使得數(shù)據(jù)在整個(gè)活動(dòng)中有關(guān)基于統(tǒng)計(jì)學(xué)的數(shù)據(jù)模型的搭建成為大數(shù)據(jù)分析的基礎(chǔ)。當(dāng)數(shù)據(jù)源源不斷的流入數(shù)據(jù)采集平臺(tái)并且送入數(shù)據(jù)分析引擎的過(guò)程中,我們能篩選出多少無(wú)效數(shù)據(jù)以及我們對(duì)數(shù)據(jù)在不打斷產(chǎn)生變化過(guò)程中所形成的分析機(jī)制和告警機(jī)制并不是一個(gè)簡(jiǎn)單的工作,而是一項(xiàng)復(fù)雜的數(shù)學(xué)邏輯計(jì)算活動(dòng)。只不過(guò)現(xiàn)在完成這些計(jì)算的不是人而是具有海量計(jì)算能力的計(jì)算機(jī)或者云。但是有個(gè)問(wèn)題是不可忽視的,構(gòu)建算法的是“人”,所以當(dāng)更多的人在一廂情愿的認(rèn)為計(jì)算機(jī)可以為人類完成一切復(fù)雜化工作的時(shí)候他們卻忘了,為計(jì)算機(jī)賦予計(jì)算能力的是“人”。
那么下面我們繼續(xù)看看這本書(shū)會(huì)為我們帶來(lái)什么樣的啟示,既然是大數(shù)據(jù)的啟蒙書(shū),必然離不開(kāi)大量的案例,這本書(shū)開(kāi)篇第一個(gè)案例就是基于大數(shù)據(jù)在公共衛(wèi)生服務(wù)領(lǐng)域中的用途。如圖:
請(qǐng)?zhí)貏e留意我標(biāo)紅的地方;
[if !supportLists]第一、[endif]在“爆發(fā)幾周前”:大數(shù)據(jù)最大的優(yōu)勢(shì)是建立在事件尚未發(fā)生但是已經(jīng)存在產(chǎn)生的因素和可能性極高的情況下形成的分析結(jié)果。這個(gè)描述讓我們可以去理解另外一個(gè)詞匯“態(tài)勢(shì)感知”。我一直在說(shuō)態(tài)勢(shì)感知一定是構(gòu)建具備大數(shù)據(jù)分析能力的基礎(chǔ)之上,能夠?qū)Ξ?dāng)前和未來(lái)形勢(shì)做出預(yù)先的判斷并提供決策力的能力之上。
[if !supportLists]第二、[endif]首先建立預(yù)測(cè)能力:然后根據(jù)數(shù)據(jù)的樣本和需求模型建立針對(duì)數(shù)據(jù)適用場(chǎng)景的進(jìn)一步分析能力,針對(duì)特定區(qū)域或者特定環(huán)境、特定用例進(jìn)行精準(zhǔn)化的分析。
第三、數(shù)據(jù)的樣本數(shù)與相關(guān)性:谷歌通過(guò)5000萬(wàn)條詞條與美國(guó)疾控中心2003-2008年5年的數(shù)據(jù)進(jìn)行對(duì)比分析,這中間有兩個(gè)問(wèn)題:第一,可開(kāi)發(fā)的數(shù)據(jù)的獲取,也就是說(shuō)我們能不能獲得大數(shù)據(jù)的第四個(gè)“V(Value(價(jià)值))”的支持。也就是說(shuō)前端能采集到大量的可參考數(shù)據(jù),但是我們能否獲得可做參照對(duì)比的真實(shí)的分析樣本數(shù)據(jù),使得整個(gè)大數(shù)據(jù)活動(dòng)能具有“價(jià)值”,如果可參照數(shù)據(jù)的無(wú)效的或者虛假的,那么整個(gè)數(shù)據(jù)分析的能力就完全依靠海量的采集數(shù)據(jù)進(jìn)行決策,這時(shí)候數(shù)據(jù)誤差的形成自然會(huì)超出預(yù)期,這個(gè)問(wèn)題不是技術(shù)能夠解決的。
第四、對(duì)于數(shù)據(jù)的依賴性:數(shù)據(jù)是會(huì)騙人的,任何人都可以偽造數(shù)據(jù),隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展,基于網(wǎng)絡(luò)的各種行為分析和數(shù)據(jù)分析已經(jīng)成為一種不可遏制的勢(shì)頭,不管是網(wǎng)購(gòu)、互聯(lián)網(wǎng)支付、社交媒體以及其他互聯(lián)網(wǎng)活動(dòng)行為在不斷的收集、使用、泄露和濫用公民隱私。正如某互聯(lián)網(wǎng)大佬所說(shuō)的,中國(guó)的公民往往愿意為了便捷而放棄自己的隱私。實(shí)際上我們也在不斷的研究如何欺騙大數(shù)據(jù),避免更多的“隱私畫(huà)像”問(wèn)題的產(chǎn)生,說(shuō)白了這個(gè)本質(zhì)是算法的對(duì)抗,我們?cè)谶@不做具體的論述,因?yàn)檫@個(gè)問(wèn)題在未來(lái)是對(duì)抗智慧城市和工業(yè)互聯(lián)網(wǎng)的一個(gè)重要話題?!皼](méi)有場(chǎng)景就不要去討論安全”這是我送給讀者的一句話。那么我們?cè)谶@要討論什么問(wèn)題呢?“大數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大。任何有價(jià)值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。”[if !supportFootnotes][1][endif]
谷歌通過(guò)4.5億個(gè)不同的數(shù)學(xué)模型進(jìn)行對(duì)比分析獲得45條檢索詞條的組合;那么我們想想,我們認(rèn)為數(shù)據(jù)構(gòu)成分析能力的是數(shù)據(jù)還是數(shù)學(xué)模型?過(guò)多的依賴數(shù)據(jù)而不是數(shù)據(jù)模型,最終使我們本身的分析能力被大打折扣。
很多人都在質(zhì)疑一個(gè)問(wèn)題,有關(guān)健康碼的賦碼問(wèn)題,實(shí)際上我是從2020年下半年開(kāi)始關(guān)注健康碼這個(gè)問(wèn)題的。我第一次遇到因?yàn)榻】荡a系統(tǒng)中斷是在西南某省的機(jī)場(chǎng),因?yàn)榻】荡a不能展示導(dǎo)致不能離開(kāi)機(jī)場(chǎng),機(jī)場(chǎng)大量人員聚集。后來(lái)我開(kāi)玩笑說(shuō)如果這種事件發(fā)生在北上廣深將是一種災(zāi)難;后來(lái)是又陸續(xù)在一些省份也遇到或者新聞報(bào)道所在地健康碼中斷問(wèn)題,2021年5月廣州“穗康碼”發(fā)生頻繁刷新失敗后我曾經(jīng)說(shuō)過(guò)我們的“‘健康碼’系統(tǒng)必然逢疫必掛”,結(jié)果不幸被嚴(yán)重,緊接著北京、深圳、西安、上海等互聯(lián)網(wǎng)大省都出現(xiàn)大面積中斷、故障事件。其實(shí)想想,大數(shù)據(jù)只是一個(gè)數(shù)據(jù)活動(dòng)的平臺(tái)和產(chǎn)物,數(shù)據(jù)分析再好,最終觸發(fā)數(shù)據(jù)決策的前端沒(méi)了,請(qǐng)問(wèn)數(shù)據(jù)分析的意義何在呢?這是一個(gè)題外話,我們繼續(xù)分析健康碼的問(wèn)題。
健康碼賦碼規(guī)則各地有所不同,但是無(wú)非就是核酸檢測(cè)數(shù)據(jù)、風(fēng)險(xiǎn)地區(qū)行程記錄、時(shí)空伴隨產(chǎn)生的GPS軌跡信息、出入境記錄、隔離記錄,然后在此基礎(chǔ)上在做不同的疊加構(gòu)成賦碼值要素。但是我們發(fā)現(xiàn)上述數(shù)據(jù)并不是在一個(gè)系統(tǒng)、一個(gè)主管部門(mén)、一個(gè)開(kāi)發(fā)商手中完成的,也就是說(shuō),很多數(shù)據(jù)本身是單一,在進(jìn)入?yún)R總活動(dòng)中如果任何一個(gè)數(shù)據(jù)在傳遞活動(dòng)中不能實(shí)現(xiàn)格式轉(zhuǎn)換一致性、通信均衡、系統(tǒng)本身自己的讀寫(xiě)效率等方面的影響,會(huì)不會(huì)對(duì)賦碼產(chǎn)生誤計(jì)算或者溢出呢?實(shí)際上這個(gè)是很多時(shí)候我們發(fā)現(xiàn)健康碼誤報(bào)或者不能有效賦碼的一種技術(shù)成因,當(dāng)然,產(chǎn)生健康碼故障(我在這稱其為故障而不是中斷)因素很多,我在一套健康碼分析中總結(jié)了幾點(diǎn)以供參考:
[if !supportLists]1、[endif]網(wǎng)絡(luò)架構(gòu)及云平臺(tái)
[if !supportLists](1)?[endif]應(yīng)用前端網(wǎng)絡(luò)負(fù)載能力;很多人覺(jué)得這個(gè)不是問(wèn)題,其實(shí)這里面有一個(gè)經(jīng)常被忽視的環(huán)節(jié)。我國(guó)三大運(yùn)營(yíng)商并不是可以直接建立通信的,交互通信是通過(guò)互聯(lián)互通完成,也就是說(shuō),如果我是電信的手機(jī),如果我要訪問(wèn)移動(dòng)的應(yīng)用,那么即使是在同城,我們的通信也會(huì)被送到互聯(lián)互通節(jié)點(diǎn)(北京節(jié)點(diǎn)、廣東節(jié)點(diǎn))做轉(zhuǎn)換之后才能實(shí)現(xiàn)完整的通信;如果我們的負(fù)載設(shè)備本身不具備三大運(yùn)營(yíng)商的統(tǒng)一網(wǎng)關(guān)接口,那么就會(huì)出現(xiàn)主鏈路是電信,雖然我有移動(dòng)和聯(lián)通的備用鏈路或者是理論的負(fù)載鏈路,但實(shí)際上尋址關(guān)系首先還是走電信,那么電信手機(jī)會(huì)優(yōu)先獲得通信能力,這時(shí)候移動(dòng)用戶可能會(huì)在大量用戶接入過(guò)程中被拋棄;
[if !supportLists](2)?[endif]應(yīng)用后端通信能力問(wèn)題,我們看到的是一個(gè)健康碼系統(tǒng),我們看不到的是在實(shí)現(xiàn)賦碼的時(shí)候是健康碼在執(zhí)行賦碼計(jì)算還是后端賦碼系統(tǒng)執(zhí)行賦碼運(yùn)算然后再推送結(jié)果到健康碼;在這種考量下,必然要均衡前端通信壓力和后端通信的適配問(wèn)題,瓶頸會(huì)產(chǎn)生的IT領(lǐng)域的任何一個(gè)環(huán)節(jié),而瓶頸也是在實(shí)際糾錯(cuò)中最容易被忽略的,擁塞可能發(fā)生在網(wǎng)絡(luò)通信機(jī)制,也可能發(fā)生在數(shù)據(jù)交換、應(yīng)用調(diào)度、流以及硬件(CPU和內(nèi)存產(chǎn)生的分配和調(diào)度活動(dòng)中)
[if !supportLists](3)?[endif]在云資源的分配中,系統(tǒng)是共享資源池還是獨(dú)享資源池;這個(gè)問(wèn)題很多云服務(wù)商或者設(shè)計(jì)者可能不屑一顧,當(dāng)時(shí)我提出這個(gè)問(wèn)題的時(shí)候曾經(jīng)有云服務(wù)商問(wèn)過(guò)我這個(gè)問(wèn)題“Why”。我們想想,在一臺(tái)物理主機(jī)下,如果產(chǎn)生故障,他的影響因?yàn)槲锢碓O(shè)備的隔離可以限制在該設(shè)備所具有的應(yīng)用和業(yè)務(wù)之上,當(dāng)然,我們?cè)谶@先不分析業(yè)務(wù)關(guān)聯(lián)性問(wèn)題;但是如果我在一臺(tái)物理主機(jī)部署多個(gè)應(yīng)用時(shí),任何一個(gè)應(yīng)用產(chǎn)生內(nèi)存級(jí)故障都可能導(dǎo)致整個(gè)服務(wù)器崩潰(別說(shuō)你的程序不會(huì)溢出),那么受影響的是部署在該服務(wù)器上的所有應(yīng)用。同理,在云平臺(tái)下,一個(gè)資源池的共享與獨(dú)享其實(shí)完全可以理解為一臺(tái)服務(wù)機(jī)的使用案例。而且,云是動(dòng)態(tài)的和具有彈性的,這就加大可能產(chǎn)生競(jìng)態(tài)問(wèn)題的條件;所以建議最后使用獨(dú)立資源池部署健康碼系統(tǒng)。
[if !supportLists]2、[endif]軟件架構(gòu)及接口通信
[if !supportLists](1)?[endif]良好的預(yù)測(cè)最大并發(fā)數(shù):解決軟件并發(fā)的本質(zhì)不是硬件性能而是軟件算法,即使你不能支持這么大的并發(fā)也應(yīng)該有一個(gè)合理閾值下的容錯(cuò)處理能力,其實(shí)健康碼的復(fù)雜性是在90%的用戶和數(shù)據(jù)的提交者是非專業(yè)的,他們只是操作員,不斷的刷新實(shí)際上是在不斷的為健康碼系統(tǒng)創(chuàng)造并發(fā)值和鏈接數(shù)。由于軟件處理是一個(gè)系統(tǒng)工程問(wèn)題,需要從兩側(cè)解決問(wèn)題:一方面,開(kāi)發(fā)方需要進(jìn)一步優(yōu)化算法,提高軟件處理效率;另一方面,適當(dāng)增加硬件處理能力;
[if !supportLists](2)?[endif]不要讓健康碼系統(tǒng)變成一個(gè)綜合化處理平臺(tái),部分與健康碼無(wú)關(guān)的業(yè)務(wù)系統(tǒng)可能由于軟件自身的問(wèn)題或者攻擊帶來(lái)的級(jí)聯(lián)故障同樣會(huì)導(dǎo)致健康碼系統(tǒng)產(chǎn)生故障,因此,為了進(jìn)一步降低業(yè)務(wù)關(guān)聯(lián)風(fēng)險(xiǎn)問(wèn)題,建議:
[if !supportLists]a.?[endif]建立獨(dú)立的健康碼系統(tǒng),避免與其他系統(tǒng)之間形成的相互干擾和影響;
[if !supportLists]b.?[endif]在業(yè)務(wù)高峰期,如果健康碼平臺(tái)業(yè)務(wù)負(fù)載過(guò)重,出現(xiàn)瓶頸和大量丟包時(shí),將其他非健康碼功能屏蔽;
[if !supportLists](3)?[endif]展碼功能通過(guò)調(diào)用行程卡、核酸檢測(cè)數(shù)據(jù)基于算法生成健康碼,但是,在實(shí)際應(yīng)用場(chǎng)景中,被動(dòng)掃碼的需求并不高,更多的是用戶掃碼而非被訪問(wèn)對(duì)象掃碼,一旦系統(tǒng)資源極度緊缺不可緩解時(shí),建議建立備用方案:展碼僅顯示文字版本記錄,如在一個(gè)綠色圈內(nèi)顯示“陰性”代表為“綠碼,陰性”。
[if !supportLists](4)?[endif]根據(jù)數(shù)據(jù)實(shí)時(shí)性的特性,分離靜態(tài)數(shù)據(jù)、亞靜態(tài)數(shù)據(jù)及動(dòng)態(tài)數(shù)據(jù)的關(guān)系,在建立賦碼活動(dòng)中過(guò)濾數(shù)據(jù)元素,提高算碼的效率和準(zhǔn)確性。
[if !supportLists](5)?[endif]為了避免用戶隱私數(shù)據(jù)通過(guò)健康碼平臺(tái)泄露,建議充分使用去標(biāo)識(shí)化技術(shù),修改用戶前端展碼過(guò)程中包含的用戶全量信息,比如:通過(guò)部分屏蔽處理用戶身份證號(hào)、手機(jī)號(hào)和身份證號(hào)信息。降低前端數(shù)據(jù)調(diào)用時(shí)的數(shù)據(jù)保密性攻擊問(wèn)題;同時(shí)建議部署數(shù)據(jù)庫(kù)審計(jì)設(shè)備,針對(duì)數(shù)據(jù)完整性進(jìn)行實(shí)時(shí)驗(yàn)證,避免惡意篡改健康碼狀態(tài),偽造綠碼行為。
[if !supportLists](6)?[endif]建議使用查詢庫(kù),進(jìn)入?yún)^(qū)域人員實(shí)時(shí)生成健康碼并寫(xiě)入查詢庫(kù),所有展碼活動(dòng)從查詢庫(kù)調(diào)取數(shù)據(jù);當(dāng)產(chǎn)生健康碼狀態(tài)變更時(shí),實(shí)時(shí)重新生成健康碼覆蓋原有二維碼;查詢庫(kù)使用分布式部署模式,分別部署在移動(dòng)、電信和聯(lián)通平臺(tái)上,降低由于運(yùn)營(yíng)商鏈路問(wèn)題產(chǎn)生的中斷,同時(shí),各運(yùn)營(yíng)商可以基于自己的網(wǎng)關(guān)解析,優(yōu)先接入相應(yīng)的運(yùn)營(yíng)商平臺(tái),提高效率和鏈路負(fù)載能力
[if !supportLists]3、[endif]業(yè)務(wù)連續(xù)性保障
容災(zāi)機(jī)制的建立可以降低由于設(shè)備設(shè)施故障、鏈路故障、火災(zāi)、斷電等不可抗力產(chǎn)生的中斷因素;還可以對(duì)抗維護(hù)缺陷、系統(tǒng)缺陷和大規(guī)模的流量攻擊造成的損害;
數(shù)字化也罷,信息化也罷,大數(shù)據(jù)也罷,實(shí)際上人的能動(dòng)性是整個(gè)社會(huì)的基礎(chǔ),很多時(shí)候不是技術(shù)之錯(cuò),而是人之錯(cuò)。正如我們常說(shuō)的,網(wǎng)絡(luò)安全是雙刃劍,而數(shù)字化本身也是一把雙刃劍,用好了造福社會(huì);用過(guò)了,只能加大對(duì)社會(huì)的危害。所以不要過(guò)于依賴于信息技術(shù)應(yīng)該被刻在每個(gè)人的腦海之中。提到這,特別說(shuō)一下這次廣州抗疫的一個(gè)小插曲。全市很多老師、大學(xué)生、隔離在家的公務(wù)員和國(guó)企人員都參加了一個(gè)很有趣的活動(dòng),打電話流調(diào)。也就是說(shuō),實(shí)際上人工流調(diào)理論上也就將捧上神壇的數(shù)字化回歸到了人工作業(yè)時(shí)代,當(dāng)然后端的數(shù)字化處理是必然的。那么反過(guò)來(lái)我們要思考的就是如何在前端建立可信的數(shù)據(jù)采集能力。
[if !supportFootnotes]
[endif]
[if !supportFootnotes][1][endif]大數(shù)據(jù)有哪些特征? (itcast.cn)