大數(shù)據(jù)時(shí)代的新科學(xué)范式:數(shù)據(jù)密集型科學(xué)
已有 4331 次閱讀?2016-9-21 11:58?|系統(tǒng)分類:教學(xué)心得

1、什么是科學(xué)范式?
“范式”(paradigm)這一概念最初由美國(guó)著名科學(xué)哲學(xué)家Thomas Samuel Kuhn于1962年在《科學(xué)革命的結(jié)構(gòu)》中提出來(lái),指的是常規(guī)科學(xué)所賴以運(yùn)作的理論基礎(chǔ)和實(shí)踐規(guī)范,是從事某一科學(xué)的科學(xué)家群體所共同遵從的世界觀和行為方式?!胺妒健钡幕纠碚摵头椒S著科學(xué)的發(fā)展發(fā)生變化。
新范式的產(chǎn)生,一方面是由于科學(xué)研究范式本身的發(fā)展,另一方面則是由于外部環(huán)境的推動(dòng)。人類進(jìn)入到21世紀(jì)以來(lái),隨著是信息技術(shù)的飛速發(fā)展,促使新的問(wèn)題不斷產(chǎn)生,使得原有的科學(xué)研究范式受到各個(gè)方面的挑戰(zhàn)。
圖靈獎(jiǎng)得主,關(guān)系型數(shù)據(jù)庫(kù)的鼻祖Jim Gray在2007年加州山景城召開(kāi)的NRC-CSTB(National Research Council-Computer Science and Telecommunications Board)大會(huì)上,發(fā)表了留給世人的最后一次演講“The Fourth Paradigm: Data-Intensive Scientific Discovery”,提出將科學(xué)研究的第四類范式。其中的“數(shù)據(jù)密集型”就是現(xiàn)在我們所稱之為的“大數(shù)據(jù)”。Jim是一位航海運(yùn)動(dòng)愛(ài)好者,在會(huì)議結(jié)束后不久的2007年1月28日,他駕駛的帆船在茫茫大海中失去聯(lián)系。

JimGray (right) toasts Gordon Bell at Gordon's 70th birthday, August 2004
Jim總結(jié)出科學(xué)研究的范式共有四個(gè):
幾千年前,是經(jīng)驗(yàn)科學(xué),主要用來(lái)描述自然現(xiàn)象;
幾百年前,是理論科學(xué),使用模型或歸納法進(jìn)行科學(xué)研究;
幾十年前,是計(jì)算科學(xué),主要模擬復(fù)雜的現(xiàn)象;
今天,是數(shù)據(jù)探索,統(tǒng)一于理論、實(shí)驗(yàn)和模擬。它的主要特征是:數(shù)據(jù)依靠信息設(shè)備收集或模擬產(chǎn)生,依靠軟件處理,用計(jì)算機(jī)進(jìn)行存儲(chǔ),使用專用的數(shù)據(jù)管理和統(tǒng)計(jì)軟件進(jìn)行分析。
2、經(jīng)驗(yàn)科學(xué)
人類最早的科學(xué)研究,主要以記錄和描述自然現(xiàn)象為特征,又稱為“實(shí)驗(yàn)科學(xué)”(第一范式),從原始的鉆木取火,發(fā)展到后來(lái)以伽利略為代表的文藝復(fù)興時(shí)期的科學(xué)發(fā)展初級(jí)階段,開(kāi)啟了現(xiàn)代科學(xué)之門(mén)。
經(jīng)驗(yàn)科學(xué)是“理論科學(xué)”的對(duì)稱,指偏重于經(jīng)驗(yàn)事實(shí)的描述和明確具體的實(shí)用性的科學(xué),一般較少抽象的理論概括性。在研究方法上,以歸納為主,帶有較多盲目性的觀測(cè)和實(shí)驗(yàn)。一般科學(xué)的早期階段屬經(jīng)驗(yàn)科學(xué),生物、化學(xué)尤其如此。
這種方法自從17世紀(jì)的科學(xué)家Francisc Bacon闡明之后,科學(xué)界一直沿用著。他指出科學(xué)必須是實(shí)驗(yàn)的、歸納的,一切真理都必須以大量確鑿的事實(shí)材料為依據(jù),并提出一套實(shí)驗(yàn)科學(xué)的“三表法”,即尋找因果聯(lián)系的科學(xué)歸納法。其方法是先觀察,進(jìn)而假設(shè),再根據(jù)假設(shè)進(jìn)行實(shí)驗(yàn)。如果實(shí)驗(yàn)的結(jié)果與假設(shè)不符合,則修正假設(shè)再實(shí)驗(yàn)。
經(jīng)驗(yàn)科學(xué)的主要研究模型是:科學(xué)實(shí)驗(yàn)。
典型范例包括:伽利略的物理學(xué)、動(dòng)力學(xué)。伽利略是第一個(gè)把實(shí)驗(yàn)引進(jìn)力學(xué)的科學(xué)家,他利用實(shí)驗(yàn)和數(shù)學(xué)相結(jié)合的方法確定了一些重要的力學(xué)定律。在1598~1591年間,伽利略通過(guò)對(duì)落體運(yùn)動(dòng)做細(xì)致的觀察之后,在比薩斜塔上做了“兩個(gè)鐵球同時(shí)落地”的著名實(shí)驗(yàn),從此推翻了亞里士多德“物體下落速度和重量成比例”的學(xué)說(shuō),糾正了這個(gè)持續(xù)了1900年之久的錯(cuò)誤結(jié)論。牛頓的經(jīng)典力學(xué)、哈維的血液循環(huán)學(xué)說(shuō)以及后來(lái)的熱力學(xué)、電學(xué)、化學(xué)、生物學(xué)、地質(zhì)學(xué)等都是實(shí)驗(yàn)科學(xué)的典范。
3、理論科學(xué)
經(jīng)驗(yàn)科學(xué)的研究,顯然受到當(dāng)時(shí)實(shí)驗(yàn)條件的限制,難于完成對(duì)自然現(xiàn)象更精確的理解??茖W(xué)家們開(kāi)始嘗試盡量簡(jiǎn)化實(shí)驗(yàn)?zāi)P?,去掉一些?fù)雜的干擾,只留下關(guān)鍵因素(例如:“足夠光滑”、“足夠長(zhǎng)的時(shí)間”、“空氣足夠稀薄”),然后通過(guò)演算進(jìn)行歸納總結(jié),這就是第二范式:理論科學(xué)。
理論指人類對(duì)自然、社會(huì)現(xiàn)象按照已有的實(shí)證知識(shí)、經(jīng)驗(yàn)、事實(shí)、法則、認(rèn)知以及經(jīng)過(guò)驗(yàn)證的假說(shuō),經(jīng)由一般化與演繹推理等方法,進(jìn)行合乎邏輯的推論性總結(jié)。人類借由觀察實(shí)際存在的現(xiàn)象或邏輯推論,而得到某種學(xué)說(shuō),如果未經(jīng)社會(huì)實(shí)踐或科學(xué)試驗(yàn)證明,只能屬于假說(shuō)。如果假說(shuō)能借由大量可重現(xiàn)的觀察與實(shí)驗(yàn)而驗(yàn)證,并為眾多科學(xué)家認(rèn)定,這項(xiàng)假說(shuō)可被稱為理論。理論科學(xué)偏重理論總結(jié)和理性概括,強(qiáng)調(diào)較高普遍的理論認(rèn)識(shí)而非直接實(shí)用意義的科學(xué)。在研究方法上,以演繹法為主,不局限于描述經(jīng)驗(yàn)事實(shí)。
這種研究范式一直持續(xù)到19世紀(jì)末,都堪稱完美,牛頓三大定律成功解釋了經(jīng)典力學(xué),麥克斯韋理論成功解釋了電磁學(xué),經(jīng)典物理學(xué)大廈美輪美奐。但之后量子力學(xué)和相對(duì)論的出現(xiàn),則以理論研究為主,以超凡的頭腦思考和復(fù)雜的計(jì)算超越了實(shí)驗(yàn)設(shè)計(jì),而隨著驗(yàn)證理論的難度和經(jīng)濟(jì)投入越來(lái)越高,科學(xué)研究開(kāi)始顯得力不從心。
理論科學(xué)的主要研究模型是:數(shù)學(xué)模型。
典型范例包括:數(shù)學(xué)中的集合論、圖論、數(shù)論和概率論;物理學(xué)中的相對(duì)論、弦理論、圈量子引力理論;地理學(xué)中的大陸漂移學(xué)說(shuō)、板塊構(gòu)造學(xué)說(shuō);氣象學(xué)中的全球暖化理論;經(jīng)濟(jì)學(xué)中的微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)以及博弈論;計(jì)算機(jī)科學(xué)中的算法信息論、計(jì)算機(jī)理論。
4、計(jì)算科學(xué)
20世紀(jì)中葉,John von Neumann提出了現(xiàn)代電子計(jì)算機(jī)架構(gòu),利用電子計(jì)算機(jī)對(duì)科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真的模式得到迅速普及,人們可以對(duì)復(fù)雜現(xiàn)象通過(guò)模擬仿真,推演出越來(lái)越多復(fù)雜的現(xiàn)象,典型案例如模擬核試驗(yàn)、天氣預(yù)報(bào)等。隨著計(jì)算機(jī)仿真越來(lái)越多地取代實(shí)驗(yàn),逐漸成為科研的常規(guī)方法,即第三范式:計(jì)算科學(xué)。

郵票中的John von Neumann
計(jì)算科學(xué),又稱科學(xué)計(jì)算,是一個(gè)與數(shù)據(jù)模型構(gòu)建、定量分析方法以及利用計(jì)算機(jī)來(lái)分析和解決科學(xué)問(wèn)題相關(guān)的研究領(lǐng)域。在實(shí)際應(yīng)用中,計(jì)算科學(xué)主要用于對(duì)各個(gè)科學(xué)學(xué)科中的問(wèn)題進(jìn)行計(jì)算機(jī)模擬和其他形式的計(jì)算。典型的問(wèn)題域包括:數(shù)值模擬,重建和理解已知事件(如地震、海嘯和其他自然災(zāi)害),或預(yù)測(cè)未來(lái)或未被觀測(cè)到的情況(如天氣、亞原子粒子的行為);模型擬合與數(shù)據(jù)分析,調(diào)整模型或利用觀察來(lái)解方程(如石油勘探地球物理學(xué)、計(jì)算語(yǔ)言學(xué),基于圖的網(wǎng)絡(luò)模型,復(fù)雜網(wǎng)絡(luò)等);計(jì)算和數(shù)學(xué)優(yōu)化,最優(yōu)化已知方案(如工藝和制造過(guò)程、運(yùn)籌學(xué)等)。
計(jì)算科學(xué)的主要研究模型是:計(jì)算機(jī)仿真和模擬。
典型范例包括:熱力學(xué)和分子問(wèn)題、信號(hào)系統(tǒng),以及傳統(tǒng)的人工智能等。
5、數(shù)據(jù)密集型科學(xué)
隨著數(shù)據(jù)的爆炸性增長(zhǎng),計(jì)算機(jī)將不僅僅能做模擬仿真,還能進(jìn)行分析總結(jié),得到理論。數(shù)據(jù)密集范式理應(yīng)從第三范式中分離出來(lái),成為一個(gè)獨(dú)特的科學(xué)研究范式。也就是說(shuō),過(guò)去由牛頓、愛(ài)因斯坦等科學(xué)家從事的工作,未來(lái)完全可以由計(jì)算機(jī)來(lái)做。這種科學(xué)研究的方式,被稱為第四范式:數(shù)據(jù)密集型科學(xué)。數(shù)據(jù)密集型科學(xué)由傳統(tǒng)的假設(shè)驅(qū)動(dòng)向基于科學(xué)數(shù)據(jù)進(jìn)行探索的科學(xué)方法的轉(zhuǎn)變。

The fourth paradigm
我們可以看到,第四范式與第三范式,都是利用計(jì)算機(jī)來(lái)進(jìn)行計(jì)算,區(qū)別是什么呢?現(xiàn)在大多科研人員,應(yīng)該都比較理解第三范式,在研究中總是被專家評(píng)委不斷追問(wèn)“科學(xué)問(wèn)題是什么?”、“有什么科學(xué)假設(shè)?”,這就是先提出可能的理論,再搜集數(shù)據(jù),然后通過(guò)計(jì)算來(lái)驗(yàn)證。而基于大數(shù)據(jù)的第四范式,則是先有了大量的已知數(shù)據(jù),然后通過(guò)計(jì)算得出之前未知的理論。
我們已經(jīng)知道,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變,就是放棄對(duì)因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系。也就是說(shuō),只要知道“是什么”,而不需要知道“為什么”。
關(guān)聯(lián)關(guān)系是大數(shù)據(jù)的本質(zhì)特征之一。
這就顛覆了千百年來(lái)人類的思維慣例,據(jù)稱是對(duì)人類的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。因?yàn)槿祟惪偸菚?huì)思考事物之間的因果聯(lián)系,而對(duì)基于數(shù)據(jù)的相關(guān)性并不是那么敏感;相反,電腦則幾乎無(wú)法自己理解因果,而對(duì)相關(guān)性分析極為擅長(zhǎng)。這樣我們就能理解了,第三范式是“人腦 + 電腦”,人腦是主角;而第四范式是“電腦 + 人腦”,電腦是主角。進(jìn)而由此引發(fā)的新一代人工智能技術(shù)。
我們知道要發(fā)現(xiàn)事物之間的因果聯(lián)系,在大多數(shù)情況下總是困難重重的。我們?nèi)祟愅茖?dǎo)的因果聯(lián)系,總是基于過(guò)去的認(rèn)識(shí),獲得“確定性”的機(jī)理分解,然后建立新的模型來(lái)進(jìn)行推導(dǎo)。但是,這種過(guò)去的經(jīng)驗(yàn)和常識(shí),也許是不完備的,甚至可能有意無(wú)意中忽略了重要的變量。
舉個(gè)例子?,F(xiàn)在我們?nèi)巳硕荚陉P(guān)注霧霾天氣。我們想知道:霧霾天氣是如何發(fā)生的,如何預(yù)防?首先需要在一些“代表性”位點(diǎn)建立氣象站,來(lái)收集一些與霧霾形成有關(guān)的氣象參數(shù)。根據(jù)已有的機(jī)理認(rèn)識(shí),霧霾天氣的形成不僅與源頭和大氣化學(xué)成分有關(guān),還與地形、風(fēng)向、溫度、濕度氣象因素有關(guān)。僅僅這些有限的參數(shù),就已經(jīng)超過(guò)了常規(guī)監(jiān)測(cè)的能力,只能進(jìn)行簡(jiǎn)化人為去除一些看起來(lái)不怎么重要的,只保留一些簡(jiǎn)單的參數(shù)。那些看起來(lái)不重要的參數(shù)會(huì)不會(huì)在某些特定條件下,起到至關(guān)重要的作用?如果再考慮不同參數(shù)的空間異質(zhì)性,這些氣象站的空間分布合理嗎,足夠嗎?從這一點(diǎn)來(lái)看,如果能夠獲取更全面的數(shù)據(jù),也許才能真正做出更科學(xué)的預(yù)測(cè),這就是第四范式的出發(fā)點(diǎn),也許是最迅速和實(shí)用的解決問(wèn)題的途徑。
現(xiàn)在,我們的手機(jī)就可以監(jiān)測(cè)溫度、濕度,可以定位空間位置,監(jiān)測(cè)大氣環(huán)境化學(xué)和PM2.5功能的傳感設(shè)備也在逐漸走向市場(chǎng),這些移動(dòng)的監(jiān)測(cè)終端更增加了測(cè)定的空間覆蓋度,同時(shí)產(chǎn)生了海量的數(shù)據(jù),利用這些數(shù)據(jù),分析得出霧霾的成因,最終進(jìn)行預(yù)測(cè)指日可待。
計(jì)算科學(xué)的主要研究模型是:數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),特別是機(jī)器學(xué)習(xí)。
典型范例包括幾乎所有的大數(shù)據(jù)實(shí)踐場(chǎng)景,以及基于大數(shù)據(jù)的人工智能。特別是當(dāng)前火熱的新一代人工智能研究。我們?cè)谶^(guò)去認(rèn)為非常難以解決的智能問(wèn)題,會(huì)因?yàn)榇髷?shù)據(jù)的使用而迎刃而解,比如圍棋。同時(shí),大數(shù)據(jù)還會(huì)徹底改變未來(lái)的商業(yè)模式,很多傳統(tǒng)的行業(yè)都將采用數(shù)據(jù)驅(qū)動(dòng)的智能技術(shù)實(shí)現(xiàn)升級(jí)換代,同時(shí)改變?cè)械纳虡I(yè)模式。大數(shù)據(jù)和機(jī)器智能對(duì)于未來(lái)社會(huì)的影響是全方位的,對(duì)整個(gè)社會(huì)帶來(lái)巨大的沖擊,尤其是在智能革命的初期。
6、總結(jié)
從大數(shù)據(jù)中探索“不知道自己不知道”的現(xiàn)象和規(guī)律,成為科學(xué)研究中必不可少的部分??茖W(xué)從經(jīng)驗(yàn)科學(xué)到理論科學(xué)再到計(jì)算機(jī)科學(xué),現(xiàn)在發(fā)展到數(shù)據(jù)密集型科學(xué),科學(xué)范式也相應(yīng)地從經(jīng)驗(yàn)范式發(fā)展到理論范式再到計(jì)算機(jī)模擬范式到第四范式。每一個(gè)范式都有各自相應(yīng)的特征和范例,清楚認(rèn)識(shí)各個(gè)范式的特點(diǎn)和所包含的范例,對(duì)于科學(xué)研究第四范式的發(fā)展有著重要的意義,對(duì)數(shù)據(jù)科學(xué)和數(shù)據(jù)工程也有著重要的推動(dòng)意義,同時(shí)大數(shù)據(jù)發(fā)展也將引爆智能革命,深刻地影響著我們今天的每一個(gè)人。
注:本文參考了如下資料
Tony Hey, et al., The Fourth Paradigm: Data-Intensive Scientific Discovery, 2009.
鄧仲華,?李志芳,?科學(xué)研究范式的演化,?情報(bào)資料工作, 2013.
趙斌,?第四范式:基于大數(shù)據(jù)的科學(xué)研究,?科學(xué)網(wǎng), 2015.
http://blog.sciencenet.cn/blog-242272-1004180.html?