對于開放環(huán)境數(shù)據(jù)的一些思考

授權(quán)信息

請第三方(非商業(yè)機(jī)構(gòu))轉(zhuǎn)載時(shí)在轉(zhuǎn)載內(nèi)容前添加下列文字:「本文作者為高豐@開放數(shù)據(jù)中國,內(nèi)容授權(quán)于知識共享協(xié)議 CC-BY-NC 國際4.0 (署名-非商用) 之下」,作者保留對不按授權(quán)要求轉(zhuǎn)載的第三方追究責(zé)任的權(quán)利。

商業(yè)機(jī)構(gòu)(包括通過流量、廣告等方式運(yùn)營的自媒體機(jī)構(gòu)、傳統(tǒng)媒體以及商業(yè)機(jī)構(gòu)所開設(shè)的社交媒體等)請先通過郵件書面取得授權(quán)再行轉(zhuǎn)載。

作者信息

高豐,英國南安普敦大學(xué)計(jì)算機(jī)博士,現(xiàn)為開放數(shù)據(jù)與社會創(chuàng)新獨(dú)立咨詢顧問,兼復(fù)旦大學(xué)數(shù)字與移動治理實(shí)驗(yàn)室特邀研究員。自2013年起,他擔(dān)任英國開放知識(原英國開放知識基金會)大使,在中國大陸地區(qū)倡導(dǎo)、推廣、支持開放數(shù)據(jù)運(yùn)動,后于2014年2月聯(lián)合發(fā)起開放數(shù)據(jù)中國(opendatachina.com),致力于打造中國開放數(shù)據(jù)生態(tài)圈。高豐先后作為受邀專家參與開放數(shù)據(jù)指數(shù)(open data index),開放數(shù)據(jù)晴雨表(open data barometer),英國城市級別開放數(shù)據(jù)普查等研究和咨詢項(xiàng)目。他已和英國開放知識、開放數(shù)據(jù)合作伙伴計(jì)劃、世界銀行、瑞士Lift創(chuàng)新會議等在開放數(shù)據(jù)事務(wù)上開展過合作。你可通過fenggao@opendatachina.com 聯(lián)系他。

前言

實(shí)際上針對這個(gè)題目,早在14年中,我尚在青悅參與一系列環(huán)境數(shù)據(jù)整理與開放的工作時(shí),就已有了動筆的念頭。而在14年末,受邀在芯世界創(chuàng)新中心所舉辦的「DIY My City」會議談智慧城市和開放數(shù)據(jù)時(shí),也曾從環(huán)境數(shù)據(jù)角度談及了開放數(shù)據(jù)所能帶來的智慧環(huán)保,但無奈之后要參與多項(xiàng)工作,一直未能找到機(jī)會系統(tǒng)地對這個(gè)話題進(jìn)行整理。恰逢此次8月14日,上海青悅將在北京組織「環(huán)境數(shù)據(jù)開放與應(yīng)用分享沙龍」,邀請了來自環(huán)保部政研中心、中國清潔空氣聯(lián)盟、南方周末、阿里巴巴公益基金等不同領(lǐng)域的利益相關(guān)者共同探討環(huán)境數(shù)據(jù)開放,我才能找到時(shí)間靜下心整理出了這篇文章,寫下自己對該話題的一些思考,希望能對討論有所助益。

何為開放數(shù)據(jù)

既然討論的是環(huán)境數(shù)據(jù)開放,那么自然要先對開放數(shù)據(jù)予以解釋,并將其和相近的「數(shù)據(jù)共享」與「信息(數(shù)據(jù))公開」加以區(qū)別說明。

要理解開放數(shù)據(jù),就先要了解「開放」究竟意味著什么?根據(jù)英國開放知識基金會(Open Knowledge Foundation) 的定義,開放(openness)需具備以下3項(xiàng)基本元素:

  1. 非歧視性:數(shù)據(jù)若開放,則其對任何人都開放。
  2. 機(jī)器可讀性:數(shù)據(jù)若開放,則應(yīng)是機(jī)器可讀格式,例如對于表格數(shù)據(jù),應(yīng)該采用csv,而非pdf。
  3. 開放授權(quán)性:數(shù)據(jù)若開放,則其對應(yīng)授權(quán)條款應(yīng)確保使用者自由免費(fèi)訪問、獲取、使用、加值、演繹、拷貝、傳播的權(quán)利。
共享數(shù)據(jù),公開數(shù)據(jù),開放數(shù)據(jù)間的區(qū)別總結(jié) (引自[開放數(shù)據(jù)≠共享數(shù)據(jù)≠公開數(shù)據(jù)!](http://www.itdecent.cn/p/0dd1d16f74ec)一文)
共享數(shù)據(jù),公開數(shù)據(jù),開放數(shù)據(jù)間的區(qū)別總結(jié) (引自[開放數(shù)據(jù)≠共享數(shù)據(jù)≠公開數(shù)據(jù)!](http://www.itdecent.cn/p/0dd1d16f74ec)一文)

由以上開放性的定義來說,我們可以比較一下開放數(shù)據(jù)和傳統(tǒng)信息公開要求下的數(shù)據(jù)發(fā)布有何不同。例如,目前按照環(huán)保信息公開要求,各城市均公開發(fā)布了本地空氣質(zhì)量監(jiān)控的數(shù)據(jù),但對于除上海之外(其提供下載)的城市而言,這些數(shù)據(jù)的發(fā)布都是通過交互網(wǎng)頁的形式提供給大眾的,你并不能在頁面上直接下載到某一時(shí)刻所有監(jiān)控站點(diǎn)的監(jiān)測數(shù)據(jù),更無法下載到某一歷史時(shí)間段上的監(jiān)測數(shù)據(jù)。這樣的情況下,數(shù)據(jù)雖然公開,但僅限于「看」,而無法真正去「用」(可以思考一下,要計(jì)算一年內(nèi)平均pm2.5值,或者繪制出某一特定監(jiān)測站一個(gè)月內(nèi)pm2.5的變化,在無法下載數(shù)據(jù)的情況下,你能如何辦到?)。

北京空氣質(zhì)量實(shí)時(shí)系統(tǒng)的截圖。該系統(tǒng)基于Silverlight開發(fā),使得數(shù)據(jù)爬取都十分困難,更不用說非技術(shù)人員基本沒有可能獲取到歷史的空氣質(zhì)量數(shù)據(jù),除非每日按時(shí)將數(shù)據(jù)摘抄下來。

所以,開放數(shù)據(jù)中的「機(jī)器可讀性」對數(shù)據(jù)釋放的格式設(shè)定了標(biāo)準(zhǔn),即一個(gè)數(shù)據(jù)開放的話,其一定被提供在一個(gè)可用也易用的數(shù)據(jù)格式下,通常我們說表格數(shù)據(jù)就采用CSV(Excel的XLS也可以),因?yàn)檫@種格式你能輕易使用文本編輯器或Excel打開從而進(jìn)行必要地加工處理,而PDF或者網(wǎng)頁在這種情況下就不滿足條件,因?yàn)槟銦o法對PDF或網(wǎng)頁上的數(shù)據(jù)做便捷的數(shù)據(jù)加工。

另一方面,開放數(shù)據(jù)也強(qiáng)調(diào)數(shù)據(jù)的完整性,特別對于傳感器采集的數(shù)據(jù),開放數(shù)據(jù)應(yīng)當(dāng)是擁有完整歷史記錄的數(shù)據(jù)。如上述空氣質(zhì)量例子中,如果空氣質(zhì)量數(shù)據(jù)被發(fā)布為開放數(shù)據(jù),則其歷史數(shù)據(jù)都應(yīng)當(dāng)可以下載,兩項(xiàng)情況下,用戶可以選擇一次性下載所有歷史數(shù)據(jù),或者選擇下載指定時(shí)間段的數(shù)據(jù)。

而相對于數(shù)據(jù)的共享,數(shù)據(jù)開放的差異則集中體現(xiàn)在非歧視性和開放授權(quán)性兩點(diǎn)。在數(shù)據(jù)共享情況下,我們說數(shù)據(jù)可能并非是所有人都可以訪問到,而只限定某一特定群體(比如合作伙伴)才能訪問,而數(shù)據(jù)開放則所有人沒有差異化地都能訪問到這些數(shù)據(jù)。而在授權(quán)上來說,數(shù)據(jù)共享通常會限定使用者在特定目的下使用數(shù)據(jù)并且不可以再傳播給第三方。而開放數(shù)據(jù)則不同,一般開放數(shù)據(jù)習(xí)慣采用知識共享協(xié)議(CC協(xié)議),從而確保第三方在獲取數(shù)據(jù)后可以自由、免費(fèi)地使用、加工、復(fù)制、分發(fā)這些數(shù)據(jù)。

對開放環(huán)境數(shù)據(jù)的嘗試

在開放環(huán)境數(shù)據(jù)上,英國 Digital Catapult 所建設(shè)的 Environment Data Exchange 致力于提供一個(gè)統(tǒng)一的數(shù)據(jù)平臺,幫助NGO、政府、企業(yè)、公眾一站式查找到所需的環(huán)境數(shù)據(jù)資源。目前該平臺已經(jīng)有英國環(huán)保部、世界銀行、牛津洪澇網(wǎng)絡(luò)等不同機(jī)構(gòu)提供數(shù)據(jù),數(shù)據(jù)集已達(dá)到300 多項(xiàng)。其中既包含了開放的數(shù)據(jù),也包含了一部分共享數(shù)據(jù)。

英國 Environment Data Exchange (https://www.environmentaldataexchange.org.uk/)

而在印度,社會組織也不斷在推進(jìn)政府開放數(shù)據(jù)的日程,特別是推動政府去開放環(huán)境相關(guān)的數(shù)據(jù)。不同的NGO通過在Data.gov.in上提交數(shù)據(jù)需求,直接向政府主管部門申請,舉辦工作坊進(jìn)行溝通等途徑,已然促使印度政府開放了700余項(xiàng)環(huán)境數(shù)據(jù)。

美國 Data.gov 則專門針對氣候變化開辟開放數(shù)據(jù)專題,NASA等一系列機(jī)構(gòu)開放了大量衛(wèi)星圖片、傳感器監(jiān)測數(shù)據(jù)用于環(huán)境治理。而美國的另一項(xiàng)針對水環(huán)境的 Open Water Initiative 則野心更大,其期望將目前不同機(jī)構(gòu)采集管理的零碎水環(huán)境數(shù)據(jù)完全整合進(jìn)一個(gè)關(guān)聯(lián)的國家水環(huán)境數(shù)據(jù)框架中,從而進(jìn)一步開放水環(huán)境數(shù)據(jù)作為服務(wù)面向大眾提供,激發(fā)大眾對這一類數(shù)據(jù)加值利用的興趣。計(jì)劃中,它不單將整合描繪事實(shí)的水資源數(shù)據(jù)和水質(zhì)數(shù)據(jù),也將同時(shí)整合人們?nèi)绾问褂盟Y源的數(shù)據(jù),比如多少農(nóng)業(yè)用水回灌入河道,飲用水消耗量多大等等,從而為不同利益相關(guān)者提供完整的水環(huán)境數(shù)據(jù)全貌。

美國開放水?dāng)?shù)據(jù)計(jì)劃項(xiàng)目框架示意圖,圖片來自 http://acwi.gov/spatial/owdi/

除了政府之外,環(huán)境數(shù)據(jù)也由不同的非政府組織在采集與開放。比如關(guān)注于亞馬遜熱帶雨林的 InfoAmazonia 項(xiàng)目號召記者、NGO工作人員等將雨林相關(guān)的圖片、數(shù)據(jù)、報(bào)道、音頻等開放共享,從而能夠作為不同的圖層疊加到地圖上形成一張高度交互、情境相關(guān)的亞馬遜熱帶雨林地圖,幫助不同人員了解雨林內(nèi)正在發(fā)生的事情,了解哪些地方需要NGO的投入等等。

InfoAmazonia 不但提供交互地圖,其底層數(shù)據(jù)也盡可能開放給大眾下載再利用 。截圖來自http://infoamazonia.org/

而在國內(nèi),由上海青悅牽頭,也于2014年開始了開放環(huán)境數(shù)據(jù)計(jì)劃。計(jì)劃初始主要關(guān)注了兩個(gè)方面的數(shù)據(jù):一為空氣質(zhì)量數(shù)據(jù),二為水質(zhì)量數(shù)據(jù)。 就空氣質(zhì)量數(shù)據(jù)而言,本身已經(jīng)由pm25.in完成了全國監(jiān)控點(diǎn)的數(shù)據(jù)匯總并輸出為API,但由于該平臺所提供數(shù)據(jù)均為實(shí)時(shí)數(shù)據(jù),缺乏對歷史數(shù)據(jù)的積累,因此青悅所做工作便是基于其API進(jìn)行歷史數(shù)據(jù)的存儲,從而構(gòu)建一個(gè)自2014年起積累的歷史空氣質(zhì)量數(shù)據(jù)庫(air.epmap.org)。而對于水而言,初步工作主要聚焦于地表水監(jiān)測數(shù)據(jù)(wat.epmap.org),通過爬取「國家水質(zhì)自動站數(shù)據(jù)實(shí)時(shí)發(fā)布系統(tǒng)」的數(shù)據(jù),從2014年起積累地表水監(jiān)測點(diǎn)的水質(zhì)數(shù)據(jù)。

青悅數(shù)據(jù)開放平臺([epmap.org/ngo/page/open](http://epmap.org/ngo/page/open))

另一方面,青悅開展的飲用水溯源計(jì)劃則著重于通過數(shù)據(jù)還原家庭飲用水自上游水,到水源地,到取水口,到自來水廠,直到家中自來水管(二次供水)整條供水鏈上每一個(gè)環(huán)節(jié)的水質(zhì)。該項(xiàng)目針對上海進(jìn)行了數(shù)據(jù)采集的試點(diǎn),盡可能采集了每一個(gè)環(huán)節(jié)的水資源及其水質(zhì)的數(shù)據(jù)。而在這個(gè)過程中,青悅也注意到目前公部門在公開相應(yīng)水環(huán)境數(shù)據(jù)的過程中尚有諸多不足,大量數(shù)據(jù)未得到公開,或者公開后更新不及時(shí),或者不同部門公開的數(shù)據(jù)格式不同等?;谶@一實(shí)際情況,青悅進(jìn)一步建立了一套針對水環(huán)境數(shù)據(jù)公開的評估框架,先后針對上海、北京、深圳等地開展了政府和事業(yè)單位在公開發(fā)布相應(yīng)水環(huán)境數(shù)據(jù)的情況(epmap.org/ngo/page/report)。

未來可以探索的方向

在談開放環(huán)境數(shù)據(jù)前,我們饒不開的一個(gè)問題是到底現(xiàn)在有哪些數(shù)據(jù)已經(jīng)被采集了,甚至已經(jīng)被公開了,又公開在哪?我們可以對于目前政府、高校、科研機(jī)構(gòu)、 媒體、NGO等已經(jīng)公開的數(shù)據(jù)進(jìn)行一次盤點(diǎn),形成一個(gè)統(tǒng)一的環(huán)境數(shù)據(jù)索引目錄,從而即使在一些數(shù)據(jù)尚未開放之時(shí),也能促進(jìn)不同利益相關(guān)者先行發(fā)現(xiàn)數(shù)據(jù),進(jìn)而找到方法去訪問數(shù)據(jù)。進(jìn)一步,一個(gè)類似于前文提到的環(huán)境數(shù)據(jù)交換平臺是我們需要的,不同來源的數(shù)據(jù)可以在其上得到索引,供人們檢索,并且可以進(jìn)一步直接下載或者共享交換。

另一方面,從青悅的工作中我們也發(fā)現(xiàn)目前環(huán)境數(shù)據(jù)的發(fā)布毫無規(guī)范可言。對于政府負(fù)責(zé)采集和發(fā)布的數(shù)據(jù),雖然一系列數(shù)據(jù)標(biāo)準(zhǔn)存在,但其均只規(guī)范數(shù)據(jù)采集,而對數(shù)據(jù)到底如何發(fā)布則沒有說明。比如,「GB 5749—2006 生活飲用水衛(wèi)生標(biāo)準(zhǔn)」和「CJ/T 206—2005 城市供水水質(zhì)標(biāo)準(zhǔn)」雖然規(guī)定了對于自來水處理廠的出廠水每日要做9項(xiàng)監(jiān)測,但國家和地方上鮮有對該數(shù)據(jù)是否一定要公開、公開幾項(xiàng)作出明確規(guī)定,而給予了數(shù)據(jù)管理方自主裁定權(quán)利去決定是否公開、如何公開。這樣的情況下,各地方的數(shù)據(jù),甚至一個(gè)地方不同水廠的數(shù)據(jù)都有可能在數(shù)據(jù)的內(nèi)容及時(shí)間顆粒度上不一致,對數(shù)據(jù)的加值利用造成了極大的不變。

因而,從數(shù)據(jù)開放的角度來說,我們不單要推進(jìn)的是數(shù)據(jù)應(yīng)當(dāng)從公開走向開放(即對格式、對授權(quán)有更高要求),還要對數(shù)據(jù)的標(biāo)準(zhǔn)予以規(guī)范。國際上不乏民間團(tuán)體對數(shù)據(jù)標(biāo)準(zhǔn)的建議(比如美國「為美國而編程」對美國餐廳衛(wèi)生檢查數(shù)據(jù)設(shè)立的標(biāo)準(zhǔn)等),國內(nèi)的NGO、科技團(tuán)體、媒體等是否能夠沿著這一方向去對數(shù)據(jù)發(fā)布進(jìn)行規(guī)范,按照自身使用需要去提出數(shù)據(jù)的標(biāo)準(zhǔn)(應(yīng)該包含哪些內(nèi)容、時(shí)間顆粒度多大、更新頻次多快等),是很值得探索的一件事。

結(jié)合上述兩點(diǎn),我們可以設(shè)想未來在開展某一環(huán)境垂直議題時(shí)(比如某條特定河流的治理),是否能夠通過數(shù)據(jù)開放來更好協(xié)調(diào)各利益相關(guān)者在議題上更為明確的分工以及資源投入?

面臨的挑戰(zhàn)

當(dāng)然,對于數(shù)據(jù)開放,其本身就是一個(gè)新鮮事物,開展中自然挑戰(zhàn)不斷。

其中最為關(guān)鍵的是,對于數(shù)據(jù)開放,到底應(yīng)該由誰來買單?比如說,對于青悅的工作而言,其實(shí)質(zhì)是青悅作為一家NGO在整理并開放理應(yīng)由政府去開放的數(shù)據(jù),這樣的情況下,誰來買單青悅所需要投入的人力和物力?而在開放之后,如果不收取費(fèi)用,相應(yīng)青悅能從該項(xiàng)工作中獲得的是什么?作為一家NGO如何持續(xù)生存下去?同時(shí),基金會等資助方以及對數(shù)據(jù)進(jìn)行消費(fèi)的高校、NGO同行、媒體等是否又認(rèn)同數(shù)據(jù)開放工作的加值?

另一方面,對于開放自身所采集數(shù)據(jù)的NGO,又應(yīng)該有誰來負(fù)責(zé)買單?是否本身NGO獲得的項(xiàng)目資金就已經(jīng)買單了數(shù)據(jù)開放的工作?如果說免費(fèi)開放行不通而要允許數(shù)據(jù)交易,那么交易又如何體現(xiàn)本身工作的公益性?由NGO采集的數(shù)據(jù),其數(shù)據(jù)質(zhì)量和規(guī)模又是否真的能夠有價(jià)又能有市呢?

立刻行動起來

無論如何,雖然前路還不明朗,但推動相關(guān)議題,我們目前還是有很多力所能及之事:

  1. 積極行動,告訴政府你需要更多開放環(huán)境數(shù)據(jù)
    實(shí)際上各地方已經(jīng)陸續(xù)搭建起了開放數(shù)據(jù)平臺,比如上海(datashanghai.gov.cn)、北京(bjdata.gov.cn)、武漢(wuhandata.gov.cn)等,而在這些平臺上均有數(shù)據(jù)需求表格可以填寫,告知政府部門去推動相應(yīng)數(shù)據(jù)早日釋放到開放數(shù)據(jù)平臺。同時(shí),上海空氣質(zhì)量數(shù)據(jù)在今年已經(jīng)全面開放下載,各地方不妨以此為案例,去推動地方環(huán)保部門開放下載本地的空氣質(zhì)量數(shù)據(jù)。

  2. 從自己做起,開放能夠開放的數(shù)據(jù)
    從一個(gè)小數(shù)據(jù)集開始,我們的NGO甚至個(gè)人都可以開始開放環(huán)境數(shù)據(jù)。比如各地都有所開展的測空氣質(zhì)量、測水質(zhì)的一些數(shù)據(jù),是否能夠留存開放,以供未來再進(jìn)一步使用?這些都是我們現(xiàn)階段可以嘗試去做的

  3. 傳播理念,向身邊的同事、合作機(jī)構(gòu)宣傳開放數(shù)據(jù)
    開放數(shù)據(jù)的推動離不開文化的改變,在大多數(shù)人不了解相應(yīng)理念的前提下,想要去做相關(guān)工作,并讓別人認(rèn)同自己所做的開放數(shù)據(jù)工作就非常困難。我們不妨從身邊人開始,向他們介紹開放數(shù)據(jù)是什么,普及其理念,說不定將來我們就有更多志同道合的戰(zhàn)友一同開放數(shù)據(jù),從而能夠更好地針對議題去合作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容