Google推出Dataset search
結論
Google search讓信息垂手可得,Google dataset search讓數據垂手可得。
從IT時代,到DT時代,真的來臨。
Google dataset search解決了數據科學家、研究學者、科學家、記者等人員“數據從何而來”的問題,通過聚合互聯(lián)網上的開放數據,提供數據搜索引擎,讓數據垂手可得。


1. 價值
基本上為人工智能機器學習所需要的語料提供了一個聚合、檢索平臺。可以檢索互聯(lián)網上公開的數據集。提供開放數據集的檢索手段,為數據科學工作者、數據新聞記者、科學家解決了數據來源問題。
2. 開源數據
Google datase searh搜索的數據集來自互聯(lián)網上各中網站上公開的數據。
在Google dataset search出現(xiàn)之前,已經有很多開源數據網站,開源數據檢索引擎如kaggle。
2.1 Kaggle
2.2 zenodo
2.3 figshare
https://figshare.com/ 科學數據開放訪問網站。可以找數據,也可以創(chuàng)建數據。
2.4 ceicdata
https://www.ceicdata.com/zh-hans,宏觀微觀經濟數據體驗最全面的經濟數據庫,覆蓋超過195+個國家。
2.5 google publicdata
Google攢的一些數據并公開了。
https://www.google.com/publicdata
2.6 加拉大政府公開數據
2.7 DataHub
https://old.datahub.io/ 用戶可以上傳數據,或者檢索數據。
2.8 英國政府公開數據
2.9 世界銀行開放數據
2.10 data.world
這個網站很不錯,數據社交的世界,可以上傳數據,也可以下載數據。
https://data.world/
....
互聯(lián)網上的公開數據太多了,現(xiàn)在好了,google提供dataset search工具,可以檢索這些互聯(lián)網上公開的數據。
3. 誰會受益
3.1 機器學習開發(fā)者
可以下載很多語料用于機器學習的模型訓練。特別是NLP學習者可以檢索到好多有用的語料數據集。比如我試了一下word vector,

3.2 經濟分析師
經濟分析師們可以直接檢索下載各類經濟類數據集,比如中國的GDP等宏觀經濟數據。

3.3 經濟研究學者
經濟研究學者們可以很方便的得到人口、居民消費等數據了。


3.4 數據科學家
大數據行業(yè)的開發(fā)者們,數據學家有福了。
3.5 記者
記者調查問題時可以使用。特別是數據新聞類的寫作,記者可以利用google dataset search。
4. 數據類型
4.1 機器學習訓練用的語料數據
比如wordvector等。
4.2 宏觀經濟類數據
包含世界各國,各產業(yè)宏觀經濟數據。
4.3 人口數據
4.4 居民消費數據
4.5 世界各國政府公開的數據

4.6 學術數據
4.7 氣候數據
4.8 股票價格數據
4.9 航天等科研領域數據
米航空宇宙局(NASA)や米海洋大気庁(NOAA)のほか、Hardvard大學の「Dataverse」などの學術機関のレポジトリのデータが情報提供者や更新日などの情報とともに表示される。