AI 開源數(shù)據(jù)集 Top 39:NLP、語音等 6 大類

【經(jīng)典】這些是在 AI 領(lǐng)域中非常著名、眾所周知的數(shù)據(jù)集。很少有研究者或工程師沒有聽說過它們。
【有用】這些是更加接近現(xiàn)實世界的、精心設(shè)計的數(shù)據(jù)集。而且,這些數(shù)據(jù)集通常在產(chǎn)品和研發(fā)兩方面都有用。
【學術(shù)】這些是在機器學習和 AI 的學術(shù)研究中通常作為基準或基線使用的數(shù)據(jù)集。無論好壞,研究人員都使用這些數(shù)據(jù)集來驗證算法。
【陳舊】這些數(shù)據(jù)集,無論是否實用,已經(jīng)有相當長歷史了。
計算機視覺
【學術(shù)、經(jīng)典、陳舊】MNIST:最常用的完整性檢查數(shù)據(jù)集,圖像大小為25×25的B&W手寫數(shù)字,但在 MNIST 上性能良好,并不意味著模型本身很好。
地址:http://pjreddie.com/projects/mnist-in-csv/
【經(jīng)典、陳舊】CIFAR 10 & CIFAR 100:32×32的彩色圖像數(shù)據(jù)集,雖然已經(jīng)不常用,但也可以用作完整性檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
【有用、學術(shù)、經(jīng)典】ImageNet:新算法實際上使用的圖像數(shù)據(jù)集,很多圖像 API 公司從其 REST 接口獲取標簽,這些標簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個類很相似。
地址:http://image-net.org/
LSUN:用于場景理解和多任務輔助(房間布局估計,顯著性預測等)。
地址:http://lsun.cs.princeton.edu/2016/
【學術(shù)】PASCAL VOC:一個通用的圖像分割/分類數(shù)據(jù)集,對構(gòu)建真實圖像的注釋用處不是特別大,但對于基線很有用。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
【學術(shù)】SVHN:數(shù)據(jù)來源于 Google 街景視圖中的房屋數(shù)量,可以用作野外的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO:一個通用的圖像理解/字幕數(shù)據(jù)集。
地址:http://mscoco.org/
【有用】Visual Genome:非常詳細的視覺知識數(shù)據(jù)集,包含約100K圖像的深字母。
地址:http://visualgenome.org/
【有用、學術(shù)、經(jīng)典、陳舊】Labeled Faces in the Wild:使用名稱標識符標記的面部區(qū)域數(shù)據(jù)集,常用于訓練面部識別系統(tǒng)。
地址:http://vis-www.cs.umass.edu/lfw/
自然語言處理
【有用、學術(shù)】Text Classification Datasets:一個文本分類數(shù)據(jù)集,包含8個可用于文本分類的子數(shù)據(jù)集,樣本大小從120K到3.6M,問題范圍從2級到14級,數(shù)據(jù)來源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址:http://t.cn/RJDVxr4
【有用、學術(shù)】WikiText:由 Salesforce MetaMind 設(shè)計的大型語言建模語料庫,來源于維基百科文章。
地址:http://t.cn/RJDVSRy/
【有用】Question Pairs:第一個來源于 Quora 的包含重復/語義相似性標簽的數(shù)據(jù)集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用、學術(shù)】SQuAD:斯坦福大學的問答數(shù)據(jù)集,廣泛用于問題回答和閱讀理解,其中每個問題和答案都是文本片段的形式。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset:人工生成的問題/答案對,難度評級來自維基百科文章。
地址:http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba Datasets:用于狀態(tài)性的自然語言理解研究的人工制作的精細數(shù)據(jù)集。
地址:https://datasets.maluuba.com/
【有用、學術(shù)】Billion Words:一個大型、通用的語言建模數(shù)據(jù)集,常用于如 word2vec 或 Glove 的分布式詞語表征。
地址:http://www.statmt.org/lm-benchmark/
【有用、學術(shù)】Common Crawl:Petabyte 級規(guī)模的網(wǎng)絡(luò)爬行數(shù)據(jù)集,常用于學習詞嵌入。
地址:http://commoncrawl.org/the-data/
【學術(shù)、經(jīng)典】bAbi:來自 FAIR 的閱讀理解和問答應答數(shù)據(jù)集。
地址:https://research.fb.com/projects/babi/
【學術(shù)】The Children’s Book Test:從古登堡計劃的童書中提取的(問題+上下文,答案)的基線,該數(shù)據(jù)集對問題回答、閱讀理解和模擬陳述有用。
地址:https://research.fb.com/projects/babi/
【學術(shù)、經(jīng)典、陳舊】Stanford Sentiment Treebank:一個標準情感數(shù)據(jù)集,數(shù)據(jù)集中每個句子解析樹的每個節(jié)點都有精細的情感注釋。
地址:http://nlp.stanford.edu/sentiment/code.html
【經(jīng)典、陳舊】20 Newsgroups:一個文本分類的經(jīng)典數(shù)據(jù)集,通常用于純分類或作為任何 IR/索引算法的基準。
地址:http://qwone.com/~jason/20Newsgroups/
【經(jīng)典、陳舊】Reuters:一個較舊,完全基于分類的新聞文本數(shù)據(jù)集,常用于教程。
地址:http://t.cn/RJDfi7T
【經(jīng)典、陳舊】IMDB:一個比較舊,規(guī)模也相對較小的二院情感分類數(shù)據(jù)集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
【經(jīng)典、陳舊】UCI’s Spambase:這是一個年代較久遠的、經(jīng)典的垃圾電子郵件數(shù)據(jù)集,來源是著名的 UCI 機器學習庫。由于該數(shù)據(jù)集在設(shè)計細節(jié)上的獨特之處,可以用作學習個性化垃圾郵件過濾的一個有趣的基線。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語音


大多數(shù)語音識別數(shù)據(jù)集是專有的,因為這些數(shù)據(jù)對于創(chuàng)建該數(shù)據(jù)集的公司來說具有很大價值。因此,這部分的可用公開數(shù)據(jù)集多數(shù)比較陳舊。
【學術(shù)、陳舊】2000 HUB5 English:僅包含英語的語音數(shù)據(jù)集,百度最近的論文《深度語音:擴展端對端語音識別》使用的是這個數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
【學術(shù)】LibriSpeech:包含文本和語音的有聲讀物數(shù)據(jù)集,由近500小時的多人朗讀的清晰音頻組成,且包含書籍的章節(jié)結(jié)構(gòu)。
地址:http://www.openslr.org/12/
【有用、學術(shù)】VoxForge:帶口音的語音清潔數(shù)據(jù)集,對測試模型在不同重音或語調(diào)下的魯棒性非常有用。
地址:http://www.voxforge.org/
【學術(shù)、經(jīng)典、陳舊】TIMIT:英文語音識別數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME:包含環(huán)境噪音的語音識別挑戰(zhàn)賽數(shù)據(jù)集。該數(shù)據(jù)集包含真實、模擬和清潔的語音錄音,具體來說,包括4個揚聲器在4個有噪音環(huán)境下進行的將近9000次錄音,模擬數(shù)據(jù)是將多個環(huán)境組合及在無噪音環(huán)境下記錄的數(shù)據(jù)。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED Talk 的音頻數(shù)據(jù)集,包含1495個TED演講的錄音及全文的文字稿。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
【經(jīng)典、陳舊】Netflix Challenge:第一個主要的 Kaggle 挑戰(zhàn)賽數(shù)據(jù)集,但由于隱私問題,只有非正式的數(shù)據(jù)集提供。
地址:http://www.netflixprize.com/
【有用、學術(shù)、經(jīng)典】MovieLens:多種大小的電影評論數(shù)據(jù),通常用于基線協(xié)同過濾。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:Kaggle 上的大型、元數(shù)據(jù)豐富的開源數(shù)據(jù)集,對混合推薦系統(tǒng)有用。
地址:https://www.kaggle.com/c/msdchallenge
【有用】Last.fm:可訪問底層社交網(wǎng)絡(luò)及其他元數(shù)據(jù)的音樂推薦數(shù)據(jù)集,這些元數(shù)據(jù)對混合系統(tǒng)很有用。
地址:http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表

【學術(shù)】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網(wǎng)站的“買了該產(chǎn)品的用戶也買了……”板塊的數(shù)據(jù),以及相關(guān)產(chǎn)品的亞馬遜評論數(shù)據(jù)。適合用于推薦系統(tǒng)。
地址:http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:包含103,750,348個 Friendster 用戶的好友列表的匿名數(shù)據(jù)集。
地址:https://archive.org/details/friendster-dataset-201107
地理空間數(shù)據(jù)
【有用、經(jīng)典】OpenStreetMap:免費許可的全球矢量數(shù)據(jù)集,包含美國人口普查局的 TIGER數(shù)據(jù)。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8:衛(wèi)星拍攝的地球表面照片數(shù)據(jù),每隔幾周更新一次。
地址:https://landsat.usgs.gov/landsat-8
【有用】NEXRAD:多普勒雷達掃描的美國大氣環(huán)境數(shù)據(jù)。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
結(jié)語:
人們常常以為在一個數(shù)據(jù)集上解決了問題就等同于得到好的產(chǎn)品了。但在使用這些數(shù)據(jù)集作為驗證或概念證明時,不要忘記用更新、更接近現(xiàn)實的數(shù)據(jù)來測試產(chǎn)品的功能,從而能夠作出改進。一個成功的以數(shù)據(jù)作為驅(qū)動力的企業(yè)通常能夠從他們收集新的、專有的數(shù)據(jù)的能力中獲益,進而提升競爭力。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,502評論 19 139
  • # Python 資源大全中文版 我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,822評論 6 427
  • 現(xiàn)如今構(gòu)建人工智能或機器學習系統(tǒng)比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch ...
    方弟閱讀 2,973評論 1 8
  • 風裹挾著塑料袋 這明亮的世界 垃圾如海 拾荒者在這些珍寶中一次次徘徊 面包在角落等待 希望有人察覺 ...
    _趙四閱讀 388評論 2 2
  • 企業(yè)收集大量數(shù)據(jù),包括他們的消費者和他們的市場項目。這些信息已經(jīng)從一個流行詞過渡到每個營銷人員的工具庫中不可或缺的...
    盛行西風5閱讀 167評論 0 1

友情鏈接更多精彩內(nèi)容