日韩高清不卡一二三,精品少妇在线视频,在线天堂999

【經(jīng)典】這些是在 AI 領(lǐng)域中非常著名、眾所周知的數(shù)據(jù)集。很少有研究者或工程師沒有聽說過它們。
【有用】這些是更加接近現(xiàn)實世界的、精心設(shè)計的數(shù)據(jù)集。而且，這些數(shù)據(jù)集通常在產(chǎn)品和研發(fā)兩方面都有用。
【學術(shù)】這些是在機器學習和 AI 的學術(shù)研究中通常作為基準或基線使用的數(shù)據(jù)集。無論好壞，研究人員都使用這些數(shù)據(jù)集來驗證算法。
【陳舊】這些數(shù)據(jù)集，無論是否實用，已經(jīng)有相當長歷史了。
計算機視覺
【學術(shù)、經(jīng)典、陳舊】MNIST：最常用的完整性檢查數(shù)據(jù)集，圖像大小為25×25的B＆W手寫數(shù)字，但在 MNIST 上性能良好，并不意味著模型本身很好。
地址：http://pjreddie.com/projects/mnist-in-csv/
【經(jīng)典、陳舊】CIFAR 10 & CIFAR 100：32×32的彩色圖像數(shù)據(jù)集，雖然已經(jīng)不常用，但也可以用作完整性檢查。
地址：https://www.cs.toronto.edu/~kriz/cifar.html
【有用、學術(shù)、經(jīng)典】ImageNet：新算法實際上使用的圖像數(shù)據(jù)集，很多圖像 API 公司從其 REST 接口獲取標簽，這些標簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個類很相似。
地址：http://image-net.org/
LSUN：用于場景理解和多任務輔助（房間布局估計，顯著性預測等）。
地址：http://lsun.cs.princeton.edu/2016/
【學術(shù)】PASCAL VOC：一個通用的圖像分割/分類數(shù)據(jù)集，對構(gòu)建真實圖像的注釋用處不是特別大，但對于基線很有用。
地址：http://host.robots.ox.ac.uk/pascal/VOC/
【學術(shù)】SVHN：數(shù)據(jù)來源于 Google 街景視圖中的房屋數(shù)量，可以用作野外的周期性 MNIST。
地址：http://ufldl.stanford.edu/housenumbers/
MS COCO：一個通用的圖像理解/字幕數(shù)據(jù)集。
地址：http://mscoco.org/
【有用】Visual Genome：非常詳細的視覺知識數(shù)據(jù)集，包含約100K圖像的深字母。
地址：http://visualgenome.org/
【有用、學術(shù)、經(jīng)典、陳舊】Labeled Faces in the Wild：使用名稱標識符標記的面部區(qū)域數(shù)據(jù)集，常用于訓練面部識別系統(tǒng)。
地址：http://vis-www.cs.umass.edu/lfw/
自然語言處理
【有用、學術(shù)】Text Classification Datasets：一個文本分類數(shù)據(jù)集，包含8個可用于文本分類的子數(shù)據(jù)集，樣本大小從120K到3.6M，問題范圍從2級到14級，數(shù)據(jù)來源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址：http://t.cn/RJDVxr4
【有用、學術(shù)】WikiText：由 Salesforce MetaMind 設(shè)計的大型語言建模語料庫，來源于維基百科文章。
地址：http://t.cn/RJDVSRy/
【有用】Question Pairs：第一個來源于 Quora 的包含重復/語義相似性標簽的數(shù)據(jù)集。
地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
【有用、學術(shù)】SQuAD：斯坦福大學的問答數(shù)據(jù)集，廣泛用于問題回答和閱讀理解，其中每個問題和答案都是文本片段的形式。
地址：https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset：人工生成的問題/答案對，難度評級來自維基百科文章。
地址：http://www.cs.cmu.edu/~ark/QA-data/
【有用】Maluuba Datasets：用于狀態(tài)性的自然語言理解研究的人工制作的精細數(shù)據(jù)集。
地址：https://datasets.maluuba.com/
【有用、學術(shù)】Billion Words：一個大型、通用的語言建模數(shù)據(jù)集，常用于如 word2vec 或 Glove 的分布式詞語表征。
地址：http://www.statmt.org/lm-benchmark/
【有用、學術(shù)】Common Crawl：Petabyte 級規(guī)模的網(wǎng)絡(luò)爬行數(shù)據(jù)集，常用于學習詞嵌入。
地址：http://commoncrawl.org/the-data/
【學術(shù)、經(jīng)典】bAbi：來自 FAIR 的閱讀理解和問答應答數(shù)據(jù)集。
地址：https://research.fb.com/projects/babi/
【學術(shù)】The Children’s Book Test：從古登堡計劃的童書中提取的（問題+上下文，答案）的基線，該數(shù)據(jù)集對問題回答、閱讀理解和模擬陳述有用。
地址：https://research.fb.com/projects/babi/
【學術(shù)、經(jīng)典、陳舊】Stanford Sentiment Treebank：一個標準情感數(shù)據(jù)集，數(shù)據(jù)集中每個句子解析樹的每個節(jié)點都有精細的情感注釋。
地址：http://nlp.stanford.edu/sentiment/code.html
【經(jīng)典、陳舊】20 Newsgroups：一個文本分類的經(jīng)典數(shù)據(jù)集，通常用于純分類或作為任何 IR／索引算法的基準。
地址：http://qwone.com/~jason/20Newsgroups/
【經(jīng)典、陳舊】Reuters：一個較舊，完全基于分類的新聞文本數(shù)據(jù)集，常用于教程。
地址：http://t.cn/RJDfi7T
【經(jīng)典、陳舊】IMDB：一個比較舊，規(guī)模也相對較小的二院情感分類數(shù)據(jù)集。
地址：http://ai.stanford.edu/~amaas/data/sentiment/
【經(jīng)典、陳舊】UCI’s Spambase：這是一個年代較久遠的、經(jīng)典的垃圾電子郵件數(shù)據(jù)集，來源是著名的 UCI 機器學習庫。由于該數(shù)據(jù)集在設(shè)計細節(jié)上的獨特之處，可以用作學習個性化垃圾郵件過濾的一個有趣的基線。
地址：https://archive.ics.uci.edu/ml/datasets/Spambase
語音

大多數(shù)語音識別數(shù)據(jù)集是專有的，因為這些數(shù)據(jù)對于創(chuàng)建該數(shù)據(jù)集的公司來說具有很大價值。因此，這部分的可用公開數(shù)據(jù)集多數(shù)比較陳舊。
【學術(shù)、陳舊】2000 HUB5 English：僅包含英語的語音數(shù)據(jù)集，百度最近的論文《深度語音：擴展端對端語音識別》使用的是這個數(shù)據(jù)集。
地址：https://catalog.ldc.upenn.edu/LDC2002T43
【學術(shù)】LibriSpeech：包含文本和語音的有聲讀物數(shù)據(jù)集，由近500小時的多人朗讀的清晰音頻組成，且包含書籍的章節(jié)結(jié)構(gòu)。
地址：http://www.openslr.org/12/
【有用、學術(shù)】VoxForge：帶口音的語音清潔數(shù)據(jù)集，對測試模型在不同重音或語調(diào)下的魯棒性非常有用。
地址：http://www.voxforge.org/
【學術(shù)、經(jīng)典、陳舊】TIMIT：英文語音識別數(shù)據(jù)集。
地址：https://catalog.ldc.upenn.edu/LDC93S1
【有用】CHIME：包含環(huán)境噪音的語音識別挑戰(zhàn)賽數(shù)據(jù)集。該數(shù)據(jù)集包含真實、模擬和清潔的語音錄音，具體來說，包括4個揚聲器在4個有噪音環(huán)境下進行的將近9000次錄音，模擬數(shù)據(jù)是將多個環(huán)境組合及在無噪音環(huán)境下記錄的數(shù)據(jù)。
地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM：TED Talk 的音頻數(shù)據(jù)集，包含1495個TED演講的錄音及全文的文字稿。
地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
【經(jīng)典、陳舊】Netflix Challenge：第一個主要的 Kaggle 挑戰(zhàn)賽數(shù)據(jù)集，但由于隱私問題，只有非正式的數(shù)據(jù)集提供。
地址：http://www.netflixprize.com/
【有用、學術(shù)、經(jīng)典】MovieLens：多種大小的電影評論數(shù)據(jù)，通常用于基線協(xié)同過濾。
地址：https://grouplens.org/datasets/movielens/
Million Song Dataset：Kaggle 上的大型、元數(shù)據(jù)豐富的開源數(shù)據(jù)集，對混合推薦系統(tǒng)有用。
地址：https://www.kaggle.com/c/msdchallenge
【有用】Last.fm：可訪問底層社交網(wǎng)絡(luò)及其他元數(shù)據(jù)的音樂推薦數(shù)據(jù)集，這些元數(shù)據(jù)對混合系統(tǒng)很有用。
地址：http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表

【學術(shù)】Amazon Co-Purchasing and Amazon Reviews：亞馬遜網(wǎng)站的“買了該產(chǎn)品的用戶也買了……”板塊的數(shù)據(jù)，以及相關(guān)產(chǎn)品的亞馬遜評論數(shù)據(jù)。適合用于推薦系統(tǒng)。
地址：http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset：包含103,750,348個 Friendster 用戶的好友列表的匿名數(shù)據(jù)集。
地址：https://archive.org/details/friendster-dataset-201107
地理空間數(shù)據(jù)
【有用、經(jīng)典】OpenStreetMap：免費許可的全球矢量數(shù)據(jù)集，包含美國人口普查局的 TIGER數(shù)據(jù)。
地址：http://wiki.openstreetmap.org/wiki/Planet.osm
【有用】Landsat8：衛(wèi)星拍攝的地球表面照片數(shù)據(jù)，每隔幾周更新一次。
地址：https://landsat.usgs.gov/landsat-8
【有用】NEXRAD：多普勒雷達掃描的美國大氣環(huán)境數(shù)據(jù)。
地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
結(jié)語：
人們常常以為在一個數(shù)據(jù)集上解決了問題就等同于得到好的產(chǎn)品了。但在使用這些數(shù)據(jù)集作為驗證或概念證明時，不要忘記用更新、更接近現(xiàn)實的數(shù)據(jù)來測試產(chǎn)品的功能，從而能夠作出改進。一個成功的以數(shù)據(jù)作為驅(qū)動力的企業(yè)通常能夠從他們收集新的、專有的數(shù)據(jù)的能力中獲益，進而提升競爭力。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

AI 開源數(shù)據(jù)集 Top 39：NLP、語音等 6 大類

AI 開源數(shù)據(jù)集 Top 39：NLP、語音等 6 大類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

AI 開源數(shù)據(jù)集 Top 39：NLP、語音等 6 大類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av