城市駕駛場景下的數(shù)據(jù)集
目標檢測與追蹤,語義分割和場景解析是城市駕駛場景里的自動駕駛中對機器學習最主要的幾大挑戰(zhàn)。在幾年前,這些問題還是計算機視覺中最具挑戰(zhàn)性的問題,如今隨著深度學習的發(fā)展,使得計算機對環(huán)境的準確認知已經(jīng)超過人類的表現(xiàn)了。這種準確的程度帶來了新的挑戰(zhàn):嵌入式系統(tǒng)中的計算,大數(shù)據(jù)集的需求,以及學習過程中的問題(包括類別不平衡,未觀測到的物體,轉角場景等)。要實現(xiàn)自動駕駛的應用,這些問題都要解決。
到目前為止,有一些優(yōu)秀的包含不同的場景、標注和地理分布的公開可用數(shù)據(jù)集。本文總結了目前的一些公開的自動駕駛視覺數(shù)據(jù)集,包括KITTI,Cityscapes,Mapillary Vistas, ApolloScape, nuScenes,D2-City以及最近發(fā)布的 Berkeley Deep Drive’s BDD100K和Waymo。
數(shù)據(jù)集對比
| Classes | Multiple Cities | Environment | Areas | |
|---|---|---|---|---|
| KITTI | 34 | 否 | 白天 | 德國Karlsruhe的鄉(xiāng)下地區(qū)和高速公里上 |
| Cityscapes | 34 | 是 | 白天 | 德國及周邊國家 |
| Mapillary Vistas | 66 | 是 | 白天, 雨天, 雪天, 霧天, 薄霧, 拂曉, 黃昏 和夜晚 | 南北美,歐洲,非洲以及亞洲 |
| ApolloScape | 36 | 否 | 白天, 雪天, 雨天, 霧天 | 中國 |
| BDD100K | 19 | 是 | 白天, 雨天, 雪天, 霧天, 薄霧, 拂曉, 黃昏 和夜晚 | 美國 |
| nuScene | 23 | 是 | 波士頓和新加坡 | |
| D2-City | 12 | 是 | 中國 |
KITTI
KITTI數(shù)據(jù)集由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯(lián)合創(chuàng)辦,是目前國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集。該數(shù)據(jù)集用于評測立體圖像(stereo),光流(optical flow),視覺測距(visual odometry),3D物體檢測(object detection)和3D跟蹤(tracking)等計算機視覺技術在車載環(huán)境下的性能。KITTI包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多達15輛車和30個行人,還有各種程度的遮擋與截斷。整個數(shù)據(jù)集由389對立體圖像和光流圖,39.2 km視覺測距序列以及超過200k 3D標注物體的圖像組成 ,以10Hz的頻率采樣及同步??傮w上看,原始數(shù)據(jù)集被分類為’Road’, ’City’, ’Residential’, ’Campus’ 和 ’Person’。對于3D物體檢測,label細分為car, van, truck, pedestrian, pedestrian(sitting), cyclist, tram以及misc組成。下面是各類別的實例分布。


來源:Hassan Abu Alhaija, Siva Karthik Mustikovela, Lars Mescheder, Andreas Geiger: “Augmented Reality Meets Computer Vision : Efficient Data Generation for Urban Driving Scenes”, 2017; [http://arxiv.org/abs/1708.01566 arXiv:1708.01566]
Cityscapes
Cityscape是一個城市場景語義理解任務中被廣泛使用的數(shù)據(jù)集。該數(shù)據(jù)集在幾個月的時間段中采集,涵蓋了春夏秋三個季節(jié),主要在德國以及周邊國家的50個城市里。圖像是使用車用22cm基準線立體相機采集的。數(shù)據(jù)集包含5000張精標記的和20000張粗標記的圖像,包含遠比KITTI多的類別實例(尤其是行人和車輛)。下面是19類物體中的實例分布。數(shù)據(jù)集中具體文件分布和標注信息見github頁面


來源: Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth: “The Cityscapes Dataset for Semantic Urban Scene Understanding”, 2016; [http://arxiv.org/abs/1604.01685 arXiv:1604.01685].
Mapillary Vistas
該數(shù)據(jù)集很龐大,比Cityscape精標記數(shù)據(jù)大5倍左右。所有圖像都采集自[www.mapillary.com]中的crowdsourced數(shù)據(jù)庫,包含了南北美,歐洲,非洲以及亞洲。其包含了不同的視角,如道路,人行道和越野。其中圖像由不同的拍攝設備獲?。ㄊ謾C,平板,運動相機等),因此包含不同種類的相機噪聲。其含有25k的高清圖片,66/152個標記種類(研用/商用),特別是包含一些如消防栓等低矮障礙物的標記。然而要獲取該數(shù)據(jù)集,無論是研究用還是商用都需要申請。值得一提的是奧迪附屬的自動智能駕駛中心就使用的其商用版本。


來源: Neuhold, Gerhard, et al. “The mapillary vistas dataset for semantic understanding of street scenes.” Proceedings of the International Conference on Computer Vision (ICCV), Venice, Italy. 2017; [https://research.mapillary.com/img/publications/ICCV17a.pdf]
ApolloScape
該數(shù)據(jù)集包含147k張圖像以及對應的像素級標注。其中包括姿態(tài)信息和靜態(tài)背景的深度信息。所有圖像采用Riegl VMX-1HA這個擁有VMX-CS6相機系統(tǒng)的相機采集的,具有3384x2710的分辨率。類別標簽數(shù)據(jù)與CityScapes類似,但是由于在東亞國家三輪車的盛行,他們加入了一個新的三輪車的類別并包括了所有三輪的車輛。


來源: Xinyu Huang, Xinjing Cheng, Qichuan Geng, Binbin Cao, Dingfu Zhou, Peng Wang, Yuanqing Lin: “The ApolloScape Dataset for Autonomous Driving”, 2018; [http://arxiv.org/abs/1803.06184arXiv:1803.06184].
BDD 100K
這個數(shù)據(jù)集是最大的公開自動駕駛數(shù)據(jù)集。其有ApolloScape數(shù)據(jù)集800倍大小,包含總時長高達1100小時的10W個駕駛事件視頻,包含一天中各個時間段和各種天氣情況。對于語義分割任務的使用,其具有和CityScapes數(shù)據(jù)集類似的訓練類別。該數(shù)據(jù)集更多采集自US的NY和灣區(qū)地區(qū)的基礎設施和高速公路交通牌。另外,它還包含了目標檢測、車道線檢測、可駕駛區(qū)域和語義實例分割數(shù)據(jù)集。


來源: Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan: “BDD100K: A Diverse Driving Video Database with Scalable Annotation Tooling”, 2018; [http://arxiv.org/abs/1805.04687 arXiv:1805.04687].
nuScenes
nuScenes受KITTI數(shù)據(jù)集啟發(fā),利用全套自動駕駛傳感器(6個相機,1個LiDAR,5個RADAR,GPS,IMU)采集了Boston和Singapore的1000多個城市場景(因為這兩個城市都因為密集的交通和高度復雜的駕駛環(huán)境而出名)的數(shù)據(jù)。其給出的是目標檢測和追蹤的數(shù)據(jù)集。該數(shù)據(jù)集的特點在于其標記框都是3D的,包含23個類別,采集頻率為2Hz,并注有目標級別的屬性,如可見度、活動和姿態(tài)等。整個數(shù)據(jù)集包含1.4M張照片,390k的LiDAR掃描,1.4M的RADAR掃描,40k個關鍵幀里包含1.4M個目標邊界框。

D2-City
D2-City 提供了超過一萬段行車記錄儀記錄的前視視頻數(shù)據(jù)。所有視頻均以高清(720P)或超高清(1080P)分辨率錄制。其中的約一千段視頻提供了包括目標框位置、目標類別和追蹤ID信息的逐幀標注,涵蓋了共12類行車和道路相關的目標類別。一部分其余的視頻提供了關鍵幀的框標注。
和現(xiàn)有類似數(shù)據(jù)集相比,D2-City 的數(shù)據(jù)采集自中國多個城市,涵蓋了不同的天氣、道路、交通狀況,尤其是極復雜和多樣性的交通場景。
Waymo
2019.8.21谷歌的Waymo團隊公開了他們的自動駕駛數(shù)據(jù)集,其中視覺部分包括了五個攝像頭的數(shù)據(jù)(前方,左前,右前,左側,右側),并包含四個類別的標簽(車輛,行人,騎行者,路標)。總除了攝像頭信息,其還包括其他傳感器數(shù)據(jù),共包含了1000段20秒的各傳感器數(shù)據(jù),并會持續(xù)更新。目前包括的數(shù)據(jù)有:
- 1000段20秒的片段,在不同的地理環(huán)境和條件下以10Hz收集(200,000幀)。
- 傳感器數(shù)據(jù):
- 1個中程激光雷達
- 4個短程激光雷達
- 5個攝像頭(前方和側面)
- 同步的激光雷達與相機數(shù)據(jù)
- 激光雷達至相機的投影
- 傳感器標定和車輛位姿
- 標簽數(shù)據(jù):
- 4類目標物體的標簽-車輛、行人、騎行者、路標(其中100段視頻)
- 12M含有跟蹤ID的3D邊界框標簽(LiDAR數(shù)據(jù))(所有1000段數(shù)據(jù))
- 1.2M的邊界框跟蹤ID標簽(相機)