Pose Estimation Overview

01.任務(wù)概覽

人體姿態(tài)估計(jì)的任務(wù)是從包含人體的圖片中檢測(cè)出人體關(guān)鍵點(diǎn),并恢復(fù)人體位姿。隨著深度學(xué)習(xí)的發(fā)展,越來(lái)越多的深度學(xué)習(xí)方法被應(yīng)用到了人體姿態(tài)估計(jì)任務(wù)上來(lái)。

左:COCO關(guān)鍵點(diǎn)格式人體骨架。右:將骨架映射到人體圖片上

難點(diǎn)

2D Pose estimation主要面臨的困難:遮擋、復(fù)雜背景、光照、真實(shí)世界的復(fù)雜姿態(tài)、人的尺度不一、拍攝角度不固定等。

主流方法

1. 單人姿態(tài)估計(jì)

傳統(tǒng)方法:基于Pictorial Structures, DPM

? 基于深度學(xué)習(xí)的算法包括直接回歸坐標(biāo)(Deep Pose)和通過(guò)熱力圖回歸坐標(biāo)(CPM, Hourlgass)

目前單人姿態(tài)估計(jì),主流算法是基于Hourlgass各種更改結(jié)構(gòu)的算法。

2. 多人姿態(tài)估計(jì)

(1)Top-Down Approaches,即two-step framework,就是先進(jìn)行行人檢測(cè),得到邊界框,然后在每一個(gè)邊界框中檢測(cè)人體關(guān)鍵點(diǎn),連接成一個(gè)人形,缺點(diǎn)就是受檢測(cè)框的影響太大,漏檢,誤檢,IOU大小等都會(huì)對(duì)結(jié)果有影響,算法包括RMPE、Mask-RCNN 等。

(2)Bottom-Up Approaches,即part-based framework,就是先對(duì)整個(gè)圖片進(jìn)行每個(gè)人體關(guān)鍵點(diǎn)部件的檢測(cè),再將檢測(cè)到的部件拼接成一個(gè)人形,缺點(diǎn)就是會(huì)將不同人的不同部位按一個(gè)人進(jìn)行拼接,代表方法就是openpose、DeepCut 、PAFs。

02.單人姿態(tài)檢測(cè)

Stacked Hourglass(ECCV_2017)

paper:Stacked Hourglass Networks for Human Pose Estimation
code:https://github.com/princeton-vl/pose-hg-train

這篇論文提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)Stacked Hourglass Networks來(lái)對(duì)人體的姿態(tài)進(jìn)行識(shí)別,這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)能夠捕獲并整合圖像所有尺度的信息。之所以稱(chēng)這種網(wǎng)絡(luò)為Stacked Hourglass Networks,主要是它長(zhǎng)得很像堆疊起來(lái)的沙漏。
Hourglass模塊設(shè)計(jì)的初衷就是為了捕捉每個(gè)尺度下的信息,因?yàn)椴蹲较衲?,手這些部分的時(shí)候需要局部的特征,而最后對(duì)人體姿態(tài)進(jìn)行預(yù)測(cè)的時(shí)候又需要整體的信息。為了捕獲圖片在多個(gè)尺度下的特征,通常的做法是使用多個(gè)pipeline分別單獨(dú)處理不同尺度下的信息,然后再網(wǎng)絡(luò)的后面部分再組合這些特征,而作者使用的方法就是用帶有skip layers的單個(gè)pipeline來(lái)保存每個(gè)尺度下的空間信息。

03. 多人姿態(tài)檢測(cè)

RMPE(ICCV_2017)

性能:MPII AP82.1%
paper:RMPE: Regional Multi-Person Pose Estimation
code:https://github.com/MVIG-SJTU/RMPE

RMPE是一個(gè)流行的自頂向下姿態(tài)估計(jì)算法,自頂向下方法的性能通常依賴于人體檢測(cè)器精度,因此不太精確的人體檢測(cè)框定位以及重復(fù)候選框會(huì)使姿態(tài)檢測(cè)算法性能降低,該論文致力于解決這些問(wèn)題。


為解決這一問(wèn)題,作者提出了使用對(duì)稱(chēng)空間變換網(wǎng)絡(luò)(Symmetric Spatial Transformer Network,SSTN)來(lái)從不準(zhǔn)確的候選框中抽取高質(zhì)量的單人區(qū)域。然后,作者使用了一個(gè)單人的姿態(tài)估計(jì)器(Single Person Pose Estimator,SPPE)來(lái)從抽取到的區(qū)域中估計(jì)此人的姿態(tài)骨架。接著,作者用一個(gè)空間逆變換網(wǎng)絡(luò)(Spatial De-Transformer Network,SDTN),將估計(jì)出的姿態(tài)重新映射到圖像坐標(biāo)系下。最后,用一個(gè)參數(shù)化的姿態(tài)非極大抑制(Non-Maximum Suppression,NMS)方法來(lái)處理重復(fù)預(yù)測(cè)的問(wèn)題。

另外,作者還引入了一種姿態(tài)候選生成器(Pose Guided Proposals Generator),來(lái)增廣訓(xùn)練樣本,以便更好地訓(xùn)練 SPPE 和 SSTN 網(wǎng)絡(luò)。RMPE 的顯著特征是,該方法可以推廣到任意的人體檢測(cè)算法和 SSPE 的組合。

Generative Partition Networks

性能:MPII AP80.4,WAF AP84.8%
paper:Generative Partition Networks for Multi-Person Pose Estimation
code:https://github.com/NieXC/pytorch-ppn
這篇文章提出了一種生成劃分網(wǎng)絡(luò)(GPN)來(lái)解決多人姿態(tài)估計(jì)問(wèn)題,與現(xiàn)有的自頂向下和自底向上的模型不同,GPN提出了一種全新的策略:
它從整張圖片的多人關(guān)節(jié)候選區(qū)域生成單個(gè)人的關(guān)節(jié)劃分,然后再同時(shí)對(duì)單個(gè)人的關(guān)節(jié)實(shí)例做推斷。GPN設(shè)計(jì)了一個(gè)生成模型,該模型通過(guò)執(zhí)行一個(gè)前向傳播來(lái)有效生成具有單個(gè)人體關(guān)鍵節(jié)點(diǎn)劃分的人結(jié)構(gòu)。此外,它將人體關(guān)鍵節(jié)點(diǎn)構(gòu)型的推理過(guò)程作為一個(gè)圖劃分問(wèn)題進(jìn)行推斷,并對(duì)每個(gè)人體姿態(tài)檢測(cè)問(wèn)題進(jìn)行局部?jī)?yōu)化,降低了復(fù)雜度,提高了性能。

Associative Embedding(NIPS_2017)

性能:MPII AP77.5%
paper:Associative Embedding:End-to-End Learning for Joint Detection and Grouping
code: https://github.com/stevehjc/pose-ae-demo-tf
目前多人目標(biāo)檢測(cè)多用bottom-up方法,即先檢測(cè)關(guān)節(jié)然后分組,而相互依賴的兩個(gè)步驟會(huì)導(dǎo)致誤差的疊加。這篇文章致力于將檢測(cè)和分組合并到一起,構(gòu)建完全端到端的網(wǎng)絡(luò),作者認(rèn)為后一階段可以完全嵌入到前一個(gè)階段,即嵌入式聯(lián)結(jié)(associative embedding)。
基本方法是在檢測(cè)環(huán)節(jié)直接給出檢測(cè)結(jié)果編號(hào),表明它屬于哪個(gè)物體,所得到的編號(hào)標(biāo)簽就代表了分組。論文研究detection and grouping緊密結(jié)合性,在單一階段end-to-end實(shí)現(xiàn)detection and grouping。提出 associative embedding,說(shuō)白了就是在每次檢測(cè)過(guò)程中,用tag識(shí)別不同group,相同tag的detection分成相同的group。

OpenPose(CVPR_2017)

性能: MPII AP75.6%
paper:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
code:
https://github.com/ZheC/Realtime_Multi-Person_Pose_Estimation

這篇文章提出一種PAF方法,能夠有效對(duì)多人進(jìn)行姿態(tài)估計(jì),同時(shí)在保證精度的情況下,做到實(shí)時(shí)效果。文章提出的Part Affinity Fields(PAFs)是一個(gè)2D向量集合,每一個(gè)2D向量集合都會(huì)編碼一個(gè)limb的位置和方向。這些fields和關(guān)節(jié)的置信圖一起經(jīng)過(guò)CNN進(jìn)行聯(lián)合學(xué)習(xí)和預(yù)測(cè)。
文章代碼總共分為兩條線:
第一條線:求所有的關(guān)鍵點(diǎn)(頭、肩膀、手肘、手腕.....)
1)一共兩個(gè)cnn,第一個(gè)cnn的輸入是原圖,輸出是熱圖(每一個(gè)熱圖包含某一種關(guān)鍵點(diǎn))。
2)第二個(gè)cnn輸入是上一個(gè)cnn得到的所有熱圖和原圖,輸出還是熱圖。
循環(huán)直至收斂

第二條線:求所有關(guān)節(jié)區(qū)域
1)一共兩個(gè)cnn,第一個(gè)cnn輸入是原圖,輸出是熱圖(每一個(gè)熱圖包含某一種連接區(qū)域)
,其實(shí)他們是一整片區(qū)域,不過(guò)每個(gè)地方的概率不同。
2)第二個(gè)cnn輸入是上一個(gè)cnn得到的所有熱圖和原圖,輸出還是熱圖。
循環(huán)直至收斂

根據(jù)前邊兩個(gè)階段得到的兩個(gè)熱圖,計(jì)算哪兩個(gè)點(diǎn)連接比較好。這就要根據(jù)關(guān)節(jié)區(qū)域和點(diǎn)的位置來(lái)計(jì)算每個(gè)像素的小法向,生成一個(gè)法向圖。

根據(jù)前邊生成的法向圖,第一條線中最后得到的各個(gè)點(diǎn)的連線,確定哪兩個(gè)點(diǎn)的連線的概率最大,找到所有這樣的線。找到一個(gè)線就可以開(kāi)始用最小生成樹(shù)算法來(lái)找下一條線,最終得到一個(gè)人的骨架,然后得到所有的骨架,如果有連接不完整的,那就殘缺的存在就好了。

Articulated Tracking(CVPR_2017)

性能:MPII AP74.3%
paper:ArtTrack: Articulated Multi-person Tracking in the Wild
code:https://github.com/eldar/pose-tensorflow

這篇論文實(shí)現(xiàn)的是對(duì)視頻中多人進(jìn)行pose tracking,出發(fā)點(diǎn)是單幀人體姿態(tài),但實(shí)際上這個(gè)方法更快,主要通過(guò)如下方面做到:
(1)通過(guò)簡(jiǎn)化和稀疏body-part關(guān)系圖和利用最新方法,以更快推理
(2)將大量工作轉(zhuǎn)移到前饋卷積神經(jīng)網(wǎng)絡(luò),使得在很復(fù)雜的情況下也能檢測(cè)和推理屬于同一個(gè)人的身體關(guān)節(jié)
這篇論文旨在解決來(lái)自人與人或者處在圖像邊緣所發(fā)生的遮擋問(wèn)題,需要不僅僅考慮單幀圖像中關(guān)鍵點(diǎn)關(guān)聯(lián)的幾何信息,還有多種圖像線索的組合以及對(duì)多人進(jìn)行建模。為了充分利用可用的圖像信息,學(xué)習(xí)了一種端到端的卷積神經(jīng)網(wǎng)絡(luò)來(lái)關(guān)聯(lián)人體關(guān)節(jié)和推斷特定人的模型。然后將這些person-to-person的關(guān)聯(lián)相應(yīng)合并到一個(gè)框架中,以共同推理在圖像和時(shí)間范圍內(nèi)的身體關(guān)節(jié)分配。

DeeperCut

性能:MPII AP59.4%,WAF AP88.1%
paper:DeeperCut: A Deeper, Stronger, and FasterMulti-Person Pose Estimation Model

Deepercut是在deepcut的基礎(chǔ)上,對(duì)其進(jìn)行改進(jìn),改進(jìn)的方式基于以下兩個(gè)方面:
(1)使用最新提出的residual net進(jìn)行body part的提取,效果更加準(zhǔn)確,精度更高
(2)使用Image-Conditioned Pairwise Terms的方法,能夠?qū)⒈姸嗪蜻x區(qū)域的節(jié)點(diǎn)壓縮到更少數(shù)量的節(jié)點(diǎn)。

DeepCut模型使用CNN提取body part candidates,每一個(gè)關(guān)節(jié)點(diǎn)作為圖中的一個(gè)節(jié)點(diǎn),所有這些關(guān)鍵點(diǎn)之間的兩兩連線組成一個(gè)dense graph,節(jié)點(diǎn)之間的關(guān)聯(lián)性作為圖中節(jié)點(diǎn)之間的權(quán)重。這時(shí),可以將其看作一個(gè)組合優(yōu)化問(wèn)題,將屬于同一個(gè)人的關(guān)節(jié)點(diǎn)歸為一類(lèi),每個(gè)人作為一個(gè)單獨(dú)的類(lèi)。同時(shí),另一條分支,需要對(duì)檢測(cè)出來(lái)的節(jié)點(diǎn)進(jìn)行標(biāo)記,確定他們屬于人體的哪一個(gè)部分。最后結(jié)合分類(lèi)的人結(jié)合標(biāo)記的部分構(gòu)成最終的每個(gè)人的姿態(tài)估計(jì)。

主要實(shí)現(xiàn)細(xì)節(jié)如下:

  1. 對(duì)于多人姿態(tài)估計(jì)問(wèn)題,可以轉(zhuǎn)換為一個(gè)優(yōu)化問(wèn)題。優(yōu)化問(wèn)題需要解決三個(gè)問(wèn)題:
    a,body part candidate 的選擇,即節(jié)點(diǎn)的選擇
    b,每個(gè)選擇的節(jié)點(diǎn)的標(biāo)記問(wèn)題,即該節(jié)點(diǎn)屬于身體的哪個(gè)部分,eg:胳膊,腿,手等
    c,分類(lèi)問(wèn)題,即每個(gè)選擇的節(jié)點(diǎn)屬于哪一個(gè)人
  2. 通過(guò)圖論節(jié)點(diǎn)的聚類(lèi)問(wèn)題,有效的使用了非極大值抑制
  3. 優(yōu)化問(wèn)題表示為integer linear program(ILP)問(wèn)題,可以用數(shù)學(xué)方法得到有效的求解

HRNet-48(CVPR_2019)

性能:MPCOCO AP77%
paper:Deep High-Resolution Representation Learning for Human Pose Estimation
code:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

論文里的這個(gè)模型簡(jiǎn)稱(chēng)為 HRNet,也就是是高分辨率網(wǎng)絡(luò) (High-Resolution Net) 的意思。這個(gè)模型最大的特點(diǎn)就是在卷積中可以一直保持高分辨率特征,不和我們之前使用的一些其他模型從低特征轉(zhuǎn)化為高特征,而是從始至終保持高分辨率特征。
該模型對(duì)比了HRNet和之前模型的關(guān)鍵點(diǎn)檢測(cè)表現(xiàn)。結(jié)果大模型HRNet-W48和小模型HRNet-W32,都刷新了COCO紀(jì)錄。其中,大模型在384 x 288的輸入分辨率上,拿到了76.3的AP分。之后該模型又在COCO的test-dev2017測(cè)試集上進(jìn)行了測(cè)試,結(jié)果顯示不論是大模型和小模型,該模型同樣刷新了COCO紀(jì)錄。大模型的AP分達(dá)到了77.0。
這個(gè)名叫HRNet的神經(jīng)網(wǎng)絡(luò),可以隨時(shí)保持高分辨率表征的原因是其獨(dú)特的并聯(lián)結(jié)構(gòu)。論文中講到一個(gè)概念為交換單元 (Exchange Units) ,這個(gè)單元將不同的子網(wǎng)絡(luò)進(jìn)行融合:讓每一個(gè)子網(wǎng)絡(luò),都可以從其他子網(wǎng)絡(luò)獲取特征信息。并且講到一個(gè)概念為交換單元 (Exchange Units) ,這個(gè)單元將不同的子網(wǎng)絡(luò)進(jìn)行融合:讓每一個(gè)子網(wǎng)絡(luò),都可以從其他子網(wǎng)絡(luò)獲取特征信息??傊@個(gè)模塊就是不斷地在各個(gè)不同尺度的網(wǎng)絡(luò)之中獲取和傳遞信息,從而使整個(gè)網(wǎng)絡(luò)保持高分辨率特征。

CPN+(CVPR_2018)

性能:MPCOCO AP73.0%
paper:Cascaded Pyramid Network for Multi-Person Pose Estimation
code:https://github.com/chenyilun95/tf-cpn

該論文整體框架采用Top-down自上而下的檢測(cè)策略。首先使用行人檢測(cè)框架,先檢測(cè)出行人候選框。然后使用本文的CPN網(wǎng)絡(luò)對(duì)每一個(gè)檢測(cè)出來(lái)的行人候選框進(jìn)行人體關(guān)鍵點(diǎn)的回歸,進(jìn)而輸出最終結(jié)果。
首先對(duì)于可以看見(jiàn)的easy 關(guān)鍵點(diǎn)直接預(yù)測(cè)得到,對(duì)于不可見(jiàn)的關(guān)鍵點(diǎn),使用增大感受野來(lái)獲得關(guān)鍵點(diǎn)位置,對(duì)于還未檢測(cè)出的點(diǎn),使用上下文context進(jìn)行預(yù)測(cè)。
網(wǎng)絡(luò)整體結(jié)構(gòu)采用CPN(CascadedPyramid Network)結(jié)構(gòu),Cascaded指的是級(jí)聯(lián)的意思,代表了網(wǎng)絡(luò)級(jí)聯(lián)了2個(gè)類(lèi)似的模塊(GolbalNet和RefineNet),Pyramid指的是類(lèi)似于FPN的金字塔網(wǎng)絡(luò)結(jié)構(gòu)。
其中,GolbalNet負(fù)責(zé)網(wǎng)絡(luò)所有關(guān)鍵點(diǎn)的檢測(cè),重點(diǎn)是對(duì)比較容易檢測(cè)的眼睛,胳膊等部位的關(guān)鍵點(diǎn)預(yù)測(cè)效果較好,采用的損失函數(shù)為L(zhǎng)2 loss。其中在每一個(gè)elem-sum操作之前,都對(duì)featuremap使用了1*1的卷積操作。
RefineNet指的是對(duì)GolbalNet預(yù)測(cè)的結(jié)果進(jìn)行修正的網(wǎng)絡(luò)。GolbalNet對(duì)身體部位的那些遮擋,看不見(jiàn),或者有復(fù)雜背景的關(guān)鍵點(diǎn)預(yù)測(cè)誤差較大,RefineNet則專(zhuān)門(mén)修正這些點(diǎn)。主要還是基于shortcut的思想。在該階段的訓(xùn)練中,還使用了類(lèi)似OHEM的online hard keypoints mining難例挖掘策略。

Pose Residual Network(ECCV_2018)

性能:MPCOCO AP69.7%
paper:MultiPoseNet: Fast Multi-Person PoseEstimation using Pose Residual Network
code:https://github.com/salihkaragoz/pose-residual-network-pytorch

論文提出的網(wǎng)絡(luò)結(jié)構(gòu)大概分成三部分:
1.首先第一部分是Backbone網(wǎng)絡(luò),用于提取圖片在多尺度下的特征。
2.第二部分包括兩個(gè)分開(kāi)、獨(dú)立的網(wǎng)絡(luò),其中一個(gè)用來(lái)檢測(cè)圖片中所有的人體關(guān)鍵點(diǎn)(keypoint subnet),另一部分用來(lái)圖片中的行人檢測(cè)。

3.第三部分即文章的核心部分,提出殘差網(wǎng)絡(luò)(RPN,Pose Residual Network),概括來(lái)說(shuō)就是一個(gè)聚類(lèi)算法,將第二部分檢測(cè)到的所有人體關(guān)鍵點(diǎn)依行人檢測(cè)結(jié)果進(jìn)行聚類(lèi),得到每個(gè)人的關(guān)鍵點(diǎn)聚集。


該模型整體結(jié)構(gòu)

Mask RCNN

paper:Mask R-CNN
code:https://github.com/facebookresearch/Detectron

Mask RCNN是一個(gè)非常流行的語(yǔ)義和實(shí)例分割架構(gòu)。該模型可以同時(shí)預(yù)測(cè)圖像中多個(gè)物體的候選框位置及分割其語(yǔ)義信息的 mask。該模型的基礎(chǔ)架構(gòu)很容易被擴(kuò)展到人體姿態(tài)估計(jì)上來(lái)。


Mask-RCNN架構(gòu)流程圖

其基本架構(gòu)首先使用 CNN 從圖像中提取特征圖。這些特征接著被用于一個(gè)區(qū)域候選網(wǎng)絡(luò)(Regin Proposal Network, RPN)來(lái)為各個(gè)對(duì)象生成候選框。候選框會(huì)從 CNN 提取出的特征圖中選取一個(gè)區(qū)域。由于候選框可能會(huì)有多種尺寸,網(wǎng)絡(luò)接下來(lái)會(huì)采用一個(gè)層,稱(chēng)為 RoIAlign,用來(lái)減小特征圖的尺寸,使它們具有相同的尺寸?,F(xiàn)在,抽取出的特征被傳給平行的 CNN 分支,用來(lái)輸出候選框和分割 mask 的最終預(yù)測(cè)。

我們現(xiàn)在主要關(guān)注一下分割的分支。假設(shè)我們圖像中的對(duì)象可以屬于 K 個(gè)類(lèi)別中的一個(gè)。分割分支輸出 K 個(gè)尺寸為 m*m 的二值 mask,每個(gè)二值 mask 代表只屬于該類(lèi)別的所有對(duì)象。我們可以將每種特征點(diǎn)建模為一個(gè)類(lèi)別,然后將姿態(tài)估計(jì)任務(wù)看作一個(gè)分割任務(wù),從而提取圖像中每個(gè)人的特征點(diǎn)。

與此同時(shí),可以訓(xùn)練一個(gè)對(duì)象檢測(cè)算法來(lái)確定每個(gè)人的位置。通過(guò)組合每個(gè)人的位置信息和他們的特征點(diǎn)集合,我們可以得到圖像中每個(gè)人的人體骨架。

該方法和自頂向下方法比較類(lèi)似,但不同的是,其人體檢測(cè)步驟和關(guān)鍵點(diǎn)檢測(cè)步驟是同時(shí)進(jìn)行的。換句話說(shuō),人體檢測(cè)步驟和關(guān)鍵點(diǎn)檢測(cè)步驟是相互獨(dú)立的。

04.評(píng)價(jià)指標(biāo)

Percentage of Correct Parts - PCP

如果預(yù)測(cè)關(guān)節(jié)位置與真實(shí)關(guān)節(jié)位置之間的距離小于肢體長(zhǎng)度的一半(通常表示為PCP@0.5)。它衡量肢體關(guān)節(jié)的檢測(cè)率,PCP越高,模型效果越好。

Percentage of Correct Key-points - PCK

如果預(yù)測(cè)關(guān)節(jié)和真實(shí)關(guān)節(jié)位置之間距離小于一定閾值則被認(rèn)為正確檢測(cè)到。PCK@0.2表示兩者之間的距離為肢體長(zhǎng)度的0.2,有時(shí)候這個(gè)閾值也被設(shè)置為150mm。同樣,該值越高表示模型性能越好。

Object Keypoint Similarity (OKS) based mAP

di為檢測(cè)到的關(guān)鍵點(diǎn)和對(duì)應(yīng)groundtruth 之間的歐氏距離,vi表示groundtruth的可見(jiàn)標(biāo)志,s是obeject scale,ki為控制每個(gè)關(guān)鍵點(diǎn)的衰減常量。

OKS在object detection方向上與IoU作用相同,它由預(yù)測(cè)結(jié)點(diǎn)和groundtruth 之間的距離經(jīng)由人體尺寸標(biāo)準(zhǔn)化所得。
AP50 (AP at OKS = 0.50) AP75 , AP (the mean of AP scores at 10 positions, OKS = 0.50, 0.55, . . . , 0.90, 0.95; APM for medium objects, APL for large objects, and AR (Average recall) at OKS = 0.50, 0.55, . . . , 0.90, 0.955.

05.常用數(shù)據(jù)集

1. Posetrack:https://posetrack.net/

  • 500 video sequences
  • 20K frames
  • 150K body pose annotations
  • 3 challenges

2. LSP:http://sam.johnson.io/research/lsp.html

  • 樣本數(shù):2K
  • 關(guān)節(jié)點(diǎn)個(gè)數(shù):14
  • 全身,單人

3. FLIC:https://bensapp.github.io/flic-dataset.html

  • 樣本數(shù):2W
  • 關(guān)節(jié)點(diǎn)個(gè)數(shù):9
  • 全身,單人

4. MPII:http://human-pose.mpi-inf.mpg.de/

  • 樣本數(shù):25K
  • 關(guān)節(jié)點(diǎn)個(gè)數(shù):16
  • 全身,單人/多人,40K people,410 human activities

5. MSCOCOhttp://cocodataset.org/#download

  • 樣本數(shù):>= 30W
  • 關(guān)節(jié)點(diǎn)個(gè)數(shù):18
  • 全身,多人,keypoints on 10W people

6. AI Challengehttps://challenger.ai/competition/keypoint/subject

  • 樣本數(shù):21W Training, 3W Validation, 3W Testing
  • 關(guān)節(jié)點(diǎn)個(gè)數(shù):14
  • 全身,多人,38W people
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容