青青草原在线91,亚洲av青青尤物,久久欧美国产视频

*理論聯(lián)系實(shí)際，記錄下讀《Deep Face Recognition: A Survey》的心得體會(huì)

一個(gè)完整的人臉識(shí)別流程應(yīng)該包含以下幾個(gè)模塊:

1:人臉的檢測(cè): 定位圖片中存在人臉的位置

2:人臉的對(duì)齊: 對(duì)齊人臉到正則坐標(biāo)系的坐標(biāo)

3:人臉的識(shí)別:

①:活體的檢測(cè)

②:人臉的識(shí)別-面部姿態(tài)(處理姿態(tài),表情,遮擋等)，特征提取，人臉比對(duì)

上述流程中，第三步是整個(gè)系統(tǒng)的關(guān)鍵。

一：人臉識(shí)別的四個(gè)發(fā)展階段

如圖所示，回顧漫長(zhǎng)的人臉識(shí)別的發(fā)展歷程，大致可以劃分為4個(gè)階段

①:1964-1990：初步嘗試

這個(gè)階段是屬于人臉識(shí)別的探索階段，人們嘗試使用一些簡(jiǎn)單的算法來(lái)初步嘗試人臉的機(jī)器自動(dòng)識(shí)別，人類最早的研究工作至少可追朔到二十世紀(jì)五十年代在心理學(xué)方面的研究和六十年代在工程學(xué)方面的研究。這一階段主要是從感知和心理學(xué)角度探索人類識(shí)別人臉機(jī)理的，也有從視覺(jué)機(jī)理角度進(jìn)行研究的。

②:1991~2000：快速發(fā)展

這一階段研究的重點(diǎn)在人臉識(shí)別所需要的面部特征。研究者用計(jì)算機(jī)實(shí)現(xiàn)了較高質(zhì)量的人臉灰度圖模型。這一階段工作的特點(diǎn)是識(shí)別過(guò)程全部依賴于操作人員，不是一種可以完成自動(dòng)識(shí)別的系統(tǒng)，以至于這個(gè)階段的人臉識(shí)別所需求的條件非常嚴(yán)苛，但是依然產(chǎn)生了一些極具影響力的算法和理論。

③:2000~2012：走向人機(jī)交互

這一階段可以理解為是上一階段的提升和改進(jìn)，設(shè)計(jì)的系統(tǒng)可以對(duì)姿態(tài)，表情，光照，遮擋等環(huán)境條件進(jìn)行處理，主要研究用幾何特征參數(shù)來(lái)表示人臉正面圖像。采用多維特征矢量表示人臉面部特征，并設(shè)計(jì)了基于這一特征表示法的識(shí)別系統(tǒng)。實(shí)質(zhì)上這一階段的算法(SVM,Boosting),實(shí)質(zhì)上可以理解為帶著一層隱藏節(jié)點(diǎn)的淺層學(xué)習(xí)，但是泛化能力依舊有限。這一階段，人臉識(shí)別開(kāi)始逐漸成熟，一些實(shí)用的系統(tǒng)開(kāi)始誕生

④：2012~至今：快速發(fā)展

這一階段,人臉識(shí)別的主流算法開(kāi)始轉(zhuǎn)為深度學(xué)習(xí)，深度學(xué)習(xí)的典型代表應(yīng)用便是人臉識(shí)別，大計(jì)算、大數(shù)據(jù)、大模型則是深度神經(jīng)網(wǎng)絡(luò)的三大支柱與基礎(chǔ)。第四階段大量實(shí)用的系統(tǒng)與成功的應(yīng)用案例出現(xiàn)，許多現(xiàn)象級(jí)別的網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)始出現(xiàn)，許多新興的人臉識(shí)別公司也開(kāi)始誕生。

二：人臉識(shí)別的算法流程

人臉的識(shí)別流程：面部姿態(tài)處理(處理姿態(tài)，亮度，表情，遮擋)，特征提取，人臉比對(duì)。

1：面部處理face processing

這部分主要對(duì)姿態(tài)（主要）、亮度、表情、遮擋進(jìn)行處理，可提升FR模型性能

兩種方式：

one to many：從單個(gè)圖像生成不同姿態(tài)的圖像，使模型學(xué)習(xí)到不同的姿態(tài)

many to one：從多個(gè)不同姿態(tài)的圖像中恢復(fù)正則坐標(biāo)系視角下的圖像，用于受限條件

2：特征提取 feature extraction

特征提取網(wǎng)絡(luò)可分為backbone和assembled兩類

主干網(wǎng)絡(luò)（Backbone network）：一些通用的用于提取特征的網(wǎng)絡(luò)

組裝網(wǎng)絡(luò)（Assembled network）：用于拼接在主干網(wǎng)絡(luò)前/后的用于特定訓(xùn)練目標(biāo)的網(wǎng)絡(luò)

Backbone Network

①：Mainstream architectures

主流的網(wǎng)絡(luò)架構(gòu)包括AlexNet，VGGNet，GoogleNet，ResNet，SENet等

? AlexNet：引入ReLU，dropout，data augmentation等，第一次在圖像上有效使用Conv

? VGGNet：提出重復(fù)用簡(jiǎn)單網(wǎng)絡(luò)塊堆疊；濾波器3x3減少權(quán)重量，增強(qiáng)表示能力

??GoogleNet：1x1跨通道整合信息，同時(shí)用于升降維減少參數(shù)；并行結(jié)構(gòu)由網(wǎng)絡(luò)自行挑選最好的路徑；多個(gè)出口計(jì)算不同位置損失，綜合考慮不同層次的信息

? ResNet：引入殘差塊，削弱層間聯(lián)系，提高模型容忍度；使得信息能跨層注入下游，恢復(fù)在信息蒸餾過(guò)程中的丟失的信息；殘差塊部分解決梯度消失

?SENet：在上述網(wǎng)絡(luò)中嵌入Squeeze-and-Excitation塊，通過(guò)1x1塊顯式地構(gòu)建通道間相互關(guān)系，能自適應(yīng)的校準(zhǔn)通道間的特征響應(yīng)。

Squeeze：全局平均池化得到1x1xC用于描述全局圖像，使淺層也能獲得全局感受野；

Excitation：使用FC-ReLU-FC-Sigmoid(類似門的作用)過(guò)程中得到各通道權(quán)重，然后rescale到WxHxC。從全局感受野和其它通道獲得信息，SE塊可自動(dòng)根據(jù)每個(gè)通道的重要程度去提升有用的特征的權(quán)重，通過(guò)這個(gè)對(duì)原始特征進(jìn)行重標(biāo)定。

Special architectures

除了主流的最廣泛使用的網(wǎng)絡(luò)架構(gòu)，還有一些特殊的模塊和技巧，如max-feature-map activation，bilinear CNN，pairwise relational network等

Joint alignment-representation networks

這類模型將人臉檢測(cè)、人臉對(duì)齊等融合到人臉識(shí)別的pipeline中進(jìn)行端到端訓(xùn)練。比起分別訓(xùn)練各個(gè)部分的模型，這種端到端形式訓(xùn)練到的模型具有更強(qiáng)的魯棒性

②：Assembled Network

組裝網(wǎng)絡(luò)用于拼接在主干網(wǎng)前或后方，用于多輸入或多任務(wù)的場(chǎng)景中

Multi-input networks

在one-to-many這類會(huì)生成不同部位、姿態(tài)的多個(gè)圖像時(shí)，這些圖片會(huì)輸入到一個(gè)multi-input的組裝子網(wǎng)絡(luò)，一個(gè)子網(wǎng)絡(luò)處理其中一張圖片。然后將各個(gè)輸出進(jìn)行聯(lián)結(jié)、組合等，再送往后續(xù)網(wǎng)絡(luò)。

如下圖所示的多視點(diǎn)網(wǎng)絡(luò)Multi-view Deep Network (MvDN)進(jìn)行cross-view recognition（對(duì)不同視角下的樣本進(jìn)行分類）

multi-task networks

在某些情景中，人臉識(shí)別是主要任務(wù)，若需要同時(shí)完成姿態(tài)估計(jì)、表情估計(jì)、人臉對(duì)齊、笑容檢測(cè)、年齡估計(jì)等其余任務(wù)時(shí)，可以使用multi-task組裝網(wǎng)。

如下圖Deep Residual EquivAriant Mapping (DREAM)，用于特征層次的人臉對(duì)齊

3：損失函數(shù) loss function

①：Euclidean-distance-based loss:（上圖綠色）

基于歐幾里得距離損失是一種度量學(xué)習(xí)方法，它通過(guò)對(duì)輸入圖像提取特征將其嵌入歐幾里得空間，然后減小組內(nèi)距離、增大組間距離，包括contrastive loss，triplet loss，center loss和它們的變種

contrastive loss:

損失計(jì)算需要image pair，增加負(fù)例（兩張圖不同臉）距離，減少正例（同臉）距離。它考慮的是正例、負(fù)例之間的絕對(duì)距離，表達(dá)式為：

其中yij=1表示xi,xj是正例pair，yij=0表示負(fù)例pair，f(.)表示特征嵌入函數(shù)

Triplet loss

該損失計(jì)算需要triplet pair，三張圖，分別為anchor, negative, positive。最小化anchor和positve間距離，同時(shí)最大化anchor和negative間距離，表達(dá)式為

注意，數(shù)據(jù)集中大多數(shù)的人臉之間都很容易區(qū)分，容易區(qū)分的triplet pair算出來(lái)的L很小，導(dǎo)致收斂緩慢，因此triplet pair選擇的時(shí)候需要選擇難以區(qū)分的人臉圖像

Center loss

該損失在原損失的基礎(chǔ)上增加一個(gè)新的中心損失LC，及每個(gè)樣本與它的類別中心之間的距離，通過(guò)懲罰樣本與距離間的距離來(lái)降低組內(nèi)距離

②：Angular/cosine-margin-based loss（黃色）

基于角度/余弦邊緣損失，它使得FR網(wǎng)絡(luò)學(xué)到的特征之間有更大的角度/余弦

Softmax

L-Softmax

令原始的Softmax loss中:

同時(shí)增大yi對(duì)應(yīng)的項(xiàng)的權(quán)重可得到Large-margin softmax。該權(quán)重m引入了multiplicative angular/cosine margin

二分類的分類平面為

L-softmax存在問(wèn)題：收斂比較困難，||W1||,||W2||通常也不等

A-softmax (SphereFace)

在L-softmax的基礎(chǔ)上，將權(quán)重L2正則化得到||W||=1，因此正則化后的權(quán)重落在一個(gè)超球體上

二分類的分類超平面為：

CosFace / ArcFace

與A-softmax相同思想，但CosFace/ArcFace引入的是additive angular/cosine margin

各類損失函數(shù)對(duì)比：

4：面部匹配 face matching

對(duì)面部認(rèn)證、面部識(shí)別任務(wù)，多數(shù)方法直接通過(guò)余弦距離或者L2距離直接計(jì)算兩個(gè)特征圖的相似性，再通過(guò)閾值對(duì)比threshold comparison或者最近鄰NN判斷是否為同一人。此外，也可以通過(guò)Metric learning或者稀疏表示分類器sparse-representation-based classifier進(jìn)行后處理，再進(jìn)行特征匹配

5:數(shù)據(jù)集

數(shù)據(jù)集的Depth、Breadth

Depth

不同人臉數(shù)較小，但每個(gè)人的圖像數(shù)量很大。Depth大的數(shù)據(jù)集可以使模型能夠更好的處理較大的組內(nèi)變化intra-class variations，如光線、年齡、姿態(tài)。

VGGface2（3.3M，9K）

Breadth

不同人臉數(shù)較大，但每個(gè)人的圖像數(shù)量較小。Breadth大的數(shù)據(jù)集可以使模型能夠更好的處理更廣范圍的人群。

MS-Celeb-1M（10M，100K）、MegaFace(Challenge 2，4.7M，670K)

數(shù)據(jù)集的data noise

由于數(shù)據(jù)源和數(shù)據(jù)清洗策略的不同，各類數(shù)據(jù)集或多或少存在標(biāo)簽噪聲label noise，這對(duì)模型的性能有較大的影響。

數(shù)據(jù)集的data bias

大多數(shù)數(shù)據(jù)集是從網(wǎng)上收集得來(lái)，因此主要為名人，并且大多大正式場(chǎng)合。因此這些數(shù)據(jù)集中的圖像大多數(shù)是名人的微笑、帶妝照片，年輕漂亮。這與從日常生活中獲取的普通人的普通照片形成的數(shù)據(jù)集（Megaface）有很大的不同。

另外，人口群體分布不均也會(huì)產(chǎn)生data bias，如人種、性別、年齡。通常女性、黑人、年輕群體更難識(shí)別。

6：評(píng)估任務(wù)及性能指標(biāo)

①：training protocols

subject-dependent protocol：所有用于測(cè)試的圖像中的ID已在訓(xùn)練集中存在，F(xiàn)R即一個(gè)特征可分的分類問(wèn)題（不同人臉視為不同標(biāo)簽，為測(cè)試圖像預(yù)測(cè)標(biāo)簽）。這一protocol僅適用于早期FR研究和小數(shù)據(jù)集。

subject-independent protocol：測(cè)試圖像中的ID可能未在訓(xùn)練集中存在。這一protocol的關(guān)鍵是模型需要學(xué)得有區(qū)分度的深度特征表示

②：Evaluation metric

Face verification：性能評(píng)價(jià)指標(biāo)通常為受試者操作特性曲線(ROC - Receiver operating characteric)，以及平均準(zhǔn)確度(ACC)

Close-set face identification：rank-N，CMC (cumulative match characteristic)

Open-set face identification：

三：一些新的前景

①：Cross-Factor Face Recognition

Cross-Pose：正臉、側(cè)臉，可使用one-to-many augmentation、many-to-one normalizations、multi-input networks、multi-task learning加以緩解

②：Heterogenous Face Recognition

NIS-VIS FR：低光照環(huán)境中NIR (near-infrared spectrum 近紅外光譜)成像好，因此識(shí)別NIR圖像也是一大熱門話題。但大多數(shù)數(shù)據(jù)集都是VIS (visual ligtht spectrum可見(jiàn)光光譜)圖像。-- 遷移學(xué)習(xí)

Low-Resolution FR：聚焦提高低分辨率圖像的FR性能

Phote-Sketch FR：聚焦人臉圖像、素描間的轉(zhuǎn)換。 -- 遷移學(xué)習(xí)、image2image

③：Multiple (or single) media Face Recognition

Low-Shot FR：實(shí)際場(chǎng)景中，F(xiàn)R系統(tǒng)通常訓(xùn)練集樣本很少(甚至單張)

Set/Template-based FR

Video FR：兩個(gè)關(guān)鍵點(diǎn)，1. 各幀信息整合，2. 高模糊、高姿態(tài)變化、高遮擋

④：Face Recognition in Industry

3D FR

Partial FR：給定面部的任意子區(qū)域

Face Anti-attack：

FR for Mobile Device

四：參考資料

1：Deep Face Recognition: A Survey

https://arxiv.org/pdf/1804.06655.pdf

2：Deep Residual EquivAriant Mapping https://openaccess.thecvf.com/content_cvpr_2018/html/Cao_Pose-Robust_Face_Recognition_CVPR_2018_paper.html

3：Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

https://arxiv.org/pdf/1703.1059

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

CV學(xué)習(xí)筆記(三十)：人臉識(shí)別流程分析

CV學(xué)習(xí)筆記(三十)：人臉識(shí)別流程分析

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

CV學(xué)習(xí)筆記(三十)：人臉識(shí)別流程分析

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av