
蘋果公司的第一支智慧型手機iPhone上市滿十年的今天,特別推出有史以來功能最強大的旗艦機iPhone X,其中最大的特色是取消了Home鍵也無需手動解鎖,而是采用Face ID臉部辨識解鎖技術(shù),將3D影像技術(shù)發(fā)揮到極致,這里我們經(jīng)由Face ID臉部辨識技術(shù)來解析3D立體影像感測原理。
影像感測器(Image sensor)
數(shù)位相機所使用的影像感測器主要是取得平面彩色影像,這個已經(jīng)是我們使用了超過20年的舊東西,大部分的人都知道影像感測器有CCD與CMOS兩種,卻很少有人知道這兩種零組件到底是什么?讓我們先從這兩種最基本的元件談起。
影像(Image)其實指的就是我們看到的一個「畫面」(Frame),是由許許多多的格子組成,這些格子稱為「畫素」(Pixel)。影像感測器是由許許多多的格子(畫素)組成的陣列,每一個畫素含有一個電荷耦合元件(CCD)與光感測器(PD),由于光感測器(PD)只能偵測亮度,無法分辨顏色,為了取出顏色,必須在光感測器上方加裝「彩色濾光片」(Color filter),如圖1(a)所示,它的RGB排列方式有許多種,目前最常使用的是圖中這種稱為「貝爾圖」(Bayer pattern),有沒有發(fā)現(xiàn)貝爾圖的設(shè)計里,綠色的畫素是紅色與藍色的兩倍?因為肉眼對綠色比較敏感,因此多收集綠色的資訊是合理的。

▲圖1:CCD感測器的構(gòu)造與原理示意圖。
CCD影像感測器
電荷耦合元件(CCD:Charge Coupled Device)是一種推電荷(電子)前進的元件,利用3個金屬電極不同電壓依序推電荷前進,如圖2(b)所示,左下角畫素A的光感測器內(nèi)的電子經(jīng)由旁邊的CCD元件由4向上推到3,此時畫素B的電子由3推到2,畫素C的電子由2推到1,畫素A的電子由1推到水平線,依此類推,第一行的電子推完,再推第二行,再推第三行,依此類推,必須把影像感測器內(nèi)每一個畫素的電子依序推到水平線,經(jīng)由「類比前端」(AFE:Analog Front End)將類比訊號轉(zhuǎn)換成數(shù)位訊號,也就是影像的「類比數(shù)位轉(zhuǎn)換器」(ADC:Analog to Digital Converter),再輸入處理器(Processor)進行數(shù)位訊號處理。
CCD影像感測器的優(yōu)點是影像畫質(zhì)較佳,雜訊較?。蝗秉c有成本高、耗電量高、類比前端是使用CMOS制程與CCD制程不同因此無法整合在同一個晶片。
CMOS影像感測器
互補型金屬氧化物半導(dǎo)體(CMOS)是一種開關(guān)元件,利用閘極施加正電壓在下方形成電子通道,可以便電子由源極流入,由汲極流出,如圖2(b)所示,每一個畫素的左上角都有一個CMOS開關(guān),一個一個畫素可以依序打開(ON)導(dǎo)通,使光感測器內(nèi)的電子依序流入水平線,第一行的電子流完,再流第二行,再流第三行,依此類推,必須把影像感測器內(nèi)每一個畫素的電子依序流到水平線,經(jīng)由「類比前端」將類比訊號轉(zhuǎn)換成數(shù)位訊號,也就是影像的「類比數(shù)位轉(zhuǎn)換器」,再輸入處理器進行數(shù)位訊號處理。

▲圖2:CMOS感測器的構(gòu)造與原理示意圖。
CCD影像感測器的優(yōu)點是成本低(大約只有CCD的三分之一)、耗電量低(大約只有CCD的十分之一),更重要的是類比前端是使用CMOS制程與CMOS影像感測器的制程相同,可以整合在同一個晶片上縮小體積,這對于智慧型手機這種對元件尺寸很在意的應(yīng)用非常適合;缺點有影像畫質(zhì)較差,雜訊較大,特別是CMOS開關(guān)本身產(chǎn)生的熱雜訊,這種雜訊是元件在高于絕對零度(0K)時就會產(chǎn)生的,而且溫度愈高雜訊愈嚴(yán)重,早期的CMOS影像感測器畫面上會看到一個個亮點跳來跳去就是由于熱雜訊產(chǎn)生,近年來由于半導(dǎo)體制程的進步,CMOS影像感測器的雜訊問題有很大的改善。
3D立體影像感測技術(shù)
數(shù)位相機只能取得平面彩色影像,完全沒有深度的資訊,這代表當(dāng)我們看到一張照片,只知道這個人的臉部有多寬多高,卻不知道他臉部的立體結(jié)構(gòu),例如:鼻子有多挺(有多深),為了取得影像的深度資訊,近年來許多廠商投入研發(fā),目前比較成熟的技術(shù)有下列兩種:
飛時測距(ToF:Time of Flight):利用發(fā)光二極體(Light Emitting Diode,LED)或雷射二極體(Laser Diode,LD)發(fā)射出紅外光,照射到物體表面反射回來,由于光速(v)已知,可以利用一個紅外光影像感測器量測物體不同深度的位置反射回來的時間(t),利用簡單的數(shù)學(xué)公式就可以計算出物體不同位置的距離(深度),如圖3(a)所示。
結(jié)構(gòu)光(Structured light):利用雷射二極體或數(shù)位光源處理器(Digital Light Processor,DLP)打出不同的光線圖形,經(jīng)由物體不同深度的位置反射回來會造成光線圖形扭曲,例如:打出直線條紋的光線到手指上,由于手指是立體圓弧形造成反射回來變成圓弧形條紋,進入紅外光影像感測器后就可以利用圓弧形條紋反推手指的立體結(jié)構(gòu),如圖3(b)所示。
【延伸閱讀】對發(fā)光二極體(LED)的原理,以及它與雷射二極體(LD)的差異有興趣的人可以參考〈知識力專家社群:發(fā)光二極體(LED)〉。

▲圖3:3D立體影像感測技術(shù)原理示意圖。(Source:LAGOA)
TrueDepth相機
蘋果將iPhone X所使用的3D立體影像感測技術(shù)稱為「TrueDepth相機」,結(jié)合了前面介紹的兩種技術(shù),如圖4所示,TrueDepth相機為700萬畫素的CMOS影像感測器,配合紅外光相機、泛光照明器、接近感測器、環(huán)境光感測器、點陣投射器等元件,以下簡單介紹每個元件的功能:
泛光照明器(Flood illuminator):使用低功率的垂直共振腔面射型雷射(Vertical Cavity Surface Emitting Laser,VCSEL),發(fā)射出「非結(jié)構(gòu)」(Non-structured)的紅外光投射在物體表面。
接近感測器(Proximity sensor):使用低功率的垂直共振腔面射型雷射發(fā)射紅外光雷射,當(dāng)有物體靠近時會反射雷射光,因此手機可以知道有物體接近,這個元件很早之前智慧型手機就有了,一般都是安裝在擴音器(Speaker)旁邊,當(dāng)使用者撥電話并且將手機靠近耳朵時,接近感測器偵測到耳朵接近就知道使用者正要講電話,會自動關(guān)閉螢?zāi)还?jié)省電力消耗。
環(huán)境光感測器(Ambient light sensor):使用光二極體(Photo diode)可以偵測環(huán)境光亮度,在明亮的太陽下使用者眼睛瞳孔縮小,因此自動將螢?zāi)徽{(diào)亮讓使用者容易觀看;在陰暗的室內(nèi)使用者眼睛瞳孔放大,因此自動將螢?zāi)徽{(diào)暗避免使用者感覺太刺眼。
點陣投射器(Dot projector):使用高功率的垂直共振腔面射型雷射發(fā)射紅外光雷射,經(jīng)由晶圓級光學(xué)(Wafer Level Optics,WLO)、繞射光學(xué)元件(Diffractive Optical Elements,DOE )等結(jié)構(gòu),產(chǎn)生大約3萬個「結(jié)構(gòu)」(Structured)光點投射到使用者的臉部,利用這些光點所形成的陣列反射回紅外光相機(Infrared camera),計算出臉部不同位置的距離(深度)。
【延伸閱讀】雷射是工業(yè)上非常重要的元件,有興趣的人可以參考〈知識力專家社群:雷射的原理〉。
【延伸閱讀】垂直共振腔面射型雷射原本是設(shè)計給光通訊使用的光源,目前的趨勢卻是被大量使用在消費性電子產(chǎn)品上,對這種特別的雷射有興趣的人可以參考〈知識力專家社群:半導(dǎo)體雷射〉。

▲圖4:iPhone X使用的3D立體影像感測技術(shù)。(Source:蘋果)
Face ID解鎖原理與步驟
Face ID解鎖主要分為兩個步驟,首先必須辨識接近手機的是否為刻意靠近的臉部,或者只是使用者不小心由手機前面晃過去而已;確認(rèn)是刻意靠近的臉部之后,才開始進行人臉辨識,從前面的介紹可以發(fā)現(xiàn),啟動Face ID解鎖必須同時開啟好幾個元件,是有些耗電的,因此必須確認(rèn)是刻意靠近的臉部之后,才開始進行人臉辨識。
當(dāng)有臉部或物體靠近時,會先啟動接近感測器(Proximity sensor),再由接近感測器發(fā)出訊號啟動泛光照明器(Flood illuminator),發(fā)射出非結(jié)構(gòu)(Non-structured)的紅外光投射在物體表面,再由紅外光相機(Infrared camera)接收這些反射的影像資訊,傳送到手機內(nèi)的處理器,iPhone X使用蘋果自行開發(fā)的A11處理器,內(nèi)建雙核心的「神經(jīng)網(wǎng)路引擎」(Neural Engine,NE),經(jīng)由人工智慧的運算后判斷為臉部后,再啟動點陣投射器(Dot projector)產(chǎn)生大約3萬個光點投射到使用者的臉部,利用這些光點所形成的陣列反射回紅外光相機(Infrared camera),計算出臉部不同位置的距離(深度),再將這些使用者臉部的深度資訊傳送到手機內(nèi)的處理器內(nèi),經(jīng)由計算比對臉部特征辨識是否為使用者本人。
所有的3D立體影像感測技術(shù)都面臨相同的問題,那就是深度資訊的精確度實際值大約只有1%,意思是距離1公尺遠(yuǎn)的物體量測出來的精確度與誤差大約是1公分的等級;Face ID解鎖時臉部與手機的距離大約10公分,因此精確度與誤差大約是1公厘(mm)的等級,這大概足夠進行臉部特征辨識了!此外,點陣投射器使用高功率的垂直共振腔面射型雷射發(fā)射紅外光雷射,雖然它的功率并不是真的很高,但是入射到眼睛,個人以為長期使用是否會造成眼球的傷害,是另外一個值得醫(yī)學(xué)界研究探討的問題。
人工智慧的云端與終端
人工智慧(Artificial Intelligence,AI)大量的學(xué)習(xí)與運算目前都借助于云端伺服器強大的處理器來進行,早期使用Intel的「中央處理器」(Central Processing Unit,CPU),后來科學(xué)家發(fā)現(xiàn)Nvidia的「圖形處理器」(Graphics Processing Unit,GPU)效能比CPU高100倍以上,Intel經(jīng)由并購Altera取得「可程式化邏輯陣列」(Field Programmable Gate Array,F(xiàn)PGA)技術(shù)來與GPU抗衡,另外有更多的廠商開發(fā)始發(fā)展「特定應(yīng)用積體電路」(Application Specific Integrated Circuit,ASIC),例如:Google自行設(shè)計的「張量處理器」(Tensor Processing Unit,TPU)或Intel自行設(shè)計的「視覺處理器」( Vision Processing Unit,VPU),就是一種針對人工智慧這種「特定應(yīng)用」所開發(fā)的積體電路,以上這些處理器都是裝置在「云端」(Cloud side)。然而并不是所有的應(yīng)用都適合把大數(shù)據(jù)傳送到云端處理,例如:自動駕駛車必須在車上「終端」(Edge side)進行處理才能即時反應(yīng)道路情況。
【延伸閱讀】處理器的種類會影響人工智慧運算的效能,到底CPU、GPU、FPGA、ASIC有什么差別?有興趣的人可以參考〈知識力專家社群:處理器的種類〉。
蘋果公司這次推出的iPhone X使用自行開發(fā)的A11處理器,內(nèi)建雙核心的「神經(jīng)網(wǎng)路引擎」,專門處理圖像辨識相關(guān)的機器學(xué)習(xí)、推論模型、演算法,也是一種針對人工智慧這種「特定應(yīng)用」所開發(fā)的積體電路,不同的是它裝置在「終端」,也就是使用者的手機上,讓手機可以「自動學(xué)習(xí)」認(rèn)識使用者的臉部特征,蘋果公司也一再強調(diào),使用者所有的臉部特征都在手機終端完成,不會上傳到云端處理,因此絕對不會有資料外泄的疑慮。
蘋果公司這次發(fā)表的iPhone X讓使用者能真實感受終端裝置的人工智慧(On-device AI),在可以預(yù)見的未來,終端處理器如何與人工智慧結(jié)合形成「終端智慧」(Edge Intelligence),將是愈來愈熱門的議題。