專訪微軟研究院張正友:從“張氏標(biāo)定法”到人機交互,20年視覺技術(shù)的探索

摘要:張正友博士,是世界著名的計算機視覺和多媒體技術(shù)的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配準(zhǔn)、攝像機自標(biāo)定等方面都有開創(chuàng)性的貢獻(xiàn)。

編者按:為期四天的2017杭州云棲大會(10月11日-14日)將再度在杭州云棲小鎮(zhèn)起航,作為全球最具影響力的科技展會之一,本屆大會將有不少阿里集團專家以及各企業(yè)行業(yè)領(lǐng)袖的精彩演講。過去一個多月,云棲社區(qū)對大會嘉賓做一系列專訪(關(guān)注“云棲大會”社區(qū)公眾號了解更多大會信息)。本期我們采訪的是ACM Fellow,IEEE Fellow,美國微軟研究院首席研究員張正友,他將在云棲大會·視覺云計算生態(tài)峰會上分享Emotionally Intelligent Vision System,探討從終端到云端的情感智能視覺系統(tǒng)。

張正友博士,是世界著名的計算機視覺和多媒體技術(shù)的專家,ACM Fellow,IEEE Fellow。他在立體視覺、三維重建、運動分析、圖像配準(zhǔn)、攝像機自標(biāo)定等方面都有開創(chuàng)性的貢獻(xiàn)。

張正友帶領(lǐng)的微軟研究院視覺團隊在學(xué)術(shù)研究上做了大量的工作,除了在頂尖會議(比如CVPR、ICCV、ACM Multimedia、ICME)上發(fā)表了大量文章和幾部專著,而且在微軟很多產(chǎn)品里都有團隊的貢獻(xiàn),比如Windows、Office、Xbox、Kinect、Skype for Business、Office Lens等等,這支團隊在微軟內(nèi)部的重要性不言而喻。

故事從“張氏標(biāo)定法”談起

1998年,初到微軟研究院的張正友發(fā)表了一篇名為《A Flexible New Technique for Camera Calibration》的論文,也正是這篇論文進一步奠定了他在計算機視覺領(lǐng)域的地位。文中提出的基于移動平面模板的相機標(biāo)定方法,就是業(yè)界普遍采用的“張氏標(biāo)定法”。

“張氏標(biāo)定法是我1998年加入微軟做的第一個項目”,張正友告訴云棲社區(qū)。

攝像機標(biāo)定是三維計算機視覺的第一步,所以必須知道攝像機的參數(shù)才能從攝像機拍攝的二維圖像里恢復(fù)出周圍場景的三維信息。“那時標(biāo)定都是用一個非常精確制造的三維標(biāo)定物,比如印有特殊標(biāo)志的正方體,貴且不實用,我這才發(fā)明了用二維標(biāo)定板做攝像機標(biāo)定?!彼貞浀馈?/p>

由于二維標(biāo)定板的制作非常容易,一般的打印機就可以打印出來,因此這一方法得到了廣泛應(yīng)用。(這里有一篇短文分享了張氏標(biāo)定法發(fā)明的經(jīng)過,感興趣的朋友可以看看。)

有趣的是,盡管張正友早在二十年前就發(fā)表了《A Flexible New Technique for Camera Calibration》這篇論文,但直到2006年,他本人才知道論文提到的方法被業(yè)界賦予了“張氏標(biāo)定法”的名稱。

“因為對人機交互感興趣,我認(rèn)為除了計算機視覺,語音識別應(yīng)該必不可少,所以我在2001年至2006年轉(zhuǎn)入語音識別研究團隊,專注語音增強和說話人識別研究,沒有去參加任何計算機視覺會議。2006年我開始帶領(lǐng)現(xiàn)在的多媒體團隊同時做語音和視覺,也開始重新參加計算機視覺的會議,這時我才知道我發(fā)明的標(biāo)定法被稱為了張氏標(biāo)定法。”

“我的研究團隊在近二十年的研究工作中主要圍繞著用計算機視覺來理解人的形態(tài)和行為去幫助人和人之間的溝通及人和機器的交互,最初是通過幾何和物理模型對人的形態(tài)和行為建模,然后加入了機器學(xué)習(xí)?!?/p>

張正友表示,從1999年開始就提出了model-based modeling方法對人臉三維建模,也就是通過采集大量的人臉三維數(shù)據(jù)通過機器學(xué)習(xí)建立參數(shù)化的三維模型.因為這個三維模型只需要很少的人臉形狀和動態(tài)參數(shù),針對某個特定人,僅需少量的數(shù)據(jù)就可以估計出這個人的各個參數(shù),即使圖像分別率低、光照條件差,算法依然擁有很好的魯棒性。事實上,此后很多人都在采用類似的方法,包括做人體全身三維建模。

值得注意的是,在這個最初模型里形狀參數(shù)和動態(tài)參數(shù)是獨立的。在研究人體全身建模時,他們發(fā)現(xiàn)這個最初模型太粗糙。對不同形狀的人,比如肌肉強壯的和不強壯的,同樣的動態(tài)變化造成的形狀變化可以有很大的差別,于是他們第一個提出了tensor-based body modeling,也就是將形狀、動態(tài)和三維幾何描述作為一個整體用張量(tensor)來描述,取得了非常好的效果。

精準(zhǔn)表情識別VS人臉識別

張正友帶領(lǐng)的微軟研究院團隊在人臉檢測方面的起步可以追溯到2006年,主要側(cè)重于實時性和人臉側(cè)面檢測的魯棒性。微軟內(nèi)部用的人臉檢測技術(shù)基本上都是由團隊提供,甚至也可能是最早用三維傳感器做手勢識別和人類行為理解的研究團隊之一,早于微軟推出Kinect傳感器。此外,團隊還在沉浸式遠(yuǎn)程呈現(xiàn) (immersive telepresence)方面做了大量的研究,目的是將不同地點的人進行合成,讓不同時空的人感覺是在同一個時空下,進行面對面的交流。

近年來,人臉表情識別逐漸受到了業(yè)界的關(guān)注。關(guān)于人臉表情識別,有人可能想到用這個技術(shù)去測謊,這確實是一個重要的應(yīng)用,還有些應(yīng)用包括醫(yī)學(xué)領(lǐng)域比如疼痛跟蹤?!拔覀€人感興趣的還是人機交互”,要想機器和人進行自然交互,機器必須要知道交互人的表情,也就是說機器需要情商(emotion intelligence),就像人需要有足夠高的情商才能和諧的融入社會。從技術(shù)角度看,它和人臉識別都屬于細(xì)分類。一個人和另一個人都有很多相同的地方,比如都有眼睛鼻子嘴巴,人臉識別就要把那些相同的東西去掉,把人和人差異的特征找出來。人臉表情識別也類似,不但需要把人和人有些相同的東西去掉,也要把人和人之間的差異去掉,但要把不同人相同的表情特征保留下來,所以非常有挑戰(zhàn)。

要實現(xiàn)精準(zhǔn)的表情識別,必然會面臨各方面的技術(shù)挑戰(zhàn)。張正友表示:“我應(yīng)該是世界上第一個用神經(jīng)網(wǎng)絡(luò)做表情識別的。1996年我在日本學(xué)術(shù)休假,和研究人是如何做人臉識別的認(rèn)知科學(xué)家交流,利用他們采集的數(shù)據(jù),想用機器來做人臉識別。當(dāng)然那時數(shù)據(jù)量少,我只用了三層的神經(jīng)網(wǎng)絡(luò),特征是直接用Gabor小波參數(shù)。1997年發(fā)表了一篇會議文章,1999年發(fā)表了一篇雜志文章。二十年過去了,無論數(shù)據(jù)還是算法都有很大的發(fā)展。現(xiàn)在我們發(fā)布在微軟Cognitive Services的Emotion API產(chǎn)品,用的是深度學(xué)習(xí)的方法,用了16層的神經(jīng)網(wǎng)絡(luò)和兩百萬張圖像訓(xùn)練出來的。”

目前,人臉表情識別還處于嬰兒階段,研究的僅是基于圖像的基本表情分類。人的表情是動態(tài)的,所以需要做基于視頻的表情識別。要實現(xiàn)精準(zhǔn)的表情識別,可能需要跟蹤人臉每塊肌肉的運動,做基于FACS(Facial Action Coding System)的表情分析。人的真正感情可能在所謂的微表情上表達(dá)出來,這樣就需要用高速攝像頭。此外,還需要跟認(rèn)知科學(xué)家緊密合作。

視覺計算和深度學(xué)習(xí)的碰撞

在兩個月前結(jié)束的CVPR(IEEE國際計算機視覺與模式識別會議)上,論文數(shù)量及參會規(guī)模都提升到了一個新的高度:收到了2620篇文章,有5000人參加,相比去年的CVPR增加了40%,計算機視覺在全球范圍內(nèi)的關(guān)注度可見一斑。

細(xì)心的讀者可能發(fā)現(xiàn)了一個現(xiàn)象,本次大會上的優(yōu)秀論文中出現(xiàn)了不少華人的面孔。對此,作為今年CVPR的大會主席,張正友激動的表示,“看到計算機視覺蓬勃發(fā)展很為高興,作為華人,看到大量的華裔面孔和大批的參展的中國公司,我很驕傲。”

他認(rèn)為,華人對計算機視覺的發(fā)展一直發(fā)揮重要的作用,但一個新現(xiàn)象是越來越多的人從中國來參加國際會議,越來越多的計算機視覺技術(shù)落地中國,視覺創(chuàng)業(yè)公司如雨后春筍。張正友希望,中國的計算機視覺研究和應(yīng)用能更上一個臺階,為中國人工智能領(lǐng)域在世界上占一席重要地位發(fā)揮作用。

時下,全球視覺技術(shù)的趨勢愈演愈烈,其中很大的一個原因正是因為大數(shù)據(jù)深度學(xué)習(xí)發(fā)揮的作用,在中國因為人口眾多和對數(shù)據(jù)使用的寬松政策,這個優(yōu)勢尤為明顯。但是,隨著時間的推移,人們對個人隱私會更加重視,優(yōu)勢會偏向那些擁有原始數(shù)據(jù)的公司。因此,計算機視覺作為人工智能的一環(huán),需要和垂直產(chǎn)業(yè)結(jié)合落地。

深度&豐富的場景應(yīng)用

雖然深度學(xué)習(xí)的文章在現(xiàn)在的會議中占有很大的比例,但很多人已經(jīng)開始認(rèn)識到,深度學(xué)習(xí)和人的學(xué)習(xí)能力仍有很大的不同。人能夠舉一反三,很快學(xué)習(xí)新東西;人能夠在執(zhí)行任務(wù)中不斷學(xué)習(xí),在挫敗中成長......等等,這都是深度學(xué)習(xí)現(xiàn)在所缺乏的。此外,現(xiàn)在視覺進步比較大的大都屬于感知范疇,比如是什么物體、是誰等。視覺研究需要往更高層次發(fā)展,進入認(rèn)知理解階段并擁有常識推理,這也是為什么現(xiàn)在開始有不少研究將視覺和語言結(jié)合去理解圖像視頻。

視覺技術(shù)的應(yīng)用前景無論如何都不會高估,它將涉及幾乎人類的所以領(lǐng)域,包括人們熟知的無人駕駛、安防監(jiān)控、金融認(rèn)證。但隨著中國經(jīng)濟的發(fā)展,對弱勢群體的關(guān)懷必將加強,比如老年人和殘疾人,計算機視覺在那些場景的應(yīng)用將前途無量。

張正友表示最近一直在研究如何將計算機視覺實時地大規(guī)模地有效地應(yīng)用到實際場景中,本次云棲大會上,他將就此分享計算機視覺在云計算上的看法。

原文鏈接

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容