Metaverse-虛擬數(shù)字人技術(shù)篇

1. 虛擬數(shù)字人概念解析

虛擬數(shù)字人它是由三個(gè)部分組成:虛擬、數(shù)字、人。
  • 虛擬:存在于非物理世界,多模態(tài)存在于各種介質(zhì);
  • 數(shù)字:數(shù)字化,可復(fù)制多個(gè)分身,多技術(shù)綜合體;
  • 人:具備擬人化的外表和行為交互的能力。

具體說(shuō)明如下:

  1. 虛擬: 通常是指它是存在于非物理世界,可以是多模態(tài)的存在于各種介質(zhì)上,包括視頻、圖片,還有目前比較流行的VR、 AR 等這些多種媒體的載體上,它不是存在于真實(shí)的物理世界的,它是以一種虛擬的形態(tài)來(lái)存在的。
  2. 數(shù)字: 數(shù)字指的是可以數(shù)字化,通常是指它可以復(fù)制多個(gè)分身,它是多種技術(shù)綜合而成的一類的技術(shù)。目前所主流的虛擬數(shù)字人通常都是由 CG 建模,然后 CV 的生成,然后加上 NLP 、語(yǔ)音合成,以及一些知識(shí)圖譜等技術(shù),來(lái)驅(qū)動(dòng)它生成一個(gè)數(shù)字人的形象。
  3. 人: 通常講的虛擬數(shù)字人是指那種偏擬人化的審美的外表。它還有類似于人的行為交互。
虛擬數(shù)字人效果.png

2. 制作虛擬數(shù)字人的通用架構(gòu)

根據(jù)中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟發(fā)布的《2020年虛擬數(shù)字人發(fā)展白皮書》中指出,虛擬數(shù)字人指具有數(shù)字化外形的虛擬人物,除了擁有人的外觀、行為之外,還擁有人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。當(dāng)前在業(yè)界內(nèi)對(duì)數(shù)字人形成一些共識(shí):即下圖中虛擬數(shù)字人的通用系統(tǒng)架構(gòu),大概用這五個(gè)方面來(lái)總結(jié):人物形象、語(yǔ)音生成模塊、動(dòng)畫生成模塊、音視頻合成顯示模塊、交互模塊。

交互模塊是可以存在也可以不存在的。 因?yàn)橛幸环N虛擬人是單方面的輸出(視頻類、海報(bào)類),不存在跟人之間交互,但是其他的幾維基本上是具備的,所以一個(gè)通用的虛擬數(shù)字人,一般會(huì)依賴這樣的一個(gè)系統(tǒng)的架構(gòu)來(lái)產(chǎn)生。


數(shù)字人制作通用結(jié)構(gòu).png(圖片來(lái)源于網(wǎng)絡(luò))

3. 虛擬數(shù)字人所依賴的通用技術(shù)

  1. CG建模:體現(xiàn)為虛擬數(shù)字人外觀和擬人程度,當(dāng)前主流的數(shù)字人模型格式為:3D、2D、卡通、動(dòng)漫、高保真等。
  2. NLP技術(shù):核心體現(xiàn)的是對(duì)話能力,通常包括文本對(duì)話,語(yǔ)音 AI 助手等等,這個(gè)模塊通常可以視為虛擬數(shù)字人的大腦。
  3. CV技術(shù):體驗(yàn)在數(shù)字人的渲染顯示,該部分受數(shù)據(jù)量、計(jì)算框架、關(guān)鍵特增點(diǎn)等因素影響,能否呈現(xiàn)自然的面部表情驅(qū)動(dòng)、肢體動(dòng)作等。
虛擬數(shù)字人角色分類
  1. 寫實(shí)/超寫實(shí)類角色虛擬人,比如:AYAYI、翎ling、柳夜熙等;


    超寫實(shí)數(shù)字人.png
  1. 二次元角色虛擬人,比如洛天依、七海、星瞳等;


    二次元數(shù)字人.png
  1. 卡通/吉祥物角色虛擬人,比如海爾兄弟、京東狗、蘇格拉寧等。


    卡通數(shù)字人.png
虛擬數(shù)字人的驅(qū)動(dòng)技術(shù)分類
  1. 動(dòng)捕型驅(qū)動(dòng):原理是真人根據(jù)攝像頭傳來(lái)的用戶視頻,與用戶實(shí)時(shí)語(yǔ)音,同時(shí)通過(guò)動(dòng)作捕捉采集系統(tǒng)將真人的表情、動(dòng)作呈現(xiàn)在虛擬數(shù)字人形象上,從而與用戶進(jìn)行交互。它生成的往往是一個(gè)靜態(tài)模型,在綁定關(guān)鍵點(diǎn)之后,需要借助真人通過(guò)動(dòng)作捕捉設(shè)備進(jìn)行形體、眼神、動(dòng)作等的捕捉,然后才能進(jìn)行驅(qū)動(dòng)和渲染。
  • 特點(diǎn):需真人進(jìn)行驅(qū)動(dòng),在動(dòng)作靈活度、互動(dòng)效果等方面有明顯優(yōu)勢(shì)。
  • 技術(shù)流程:原畫設(shè)計(jì);建模+骨骼綁定;動(dòng)捕設(shè)備或攝像頭將基于真人的動(dòng)作/表情等驅(qū)動(dòng)虛擬數(shù)字人;實(shí)時(shí)渲染-完成內(nèi)容錄制或者現(xiàn)場(chǎng)互動(dòng);
  • 技術(shù)突破:動(dòng)作捕捉環(huán)節(jié),隨著圖像識(shí)別技術(shù),姿勢(shì)、表情等識(shí)別算法的進(jìn)步,昂貴的慣性或光學(xué)動(dòng)捕設(shè)備不再是驅(qū)動(dòng)的必備工具。
  • 使用場(chǎng)景:降低影視行業(yè)門檻,推動(dòng)消費(fèi)及轉(zhuǎn)化,虛擬偶像、大型直播等。
  • 動(dòng)捕型驅(qū)動(dòng)示例如下:


    動(dòng)作捕捉驅(qū)動(dòng).gif
  1. AI型驅(qū)動(dòng):原理是通過(guò)智能系統(tǒng)自動(dòng)讀取并解析識(shí)別外界輸入信息,根據(jù)解析結(jié)果決策虛擬數(shù)字人后續(xù)的輸出信息,然后驅(qū)動(dòng)人物模型生成相應(yīng)的語(yǔ)音與動(dòng)作來(lái)使虛擬數(shù)字人跟用戶互動(dòng)。該人物模型是預(yù)先通過(guò)AI技術(shù)訓(xùn)練得到的,可通過(guò)文本驅(qū)動(dòng)生成語(yǔ)音和對(duì)應(yīng)動(dòng)畫。它是基于深度學(xué)習(xí)模型的三維場(chǎng)景表達(dá)和對(duì)應(yīng)的神經(jīng)渲染管線,可以自驅(qū)動(dòng)學(xué)習(xí)模特說(shuō)話時(shí)的唇動(dòng)、表情、語(yǔ)音以及姿態(tài)和動(dòng)作等。
  • 特點(diǎn):語(yǔ)音、表情、動(dòng)作主要通過(guò)深度學(xué)習(xí)實(shí)時(shí)或離線生成驅(qū)動(dòng)。
  • 技術(shù)流程:設(shè)計(jì)形象或?qū)φ嫒诵蜗筮M(jìn)行打點(diǎn)掃描,采集模型信息;建模+骨骼綁定;訓(xùn)練各類驅(qū)動(dòng)的深度模型,學(xué)習(xí)角色的語(yǔ)音、唇形、表情參數(shù)間的潛在映射關(guān)系;內(nèi)容制作,基于輸入的語(yǔ)音(或由輸入文本轉(zhuǎn)化的語(yǔ)音),預(yù)測(cè)唇動(dòng)、表情等參數(shù),推理圖片并與時(shí)間戳結(jié)合;渲染并生成內(nèi)容。
  • 技術(shù)突破:語(yǔ)音合成(語(yǔ)音表述在韻律、情感、流暢度等方面是否符合真人發(fā)聲的習(xí)慣)、NLP技術(shù)(與使用者的語(yǔ)言交互是否順暢、是否能夠理解使用者需求)、語(yǔ)音識(shí)別(能否準(zhǔn)確識(shí)別使用者需求)
  • 使用場(chǎng)景:虛擬人視頻內(nèi)容生成,虛擬客服,虛擬助手等。
  • AI型驅(qū)動(dòng)示例如下:


    AI型驅(qū)動(dòng).gif
虛擬數(shù)字人主流動(dòng)捕技術(shù)介紹
  1. 光學(xué)動(dòng)捕
  • 概念:光學(xué)動(dòng)作捕捉技術(shù)就是在人的身體上進(jìn)行標(biāo)記,標(biāo)記點(diǎn)的會(huì)反射到架設(shè)好的攝像機(jī),通過(guò)反射的不同位置的成像信息,可以進(jìn)行測(cè)算出標(biāo)記點(diǎn)的空間運(yùn)動(dòng)信息,進(jìn)而將這些信息進(jìn)行定位或輸出實(shí)現(xiàn)不同行業(yè)的實(shí)際應(yīng)用。
  • 優(yōu)點(diǎn):1. 動(dòng)捕精度高; 2. 保真程度高。
  • 缺點(diǎn):1. 技術(shù)復(fù)雜度和拍攝要求高 ;2. 造價(jià)成本高 ;3. 應(yīng)用范圍小。
  1. 慣性動(dòng)捕
  • 概念:慣性動(dòng)作捕捉技術(shù)是在人的身上佩戴陀螺儀,人運(yùn)動(dòng)的過(guò)程陀螺儀會(huì)進(jìn)行旋轉(zhuǎn),通過(guò)感知陀螺儀的旋轉(zhuǎn)信息來(lái)推算出人的動(dòng)作行為實(shí)現(xiàn)動(dòng)作捕捉。
  • 優(yōu)點(diǎn):1. 價(jià)格相對(duì)較低;2. 不依賴場(chǎng)地環(huán)境。
  • 缺點(diǎn):1. 動(dòng)捕精度低; 2. 穩(wěn)定性低,容易發(fā)生位置漂移。
  1. AI視覺(jué)捕捉
  • 概念:AI視覺(jué)捕捉不需要進(jìn)行標(biāo)記和佩戴,只需要在人的活動(dòng)范圍內(nèi)通過(guò)普通的攝像頭進(jìn)行動(dòng)作的錄制實(shí)現(xiàn)人體關(guān)鍵點(diǎn)信息的識(shí)別進(jìn)而采用特殊的算法來(lái)實(shí)現(xiàn)動(dòng)作捕捉。該項(xiàng)技術(shù)對(duì)硬件幾乎沒(méi)有特殊的要求,更多的優(yōu)勢(shì)在算法上。
  • 優(yōu)點(diǎn):1. 簡(jiǎn)單上手; 2. 成本較低。
  • 缺點(diǎn):1. 動(dòng)捕精度低; 2. 自由度較低 ;3. 視野固定。

實(shí)用上手簡(jiǎn)易程度:AI視覺(jué)動(dòng)捕 > 慣性動(dòng)捕 > 光學(xué)動(dòng)捕
保真程度和穩(wěn)定性:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺(jué)動(dòng)捕
造價(jià)成本:光學(xué)動(dòng)捕 > 慣性動(dòng)捕 > AI視覺(jué)動(dòng)捕

4. 虛擬數(shù)字人的變現(xiàn)途徑分析

虛擬數(shù)字人目前市面上出現(xiàn)的變現(xiàn)途徑大致有三種:
  1. 第一種是幫助企業(yè)建立虛擬數(shù)字人,為他們營(yíng)銷代言,由企業(yè)買單。目前的合作形式包括定制、IP 授權(quán)和代運(yùn)營(yíng)。經(jīng)網(wǎng)上數(shù)據(jù)搜集,現(xiàn)在市面上的價(jià)格都不太一樣,定制 Q 版大概在十幾萬(wàn),而定制超寫實(shí)則可能需要上百萬(wàn)。IP 授權(quán)指的是與頭部虛擬人 IP 做 KV 合作和短視頻軟植入,收費(fèi)視具體情況而定,與粉絲的關(guān)系很大。
  2. 第二種向企業(yè)直接售賣直播工具,類似于 SaaS 服務(wù)。它的難點(diǎn)在于打通集成內(nèi)部的技術(shù),以及積累的技術(shù)和樣本是否足夠多樣。當(dāng)實(shí)現(xiàn) SaaS 化后,企業(yè)品牌能夠用 SaaS 平臺(tái)建立數(shù)字人,操作系統(tǒng)簡(jiǎn)單,成本大幅度降低。從市面上的報(bào)價(jià)來(lái)看,月費(fèi)在幾百元到幾千元區(qū)間不等。
  3. 第三種是 UGC 類的創(chuàng)作者經(jīng)濟(jì),讓用戶參與到創(chuàng)作當(dāng)中與廠商利潤(rùn)共享。數(shù)字人賽道的發(fā)展需要大量用戶進(jìn)入承擔(dān)不同的角色,不光是因?yàn)閿?shù)字人的創(chuàng)作者和服務(wù)對(duì)象都是人,還因?yàn)樵谖磥?lái)元宇宙的遠(yuǎn)景當(dāng)中將出現(xiàn)更多數(shù)字人+數(shù)字空間的營(yíng)銷打法,以及更宏大的敘事,勢(shì)必會(huì)產(chǎn)生大量的內(nèi)容需求。只有更多人共同建立生態(tài),才能讓平臺(tái)具有更強(qiáng)的生命力和想象空間。

在當(dāng)前很多企業(yè)的的變現(xiàn)思路中,打造一個(gè)近乎完美的 IP 人設(shè)只是第一步,未來(lái)終將走向 SaaS 標(biāo)準(zhǔn)化和 UGC 規(guī)?;侵虚g過(guò)程是需要投入專業(yè)團(tuán)隊(duì)和技術(shù)人才進(jìn)行打造,尤其對(duì)于之前沒(méi)有數(shù)字人周邊產(chǎn)品和技術(shù)積累的公司,更是一個(gè)不小的挑戰(zhàn)。

5. 虛擬數(shù)字人當(dāng)前主流的SaaS平臺(tái)架構(gòu)

下圖是常見的按層劃分的虛擬數(shù)字人平臺(tái)架構(gòu)設(shè)計(jì)。從下往上依次是:服務(wù)層、協(xié)議層、化身層、應(yīng)用層。
常見的虛擬數(shù)字人一站式平臺(tái)框架(圖片來(lái)源于網(wǎng)絡(luò))

其中服務(wù)層涉及一些底層技術(shù)框架,需搭建“AI能力支撐平臺(tái)”來(lái)承載所有功能,應(yīng)包括:語(yǔ)音識(shí)別、語(yǔ)音驅(qū)動(dòng)、文本驅(qū)動(dòng)、語(yǔ)音轉(zhuǎn)化、手勢(shì)驅(qū)動(dòng)、圖像驅(qū)動(dòng)、聲紋復(fù)刻、人臉識(shí)別、動(dòng)作捕捉、OCR識(shí)別、知識(shí)圖譜、智能推薦等能力;除技術(shù)能力外,服務(wù)層還應(yīng)包含運(yùn)營(yíng)使用配置功能;

協(xié)議層包含語(yǔ)音交互協(xié)議、口型驅(qū)動(dòng)協(xié)議、表情驅(qū)動(dòng)協(xié)議、動(dòng)作驅(qū)動(dòng)協(xié)議,作用是與服務(wù)層和化身層進(jìn)行對(duì)接,將服務(wù)層獲取到的信息進(jìn)行運(yùn)算處理來(lái)傳遞給化身層,以便于模型的控制。

化身層包含對(duì)數(shù)字人資產(chǎn)的管理,需搭建“角色資源平臺(tái)”來(lái)進(jìn)行管理,包含:3D/2D角色庫(kù)、角色配飾庫(kù)、動(dòng)作/表情庫(kù)、特效庫(kù)、背景環(huán)境庫(kù)、模板管理、音視頻頻管理等。

應(yīng)用層又稱為應(yīng)用場(chǎng)景層,該層平臺(tái)會(huì)打包成不同平臺(tái)SDK供應(yīng)用集成,應(yīng)包含:PC、Web、iOS、Android等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容