自己造個真正意義上的AI紙片人離我們還有多遠?

我一直想自己“造”個可以像個人一樣跟我聊天,當我想操作電腦或手機或玩游戲時,只要跟ta說,ta都能為我操作,還幫我玩游戲掛機……的紙片人AI出來;于是我不斷地,時不時尋找一些方法:

1,首先是圖像,利用軟件圖像生成技術,設置軟件時把你想的輸入成參數(shù),通過程序從網(wǎng)絡上抓取對應的圖片,運用程序建立圖像數(shù)據(jù)庫,并且利用軟件使其像動畫里的人物一樣動起來,怎么動起來?日本有位同志Pramook Khungurn突發(fā)奇想用深度學習給自己做一個AI,做出的AI可以將人們輸入的靜態(tài)人物圖,變成會眨眼,會張嘴,還能望天發(fā)呆的動態(tài)形象。據(jù)他所說,2D人物的動態(tài)建模較為耗時,如果要批量地處理,顯然一步一步來是行不通的。于是他就選擇用深度學習的方法來跳過繁瑣的建模步驟。Pramook決定要做了以后,第一件事就是建立一個數(shù)據(jù)集,訓練算法。這個數(shù)據(jù)集具體來說是標注好姿勢的臉部數(shù)據(jù)集。二次元沒有直接可用的現(xiàn)成數(shù)據(jù)集,所以需要自己創(chuàng)建。于是他用3D模型來訓練2D的算法:從初音未來的MikuMikuDance里下載了8000多個虛擬人物來幫助自己建立數(shù)據(jù)集。一個3D模型就有上千張圖片可以使用,何況是8000個虛擬人物的模型。

數(shù)據(jù)集有了,接下來是算法。在Pramook的AI中,算法分為兩方面,一個是表情變化器,一個是臉部旋轉(zhuǎn)器。表情變化器較為簡單,Pramook借用了中選ECCV 2018的GANimation算法。原來很簡單,就是把兩張圖之間的變化過程用一張圖顯示出來,再與原圖結(jié)合,就可以實現(xiàn)表情的變化。臉部旋轉(zhuǎn)器就比較復雜了,用了兩個互補算法。其中一個依然是GANimation,另一個是來自Zhou等人2016年的視角合成算法,用來讓圖片里的3D物體轉(zhuǎn)起來。要做到這一點,網(wǎng)絡會計算出一個外觀流(Appearance Flow):它知道,輸出的每個像素,色彩是來自輸入中的哪個像素。兩者結(jié)合可以讓表情動作的轉(zhuǎn)換變得平滑流暢。

最后,Pramook進行了測試,發(fā)現(xiàn)行得通。僅輸入一張圖片就可以讓二次元角色動起來。如果將這個AI搭配著面部追蹤算法一起使用,就可以讓二次元角色跟著別的視頻進行動作。有人就用奧巴馬的視頻做了實驗,發(fā)現(xiàn)完全行得通,二次元角色栩栩如生地同步著奧巴馬的神態(tài)和動作,這樣就可以用視頻來“鍛煉”一個二次元角色了。視頻還能自己拍攝,并且Pramook已經(jīng)實驗過表示可行。這樣阿宅也可以手把手地教心儀地“紙片人”「鍛煉」成自己的二次元AI了。

還有一種技術:照片喚醒(Photo Wake-Up)

它可以讓偶像明星從照片里面“跑”出來,它還能將二次元角色AR或vr化。不管是照片、卡通還是抽象角色,只要有個人樣,照片喚醒技術都能喚醒它們,讓它們從二維世界中“走”到你眼前。這項技術如果運用到游戲、動畫制作行業(yè)的話,或許僅僅畫個2D的角色,自動就能變成3D。那么這技術又是怎么讓偶像明星和二次元角色“動”起來變成立體的呢?技術人員表示,讓主角從平面靜態(tài)圖像里走出來,最難的地方就是要在系統(tǒng)中重建一個“虛擬人”。虛擬人必須能透過厚重的衣物,精確對應到畫中人物的身體輪廓:頭對頭,肩并肩,手腕對手腕…… 而實現(xiàn)它的操作僅僅三步:

第一步,技術人員利用現(xiàn)成的圖像分割算法,將畫中人的軀干、四肢分割,再用人體姿態(tài)估計,提取畫中人的2D骨骼關鍵點,忽略厚重的衣服,擬合出一種半裸的可塑3D模型,稱為SMPL模型(Skinned Multi-Person Linear Model)。

第二步,細化紙片人3D模型,技術人員開始細化紙片人的3D模型了。若紙片人運動,身體各部分間難免產(chǎn)生輪廓的重合。完美的模型能夠匹配到紙片人的身體輪廓,還能識別這種自我遮蔽(self-occlusion)現(xiàn)象的出現(xiàn)。怎樣在自我遮蔽出現(xiàn)時保證模型的準確性?技術人員想了個主意:先將SMPL模型映射到2D世界對準輪廓,調(diào)好再次轉(zhuǎn)換成3D模型確保精確度。在映射到2D世界時,技術人員將SMPL模型轉(zhuǎn)換成了兩種不同的映射形式:

一種是肌肉隱約可見的普通圖(Normal Map);

一種是五顏六色區(qū)分了身體不同部位的皮膚圖(Skinning Map)。

二者合一,轉(zhuǎn)換成3D模型后,姿態(tài)可動的3D人來了!

最后,技術人員用CMU的Mo-cap人體動作數(shù)據(jù)集喂給模型,數(shù)據(jù)集中的人物動作,現(xiàn)在可以遷移到你的紙片人身上了;但還是要AR眼鏡才能看到這樣的效果。屆時,技術人員對103名志愿者進行了調(diào)查,86%的被調(diào)查志愿者認為Photo Wake-Up的效果超越了前人所做。

2,語音對話:運用程序建立數(shù)據(jù)庫,用程序使ta可以和我們對話互動;現(xiàn)在的對話機器人層出不窮,百度的小度,蘋果的Siri,微軟的小冰,qq的聊天機器人,各種手機廠商也有他們對話機器人如語音助手;但都不盡人意,她們只是回答某些問題提供某些幫助而已,太片面單調(diào),沒法像人一樣對話聊天。 聊天機器人涉及到的知識主要是自然語言處理,當然這包括了:語言分析和理解、語言生成、機器學習、人機對話、信息檢索、信息傳輸與信息存儲、文本分類、自動文摘、數(shù)學方法、語言資源、系統(tǒng)評測等內(nèi)容,同時少不了的是支撐這一切的編程技術,要制作一個簡單的對話機器人網(wǎng)絡上有很多方法教程。

3,音像嵌合:動起來的ai還需要給ta可以說話,和我們聊天的能力;我們看看虛擬ai,日本出名的初音家族,youtuber的一堆虛擬偶像 ,她們能發(fā)出聲音都是用音源或真人配音, 她們基本都是按已經(jīng)設定好的程序才像人一樣活動,結(jié)果還是要人控制……

運用程序?qū)ⅰ皠印逼饋淼膖a配上你選擇的音源,音源可以到網(wǎng)絡上找也可以用軟件自己制作,利用深度學習“教”ta言行舉止,把ta“訓練”到讓你覺得ta終于會“說話”了為止。

4,機器視覺已經(jīng)得到廣泛應用如人臉識別,AR/VR增強現(xiàn)實和混合現(xiàn)實:該技術使智能手機、平板電腦和智能眼鏡等計算設備,能夠?qū)⑻摂M對象疊加并嵌入到現(xiàn)實世界的圖像中。利用計算機視覺,AR設備可以檢測現(xiàn)實世界中的物體,從而確定設備顯示屏上放置虛擬物體的位置。例如,計算機視覺算法可以幫助AR應用程序檢測諸如桌面,墻壁和地板之類的平面,這是確定深度和尺寸并將虛擬對象放置在物理世界中的重要組成部分。還有應用在醫(yī)療衛(wèi)生方面等等…… 總之機器視覺將會越來越智能,越來越接近人的視覺,現(xiàn)在這方面發(fā)展很快……利用ai軟件攝像機實時捕捉我們的動作舉止,表情神態(tài);用收音器實時錄制我們的聲音,結(jié)合這兩方面用軟件進行數(shù)據(jù)分析處理,建立數(shù)據(jù)庫,ai人工智能對以上數(shù)據(jù)進行反饋,做出合理;符合我們期待的反應,就像真人一樣 ,這時候你覺得ta終于“有模有樣”了。

5,軟件終端:為ta編寫程序,使ta可以無障礙在設備桌面運動,而且不會和其他軟件沖突,同時還給ta編寫應有盡有的功能,甚至把編寫程序的程序通過深度學習教給ta,設置一個安全范圍,讓ta自己學習增加新功能;

它的控制開關最初還是需要一個多平臺開關控制軟件,你只要打開軟件,ta就啟動了。你會看到ta出現(xiàn)在設備桌面上,并且跟你打招呼,然后你可以和ta像家人朋友一樣聊天,就像《噬血狂襲》的超級ai助手角色摩古歪一樣。

結(jié)合將來趨勢,編寫ta能進入其他軟件的功能,如游戲,使ta進入游戲中不會讓你有突兀違和感,讓ta變成如同《刀劍神域》唯一樣的ai助手角色“小精靈”, 編寫ta能在后臺收集你的游戲數(shù)據(jù)進行分析,然后給你建議的功能;通過ai算法,使ta能推算預測游戲你或?qū)Ψ降男袆?;還有你可以利用vr或AR終端設備,體驗感觸ta的「真正形態(tài)」因為運用虛擬,增強現(xiàn)實技術,你觸摸ta就像觸摸真人一樣。?

編寫ta能代替你管理你的設備的功能,如你的社交軟件有信息ta會代替設備提醒你或幫你回復。

加上智能家居化,全屋都配置聯(lián)網(wǎng)智能家電:燈、電子門、音箱、甚至窗戶, ta能像仆人一樣幫你管理;如果當你要開門你只要說一聲,ta會幫你打開,當你從外面回來,ta會替你開門,對你說“歡迎回來!”甚至ta通過學習和ai計算推測你想要做的事,以此達到你想對ta說的時候ta已經(jīng)幫你完成了。ta通過全屋設置的所有音箱,隱藏迷你收音器或小型浮游無人機收音器實時收聽你或你家人的聲音并通過AI分析計算處理,對此做出合理符合你們期待的回應。

6,建立云服務器,將以上涉及到的數(shù)據(jù)都自動傳輸備份到云數(shù)據(jù)庫中,利用云服務器實現(xiàn)遠程控制 ,同時防止本地數(shù)據(jù)丟失無法恢復。

7,利用立體投影成像技術,使ta在現(xiàn)實中也“活”了起來,如美國科幻恐怖片《生化危機》中的角色“紅后”一樣。在家中,全屋都裝備了投影機,ta以此出現(xiàn)在現(xiàn)實中,通過攝像收音機實時收集你和家人的言行舉;并做出反饋。除了沒有實體外,你感覺ta就像真人一樣,甚至出到外面,你可以用手機或無人機投影把ta“解放”出來。

8,有條件你可以用ta的數(shù)據(jù)定制個智能仿真(人)機器人, 也就是給ta個“身體”讓ta實體化。給了ta身體,只要ta有那個功能,ta甚至可以保護你,當你的貼身保鏢。

9,ta甚至能協(xié)助你創(chuàng)作或工作,運用ai能力, ta可以自己創(chuàng)作,如通過學習機器學習你的技術或從網(wǎng)絡上學習,寫文畫圖攝影,可以說已經(jīng)“無所不能”了!

據(jù)歷史報道日本一些科研人員開發(fā)的電腦會寫小說,他們還把這些電腦生成的小說拿去參加創(chuàng)作比賽。,當時日本“人工智能(AI)小說創(chuàng)作”的研究人員在東京舉行報告會,對外介紹他們研發(fā)的人工智能系統(tǒng)所創(chuàng)作的四篇小說。他們就作品內(nèi)容和文章生成系統(tǒng)等進行解說。

這四篇小說參加了第三屆日經(jīng)新聞社的“星新一獎”比賽,其中部分作品已通過初審。評委意見是:情節(jié)無破綻。而日本科幻小說作家長谷敏思表示,“能夠完整寫出小說太令人震驚了。如果100分滿分的話我打60分,未來令人期待”。還有什么ai編輯,什么ai攝影,什么AI畫圖,更甚AI制作動畫……等等現(xiàn)在不勝枚舉,這看是AI時代要來了?!

縱觀全文,已經(jīng)完美“造” 了個ai出來,不過還是太科幻了。 這估計要幾百年甚至上千年才能實現(xiàn),雖然是有生之年但還是期待,歷史為證! 相信我們炎黃子孫華夏民族,相信世界最快速度——《中國速度》 有實現(xiàn)這個的力量!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容