原創(chuàng):王穩(wěn)鉞
資料來(lái)源:?jiǎn)尾?/p>
一、真假元宇宙
最近元宇宙這個(gè)概念非常火,網(wǎng)上的資料也是鋪天蓋地。但個(gè)人認(rèn)為元宇宙這個(gè)概念里蹭熱點(diǎn)的人非常的多,元宇宙還是處于概念為主的階段。很多人說(shuō)自己在做元宇宙,但其實(shí)都是真假難辨的狀態(tài)。在元宇宙這個(gè)詞出現(xiàn)之前,其實(shí)有很多相關(guān)的概念,比如虛擬現(xiàn)實(shí)( VR )、數(shù)字孿生、自動(dòng)化等。數(shù)字孿生其實(shí)就是仿真建模,比如說(shuō)我國(guó)的國(guó)產(chǎn)的飛機(jī) 919 等大型的機(jī)械化的電氣化的設(shè)備在生產(chǎn)的過(guò)程中,都會(huì)涉及到跟數(shù)字孿生相關(guān)的一些數(shù)字仿真。元宇宙這個(gè)概念,其實(shí)應(yīng)該更加理性去看待,關(guān)于元宇宙,人們達(dá)到了一個(gè)共識(shí)就是它一定是確定性的一個(gè)未來(lái),但是它如何、何時(shí)能夠到來(lái),還是一個(gè)未知數(shù)。
關(guān)于一個(gè)技術(shù)的發(fā)展,經(jīng)??梢杂?Gartner 技術(shù)成熟度曲線來(lái)對(duì)它進(jìn)行一個(gè)衡量。在一個(gè)技術(shù)誕生初期會(huì)有一個(gè)爆發(fā)期,但是往往會(huì)帶來(lái)一個(gè)過(guò)高的期望,來(lái)到一個(gè)峰值。峰值過(guò)后就會(huì)有一個(gè)下降的冷卻期。之后,在泡沫崩盤(pán)之后會(huì)有一個(gè)緩慢爬升的過(guò)程,最后才能投入到真實(shí)的生產(chǎn)科研這些應(yīng)用當(dāng)中。

如果要實(shí)現(xiàn)能夠在一個(gè)虛擬的世界里面生活、互聯(lián)、人際交往,其實(shí)還需要大量的基礎(chǔ)設(shè)施,軟硬件的發(fā)展、市場(chǎng)的培育、內(nèi)容的建設(shè),需要這幾點(diǎn)甚至更多的協(xié)同才能實(shí)現(xiàn)。所以元宇宙現(xiàn)在有真有假,眾說(shuō)紛紜,所以一定要用相對(duì)冷靜和務(wù)實(shí)的態(tài)度來(lái)看待元宇宙。
二、人工智能現(xiàn)在在哪里?
人們普遍認(rèn)為AI是離元宇宙相對(duì)較近的方向,我們可以通過(guò) AI 和元宇宙之間的關(guān)聯(lián)來(lái)了解一下 AI 技術(shù)現(xiàn)在發(fā)展到了什么程度,未來(lái)還有哪些發(fā)展。元宇宙中一個(gè)重要的方面就是人機(jī)交互和信息的傳遞,這在 AI 當(dāng)中也有很多應(yīng)用。例如抖音,有沒(méi)有發(fā)現(xiàn)抖音越刷越愛(ài)看呢?每天推薦的都是感興趣的內(nèi)容。還有淘寶,即使最近不太想買(mǎi)東西,偶爾也會(huì)打開(kāi)淘寶看一看。淘寶就會(huì)根據(jù)最近瀏覽過(guò)的商品來(lái)推薦可能感興趣的商品,比如最近瀏覽過(guò)手機(jī)耳機(jī),就有可能會(huì)推薦其他電子產(chǎn)品;搜索過(guò)衣服,就會(huì)推薦很多符合審美,符合價(jià)位的服裝。除此以外,包括很多音樂(lè)軟件也有猜你喜歡等等歌單的推薦。這些都是屬于推薦系統(tǒng)在日常生活中的應(yīng)用。
計(jì)算機(jī)視覺(jué)在日常生活中也有廣泛的應(yīng)用。比如說(shuō)手機(jī)解鎖,上下班刷臉打卡、高鐵站機(jī)場(chǎng)等需要通過(guò)人證比對(duì)來(lái)做身份的檢驗(yàn)、自動(dòng)駕駛等等。自然語(yǔ)言處理同樣如此,人們的生活也都離不開(kāi)有道詞典等翻譯軟件。
三、認(rèn)識(shí)人工智能
很多書(shū)、教材中都會(huì)說(shuō)人工智能沒(méi)有一個(gè)明確的定義。但是我們可以將它定義為——為機(jī)器賦予人的智能,即像人一樣感知,像人一樣思考,像人一樣行為。其實(shí)感知、決策控制這三點(diǎn)就是機(jī)器要具有的人的智能。感知,就像人的視覺(jué)、聽(tīng)覺(jué);思考,像人一樣在不同的情況下要做出決策;做出決策,還要執(zhí)行,這就屬于像人一樣行為。
在人工智能誕生之初,人工智能這個(gè)詞是怎么來(lái)的呢?其實(shí)它最早和控制論是非常相關(guān)的。其實(shí)控制論和人工智能是一個(gè)相輔相成的概念??刂普撨@個(gè)詞出現(xiàn)得更早,其實(shí)它就是早期的人工智能概念。隨著學(xué)術(shù)界出現(xiàn)了爭(zhēng)執(zhí)和風(fēng)波,一群 AI 的學(xué)者,為了脫離原本維納的控制論,所以起了一個(gè)新詞叫人工智能。所以如果在谷歌的詞頻里面搜索一下的話(huà),也可以看出來(lái),早期的時(shí)候,在五六十年代的時(shí)候,控制論這個(gè)詞迎來(lái)了一波高峰,但后來(lái)就衰落了。
那現(xiàn)在這個(gè)時(shí)代,當(dāng)談?wù)摰饺斯ぶ悄艿臅r(shí)候,其實(shí)是在談兩個(gè)概念,即算法工具和智能硬件。因?yàn)槿斯ぶ悄芷鋵?shí)是在硬件的促進(jìn)下發(fā)展的,三駕馬車(chē)指的就是算法、算力和數(shù)據(jù)。關(guān)于算法工具,其實(shí)就是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。AlphaGo 就是將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合產(chǎn)生的。硬件系統(tǒng)主要的就是指移動(dòng)端的芯片,比如手機(jī)里的芯片。
今天人工智能算法中最火的名詞就是深度學(xué)習(xí)了。但是人工智能有許多流派,符號(hào)主義、連接主義、統(tǒng)計(jì)主義、行為主義等等,在這些流派下面會(huì)誕生不同的算法的門(mén)類(lèi),不同的算法門(mén)類(lèi)里面細(xì)節(jié)還有很多算法,人工智能的算法非常多,比如說(shuō)知識(shí)圖譜、專(zhuān)家系統(tǒng)、遺傳算法等,他們都屬于 AI的算法。但最近十年是深度學(xué)習(xí)比較流行,但是如果真的想扎根于人工智能的話(huà),不要放棄其他算法,因?yàn)槿斯ぶ悄艿陌l(fā)展,一直都是三十年河?xùn)|,三十年河西。在最早的時(shí)候符號(hào)主義和專(zhuān)家系統(tǒng)特別流行,現(xiàn)在就不流行了,但沒(méi)人知道十年之后他不會(huì)再次流行。
在人工智能誕生之初,科學(xué)家會(huì)想怎么實(shí)現(xiàn)人工智能呢,然后就誕生了不同的流派。在最早符號(hào)主義比較占上風(fēng),科學(xué)家們都認(rèn)為通過(guò)這種基于規(guī)則的數(shù)理邏輯、數(shù)學(xué)邏輯(加減乘除、與或非)就可以實(shí)現(xiàn)人的智能。因?yàn)橛?jì)算機(jī)剛剛誕生的時(shí)候,就是利用這些進(jìn)行計(jì)算的。但是即使到了現(xiàn)在人腦的原理,人們也沒(méi)有完全的理解,現(xiàn)在的電腦也還是不能代替人腦,所以符號(hào)主義沒(méi)有走得很遠(yuǎn),逐漸沒(méi)落了。
其實(shí)在人工智能誕生的早期,還有另外一個(gè)流派就叫做連接主義,或者叫連接流派。它是模擬大腦的連接結(jié)構(gòu)。該流派主要是模擬人腦的結(jié)構(gòu)。人腦由神經(jīng)元組成,那機(jī)器腦就由人工神經(jīng)元構(gòu)成;人的大腦皮層是一層一層連接起來(lái)的,那機(jī)器里面的大腦就由一層一層的人工神經(jīng)元連成。這就是連接主義這一派的思路,所以這也是神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)所屬的流派。所以從最早人工神經(jīng)元發(fā)展到多層感知機(jī),然后發(fā)展發(fā)展到神經(jīng)網(wǎng)絡(luò),這些學(xué)習(xí)算法發(fā)展到現(xiàn)在就成為了深度學(xué)習(xí)。
其實(shí)行為主義也一直在流行。行為主義的代表算法就是遺傳算法。遺傳算法是強(qiáng)化學(xué)習(xí)的一個(gè)特例,這一類(lèi)的算法是模擬人的行動(dòng)和決策的,人類(lèi)看到什么事情,會(huì)做出什么樣的行動(dòng)。比如,當(dāng)人類(lèi)看到前方有障礙物會(huì)躲避,那這個(gè)從感知到行動(dòng)的行為,科學(xué)家認(rèn)為如果機(jī)器也能像人一樣有從感知到行為的映射,那機(jī)器就具有了人類(lèi)的智能,所以叫行為主義。
最后一個(gè)流派叫統(tǒng)計(jì)主義,這個(gè)非常像數(shù)理統(tǒng)計(jì)這一派的,它其實(shí)就是機(jī)器學(xué)習(xí),因?yàn)闄C(jī)器學(xué)習(xí)的全稱(chēng)叫做統(tǒng)計(jì)機(jī)器學(xué)習(xí)。那這一類(lèi)的流派的科學(xué)家就希望系統(tǒng)可以自動(dòng)地從數(shù)據(jù)中獲得知識(shí),而不需要人告訴他,也就是在數(shù)據(jù),也可以叫經(jīng)驗(yàn)中學(xué)習(xí)。在經(jīng)驗(yàn)中學(xué)習(xí),其實(shí)跟人的學(xué)習(xí)的過(guò)程是很像的。比如監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),就很像人類(lèi)的學(xué)習(xí)的過(guò)程。機(jī)器學(xué)習(xí)通常被劃分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。監(jiān)督學(xué)習(xí)就類(lèi)似于老師在說(shuō),哪個(gè)是正確的哪個(gè)是錯(cuò)誤的。在這種標(biāo)簽或者老師的監(jiān)督下,在數(shù)據(jù)中產(chǎn)生算法,產(chǎn)生模型。監(jiān)督學(xué)習(xí)非常適合解決分類(lèi)或者回歸類(lèi)問(wèn)題。監(jiān)督學(xué)習(xí)就沒(méi)有老師了,相當(dāng)于完全自習(xí)的狀態(tài),所以無(wú)監(jiān)督或者無(wú)老師學(xué)習(xí),它很適合解決一些聚類(lèi)的問(wèn)題,沒(méi)有明顯的標(biāo)簽或者是沒(méi)有明顯的好壞,甚至沒(méi)有明確的對(duì)錯(cuò)的一些問(wèn)題。比如社交網(wǎng)絡(luò)里面的一些輿情的信息等等,都可以用聚類(lèi)來(lái)做分析。另外一個(gè)就是強(qiáng)化學(xué)習(xí),它適合解決的是決策問(wèn)題,比如說(shuō)機(jī)器人的控制、自動(dòng)駕駛、下圍棋、下國(guó)際象棋等等。當(dāng)然圍棋因?yàn)樗碾y度比較高,在 2016 年的時(shí)候才被 AlphaGo 解決,但也并不能叫完全解決。
機(jī)器學(xué)習(xí)之后就發(fā)展到了神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)可以分為兩類(lèi),即卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)(或循環(huán)神經(jīng)網(wǎng)絡(luò))。卷積神經(jīng)網(wǎng)絡(luò)更適合于解決空間相關(guān)的信號(hào),比如照片。遞歸神經(jīng)網(wǎng)絡(luò),或者循環(huán)神經(jīng)網(wǎng)絡(luò),它適合解決與時(shí)間相關(guān)的信號(hào),比如語(yǔ)音信號(hào)。
深度學(xué)習(xí)是什么時(shí)候得到發(fā)展的呢?在 2012 ImageNet 挑戰(zhàn)賽里,Alex 提出了一個(gè)網(wǎng)絡(luò),把深度學(xué)習(xí)變成了一個(gè)參數(shù)可調(diào)可學(xué)習(xí)的狀態(tài)。所以從 2013 年開(kāi)始,深度學(xué)習(xí)就蓬勃發(fā)展了。但這一個(gè)挑戰(zhàn)賽最早只在學(xué)術(shù)界有一定的影響力。什么時(shí)候工業(yè)界和大眾都開(kāi)始關(guān)注到深度學(xué)習(xí)呢?其實(shí)是 AlphaGo 戰(zhàn)勝人類(lèi)之后,但戰(zhàn)勝人類(lèi)的是深度強(qiáng)化學(xué)習(xí),但反倒讓深度學(xué)習(xí)火了,這也是非常有意思的情況。
四、像人一樣感知——以人臉識(shí)別為例
如果讓機(jī)器實(shí)現(xiàn)人臉識(shí)別,總共分幾步呢?其實(shí)有三步就夠了。如果要求高的話(huà),就需要有四步。第一步就是做一個(gè)人臉檢測(cè),先要檢測(cè)出人臉區(qū)域,再去識(shí)別。但在檢測(cè)和識(shí)別中間還需要檢測(cè)關(guān)鍵點(diǎn)。什么叫人臉的關(guān)鍵點(diǎn)呢?比如鼻子、嘴巴、眼睛、眼角、鼻翼、嘴角等等。關(guān)鍵點(diǎn)的作用是因?yàn)槿四樧R(shí)別不一定是正對(duì)鏡頭,有可能是側(cè)面,通過(guò)關(guān)鍵點(diǎn)就能把偏的人臉矯正,然后通過(guò)正的人臉去比對(duì)。

解決人臉的檢測(cè)問(wèn)題又分幾步呢?人臉檢測(cè)其實(shí)最早分為三步,在深度學(xué)習(xí)的發(fā)展之后,人臉檢測(cè)流程就變簡(jiǎn)單了。雖然算法變復(fù)雜了,但流程呢變簡(jiǎn)單了,速度也變得越來(lái)越快了?,F(xiàn)在有一些目標(biāo)檢測(cè)叫兩階段檢測(cè),例如 RCNN 系列算法。還有一階段的算法,比如 YOLO,SSD 系列。在深度學(xué)習(xí)的驅(qū)動(dòng)下,目標(biāo)檢測(cè)算法兵分兩路,分為一階段和兩階段。
五、像人一樣決策&行動(dòng)——以自動(dòng)駕駛為例
就一輛車(chē)來(lái)說(shuō),讓 AI 代替駕駛員的過(guò)程就是完全代替人的過(guò)程。那什么來(lái)代替人的眼睛呢?可以是激光雷達(dá),但激光雷達(dá)的價(jià)格非常高;還有可能是攝像頭,比如特斯拉,就不使用激光雷達(dá),只基于視覺(jué)的障礙物檢測(cè);還可以是毫米波雷達(dá)。因?yàn)楹撩撞ɡ走_(dá)它測(cè)距比較遠(yuǎn),價(jià)格便宜,所以可以在汽車(chē)上裝很多個(gè)。一般自動(dòng)駕駛的計(jì)算設(shè)備就在車(chē)的后備箱中,由工控機(jī)、GPU 等組成。還包括一些執(zhí)行單元,比如方向盤(pán)、油門(mén)等。
那要實(shí)現(xiàn)無(wú)人駕駛,要解決幾個(gè)問(wèn)題呢?第一要解決這種感知問(wèn)題,比如車(chē)道線、障礙物等等。第二還要認(rèn)知它,克服一些不確定性,增強(qiáng)檢測(cè)的魯棒性等等。第三就是決策,看到了障礙物,還要思考該如何規(guī)劃軌跡。第四就是控制,最后就是執(zhí)行了。另外,比如說(shuō)高精度地圖、定位感知和 GPS、北斗等等,這些也都是非常重要的環(huán)節(jié)。
在自動(dòng)駕駛中,因?yàn)楂@取數(shù)據(jù)的傳感器很多,比如有單目相機(jī)、雙目相機(jī)、毫米波雷達(dá)、激光雷達(dá)等,這就會(huì)涉及到傳感器的融合了。其實(shí)傳感器融合是一個(gè)非常傳統(tǒng)的科研方向。早期的時(shí)候都叫數(shù)據(jù)融合,但隨著科研領(lǐng)域流行詞匯的改變,現(xiàn)在更多的稱(chēng)為多模態(tài)融合。
其實(shí)學(xué)習(xí)人工智能并不難,想要實(shí)現(xiàn)前面提到的目標(biāo)檢測(cè)任務(wù),其實(shí)只需要十幾行代碼。元宇宙是未來(lái)下一代互聯(lián)網(wǎng),是人類(lèi)未來(lái)的數(shù)字化生存。元宇宙是一系列技術(shù)的“連點(diǎn)成線”,能夠帶來(lái)超越想象的潛力,驅(qū)動(dòng)產(chǎn)品創(chuàng)新和商業(yè)模式創(chuàng)新。終極的元宇宙將包含:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、AR / VR、3D 圖形渲染、AI 人工智能、高性能計(jì)算、云計(jì)算等技術(shù),具有改變世界的潛力。如果對(duì)元宇宙感興趣,而又不知道從哪入門(mén),那么從 AI 這個(gè)大家公認(rèn)與元宇宙最相近的方向開(kāi)始學(xué)習(xí)是很好的選擇。