機(jī)器學(xué)習(xí)離不開大數(shù)據(jù)

我們回顧人工智能60年的發(fā)展史梳理一下,人工智能技術(shù)發(fā)展大致可分為三個(gè)階段。

第一階段為計(jì)算智能,主要表現(xiàn)為能存會算,體現(xiàn)應(yīng)用為神經(jīng)網(wǎng)絡(luò)、谷歌的AlphaGo;

第二階段為感知智能,主要表現(xiàn)為感知外界,可以實(shí)現(xiàn)語音識別、圖像識別等;

第三階段為認(rèn)知智能,認(rèn)知智能能夠?qū)崿F(xiàn)自主行動,例如能夠完全獨(dú)立駕駛的無人汽車?!皬?qiáng)人工智能”屬于第三個(gè)階段,現(xiàn)時(shí)的科技水平仍不可企及。

要想實(shí)現(xiàn)人工智能就離不開三個(gè)必要條件:硬件、算法、數(shù)據(jù);比如以Nvidia為代表的GPU、深度學(xué)習(xí)算法及互聯(lián)網(wǎng)大數(shù)據(jù)的成熟推動感知智能取得突破性進(jìn)展。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像、聲音和文本。

在深度學(xué)習(xí)算法出現(xiàn)之后,語音識別和視覺識別成功率分別達(dá)到95%和99%,基于深度學(xué)習(xí)算法開發(fā)的產(chǎn)品所需的人工調(diào)試和專家處理少,并且能達(dá)到相同或者更好的效果,這也是為什么互聯(lián)網(wǎng)公司紛紛加入人工智能的原因。

現(xiàn)在異常火爆的深度學(xué)習(xí)研究與應(yīng)用不等于人工智能,深度學(xué)習(xí)只是人工智能領(lǐng)域中機(jī)器學(xué)習(xí)方法之一;盡管在某些領(lǐng)域應(yīng)用效果很好,但深度學(xué)習(xí)仍然存在明顯的理論和技術(shù)局限性;

我們完全可以從投資者的角度來看,機(jī)器學(xué)習(xí)、圖像識別和智能機(jī)器人,是目前投資回報(bào)率和產(chǎn)業(yè)成熟度相對較高的三個(gè)人工智能細(xì)分領(lǐng)域,同時(shí)也是未來市場空間最大、行業(yè)增速最高的三個(gè)細(xì)分領(lǐng)域。未來的投資熱點(diǎn)會在智能駕駛、醫(yī)療、教育、金融等方面,這也意味著這幾個(gè)領(lǐng)域的AI創(chuàng)業(yè)創(chuàng)新公司的競爭將會比其他領(lǐng)域來得更加激烈。

既然競爭那么激烈,那我們?nèi)绾谓鉀Q人工智能中的大數(shù)據(jù)的數(shù)據(jù)問題呢?

答案是 —— 模擬+無監(jiān)督學(xué)習(xí)

我們在機(jī)器學(xué)習(xí)研究當(dāng)中,使用合成圖像來訓(xùn)練神經(jīng)網(wǎng)絡(luò)要比使用真實(shí)圖像更有效。因?yàn)楹铣蓤D像數(shù)據(jù)已經(jīng)被標(biāo)記和注釋,而真實(shí)的圖像數(shù)據(jù)需要有人耗費(fèi)巨大的精力去標(biāo)記計(jì)算機(jī)看到的每件事物。

當(dāng)然,一種算法所了解的內(nèi)容與真實(shí)世界中的場景總會有所不同。為解決該問題,需要提高合成圖像數(shù)據(jù)的訓(xùn)練效果,應(yīng)用“模擬+無監(jiān)督”的學(xué)習(xí)方法,以提高模擬圖像的真實(shí)感。使用一種經(jīng)過修改的新型機(jī)器學(xué)習(xí)技術(shù),“生成對抗網(wǎng)絡(luò)”(GAN),讓兩個(gè)神經(jīng)網(wǎng)絡(luò)彼此對抗,從而生成更逼真的圖像。

目前技術(shù)正在經(jīng)歷從計(jì)算、連接再到智慧的進(jìn)化;利用好機(jī)器學(xué)習(xí)這個(gè)工具,并不一定需要讀一個(gè)計(jì)算機(jī)博士學(xué)位,但有必要了解一些基本的概念,了解各種技術(shù)的優(yōu)缺點(diǎn)和能力邊界;機(jī)器學(xué)習(xí)的核心就是預(yù)測;數(shù)據(jù)庫里的數(shù)據(jù)進(jìn)行運(yùn)作統(tǒng)計(jì)和分析算法,壓縮并進(jìn)行選擇,將數(shù)據(jù)變?yōu)樾畔?,學(xué)習(xí)算法將這些信息吞下、消化,然后將其變成知識;機(jī)器學(xué)習(xí)討論是概率,知識工程學(xué)討論邏輯;未來屬于那些深深懂得如何將自己的獨(dú)特專長與算法的擅長結(jié)合起來的人;

比如我們經(jīng)常看到的看圖說話就是,一個(gè)圖片進(jìn)來,我希望這個(gè)計(jì)算機(jī)講出一個(gè)故事,比如一句話“兩個(gè)男人在玩飛盤”。這個(gè)模型,我們是用了一個(gè)圖片的模型,再加上一個(gè)語言的模型。圖片的模型用的是卷積神經(jīng)網(wǎng)絡(luò),語言的模型用的是一個(gè) LSTM。

其實(shí)不管我們?nèi)斯ぶ悄艿降自趺串a(chǎn)生了決策能力,反饋都是非常重要的?,F(xiàn)在流行的對抗式生成網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等算法,其實(shí)強(qiáng)調(diào)的都是反饋的效果和價(jià)值。在人工智能真正實(shí)現(xiàn)的時(shí)候,我覺得兩個(gè)因素非常重要,第一是數(shù)據(jù)逐步歸一。

這里并不是強(qiáng)調(diào)大數(shù)據(jù)分析挖掘帶來的價(jià)值,而是指真正信號的輸入,如果所有數(shù)字化的東西能夠完整地傳遞到信息處理系統(tǒng)里面,使得信息系統(tǒng)能夠真正獲取全量信息,就有可能產(chǎn)生真正有價(jià)值的反饋處理;另一個(gè)指業(yè)務(wù)閉環(huán)打通。我們在構(gòu)建人工智能系統(tǒng)時(shí),一定要打造所謂“AI之環(huán)”。

大數(shù)據(jù)強(qiáng)調(diào)的是靜態(tài)數(shù)據(jù)的分析(大數(shù)據(jù)也有靜動態(tài)數(shù)據(jù)分析,實(shí)時(shí)大數(shù)據(jù)就是動態(tài)數(shù)據(jù) ),而一個(gè)可成長的系統(tǒng)往往指的是動態(tài)的系統(tǒng)。一個(gè)存在閉環(huán)反饋的系統(tǒng)才能夠長期發(fā)展下去,甚至活下去。所以,這是在構(gòu)建AI過程中一個(gè)非常重要的趨勢:一定要構(gòu)建一個(gè)閉環(huán)性系統(tǒng),使它能夠真正具備長期發(fā)展的學(xué)習(xí)能力。

在人們計(jì)算體驗(yàn)改善的過程中,算法的進(jìn)步自然功不可沒。例如,話題模型(topic-modeling)、點(diǎn)擊率預(yù)測(click-through prediction)等一系列算法的出現(xiàn)與不斷優(yōu)化,使得例如推薦系統(tǒng)等信息服務(wù)的質(zhì)量逐步提高。但是,在海量的數(shù)據(jù)規(guī)模上,要應(yīng)用這些算法以解決問題,僅有理論是遠(yuǎn)遠(yuǎn)不夠的。

我們顯然不能指望單臺計(jì)算機(jī)運(yùn)行串行程序來維持當(dāng)今互聯(lián)網(wǎng)級別的計(jì)算和服務(wù)。而隨著數(shù)據(jù)內(nèi)容的增長和用戶量的劇增,更多的信息也使得我們面臨的挑戰(zhàn)愈加嚴(yán)峻。因此為了不斷應(yīng)對新時(shí)期信息處理規(guī)模的需要,從科學(xué)研究到工程實(shí)踐,分布式計(jì)算的相關(guān)理論都得到了長足的發(fā)展,多個(gè)分布式系統(tǒng)先后涌現(xiàn)。

它們將規(guī)模龐大的計(jì)算機(jī)聯(lián)合起來,從而有效地解決大規(guī)模的計(jì)算問題。其中,圖計(jì)算系統(tǒng)就是其中一只重要的分支,從Pregel到GraphLab再到PowerGraph,她們解決的問題范圍逐步增大,性能也不斷提升。圖計(jì)算系統(tǒng)就是主要針對圖結(jié)構(gòu)數(shù)據(jù)處理的系統(tǒng),并在這樣的數(shù)據(jù)上進(jìn)行針對性優(yōu)化的高效計(jì)算。圖(Graph),將信息中的實(shí)體,以及實(shí)體之間的關(guān)系,分別抽象表達(dá)成為頂點(diǎn)以及頂點(diǎn)間的邊這樣的結(jié)構(gòu)數(shù)據(jù)。

比如在機(jī)器學(xué)習(xí)中需要處理的很多信息是由實(shí)體和關(guān)系構(gòu)成的。例如:用戶和電影就是實(shí)體,他們之間的喜好構(gòu)成了實(shí)體間的關(guān)系;搜索查詢和商品也是實(shí)體,他們之間的點(diǎn)擊率構(gòu)成了實(shí)體間的關(guān)系;圖計(jì)算系統(tǒng)可以利用圖結(jié)構(gòu)的特性,有效地進(jìn)行數(shù)據(jù)存儲和調(diào)度執(zhí)行。可以通過基于圖的劃分方法將數(shù)據(jù)更平均的分發(fā)給多臺機(jī)器,讓他們并行執(zhí)行,保證各機(jī)器的負(fù)載均衡,并且可以根據(jù)圖的結(jié)構(gòu)信息來更好的安排數(shù)據(jù)的存放以改進(jìn)計(jì)算時(shí)的數(shù)據(jù)局部性,從而帶來更高的性能。

諸如PageRank這樣的應(yīng)用,傳統(tǒng)的圖計(jì)算系統(tǒng)已經(jīng)可以很高效地處理了。用戶可以利用系統(tǒng)提供的編程模型接口實(shí)現(xiàn)相應(yīng)算法的邏輯,然后將數(shù)據(jù)灌入系統(tǒng)運(yùn)行即可。然而,許多常用的機(jī)器學(xué)習(xí)應(yīng)用并不能直接采用傳統(tǒng)的例如PowerGraph這樣的系統(tǒng)。這是因?yàn)?,與傳統(tǒng)的圖計(jì)算應(yīng)用相比,許多機(jī)器學(xué)習(xí)應(yīng)用處理數(shù)據(jù)有著不同于傳統(tǒng)圖算法的模式。

例如小分批(mini-batch)和延時(shí)同步并行(SSP: Stale Synchronous Parallel)。前者需要按照指定的批量為單位處理數(shù)據(jù),而后者是一種區(qū)別于傳統(tǒng)的圖計(jì)算中純同步/純異步當(dāng)中的一種同步方式。這都需要對傳統(tǒng)圖計(jì)算系統(tǒng)進(jìn)行重新設(shè)計(jì),從而支持相應(yīng)的功能。而這些重新設(shè)計(jì)的挑戰(zhàn)在某種意義上也是機(jī)會——我們可以利用這些機(jī)器學(xué)習(xí)應(yīng)用共同的內(nèi)在屬性,從而提高算法的執(zhí)行效率。

因此,基于分布式圖計(jì)算系統(tǒng)的經(jīng)驗(yàn)和機(jī)器學(xué)習(xí)應(yīng)用的理解,微軟研究院提出了分布式機(jī)器學(xué)習(xí)系統(tǒng)——圖學(xué)習(xí)TuX2Tu Xue Xi。TuX2作為一個(gè)全新的分布式圖引擎,致力于融合圖計(jì)算和分布式機(jī)器學(xué)習(xí)系統(tǒng)。TuX2繼承了傳統(tǒng)圖計(jì)算系統(tǒng)中的優(yōu)勢:簡潔的計(jì)算模型,高效的數(shù)據(jù)排布,均衡的負(fù)載分配以及超過10億條邊的規(guī)模處理能力;并對于分布式機(jī)器學(xué)習(xí)進(jìn)行了大幅擴(kuò)展和優(yōu)化,以支持異質(zhì)性、延時(shí)同步并行(Stale Synchronous Parallel),并提出了一種新的編程模型——MEGA(Mini-batch, Exchange, GlobalSync, Apply)。

大數(shù)據(jù)與AI乃至于云計(jì)算結(jié)合已是大勢所趨。大數(shù)據(jù)提供管道,AI提供智能,大數(shù)據(jù)+AI成為目前行業(yè)的一個(gè)新興技術(shù)棧,成為商業(yè)應(yīng)用的必備。大數(shù)據(jù)被用于處理核心的數(shù)據(jù)工程挑戰(zhàn),而AI則用于以分析洞察從數(shù)據(jù)中提取價(jià)值。

云整合趨勢越來越明顯,比如AWS產(chǎn)品幾乎要把大數(shù)據(jù)版圖的所有的基礎(chǔ)設(shè)施和分析細(xì)分領(lǐng)域都占據(jù)。就分析層面而言,AI大眾化+自助工具的普及將使得數(shù)據(jù)科學(xué)走向自動化,數(shù)據(jù)科學(xué)家的光鮮程度將逐漸黯淡下來,未來將把焦點(diǎn)放在垂直領(lǐng)域方面(AI+金融),通過創(chuàng)新與協(xié)作的方式突圍。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容