大數(shù)據(jù)面臨的技術(shù)挑戰(zhàn)

圖片發(fā)自簡(jiǎn)書(shū)App

上周在大數(shù)據(jù)的趨勢(shì)和特點(diǎn)中,說(shuō)到了人類這次面臨的問(wèn)題不是問(wèn)題無(wú)法解決,而是問(wèn)題過(guò)于復(fù)雜。采用機(jī)械思維,其速度和效率已經(jīng)趕不上新問(wèn)題的產(chǎn)生。正是在這種分工越來(lái)越細(xì),協(xié)作越來(lái)越緊密,問(wèn)題越來(lái)越復(fù)雜的背景下,產(chǎn)生了大數(shù)據(jù)思維。大數(shù)據(jù)思維也由其獨(dú)特的體量大、多樣性和完備性,使得過(guò)去看來(lái)很復(fù)雜很難處理的問(wèn)題變得可以解決了。

其實(shí)早在20世紀(jì)60年代就有研究學(xué)者提出采用人工智能的方法來(lái)解決社會(huì)問(wèn)題。當(dāng)時(shí)的人工智能方法還是局限于通過(guò)首先了解人類是如何產(chǎn)生智能,然后讓計(jì)算機(jī)按照人的思路去做。吳軍老師在《智能時(shí)代》中說(shuō)到:“在人類發(fā)明的歷史上,很多領(lǐng)域早期的嘗試都是模仿人或者動(dòng)物的行為,因?yàn)檫@是我們的直覺(jué)最容易想到的方法?!?但是經(jīng)過(guò)十幾年的發(fā)展,科學(xué)家們發(fā)現(xiàn)采用上面的思路去發(fā)展人工智能,似乎解決不了什么實(shí)際問(wèn)題。很多科學(xué)家開(kāi)始反思人工智能的發(fā)展,而在之后的20年左右的時(shí)間,在人工智能學(xué)術(shù)界的研究是處于低谷的。20世紀(jì)70年代,人類開(kāi)始嘗試智能的另一條發(fā)展道路,即采用數(shù)據(jù)驅(qū)動(dòng)和超級(jí)計(jì)算的方法。即便在10年前,那時(shí)我還在念書(shū),也曾接觸過(guò)人工神經(jīng)網(wǎng)絡(luò)算法。很顯然,當(dāng)時(shí)對(duì)機(jī)器智能的概念大家都還是比較模糊的,人工智能也還沒(méi)有被我們提高到現(xiàn)在的高度。

機(jī)器智能的概念在60多年就被提出來(lái)了,真正的突破卻在具有了大數(shù)據(jù)的今天。為什么大數(shù)據(jù)的拐點(diǎn)會(huì)發(fā)生在今天?大數(shù)據(jù)到底面臨何種技術(shù)挑戰(zhàn)?

過(guò)去的10年,最容易看到的特征就是全球數(shù)據(jù)量呈爆炸式增長(zhǎng)。大數(shù)據(jù)的第一個(gè)來(lái)源是電腦本身;第二個(gè)來(lái)源是傳感器;第三個(gè)來(lái)源是將那些過(guò)去已經(jīng)存在的、以非數(shù)字化形式儲(chǔ)存的信息數(shù)字化。據(jù)2015年思科公司的統(tǒng)計(jì)數(shù)據(jù)顯示,從2009~2015年的6年時(shí)間內(nèi),企業(yè)級(jí)數(shù)據(jù)增長(zhǎng)了50倍。當(dāng)然數(shù)據(jù)的爆炸式增長(zhǎng),離不開(kāi)電腦硬件、軟件、互聯(lián)網(wǎng)、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)處理等一系列配套技術(shù)的發(fā)展和支撐。大數(shù)據(jù)實(shí)際上是對(duì)計(jì)算機(jī)科學(xué)、電機(jī)工程、通信、應(yīng)用數(shù)學(xué)和認(rèn)知科學(xué)發(fā)展的一個(gè)綜合考量。目前這些技術(shù)難題不一定有最佳的解決方案,甚至不存在什么絕對(duì)好的解決辦法。

一、數(shù)據(jù)收集

傳統(tǒng)的數(shù)據(jù)方法常常是先有一個(gè)目的,然后開(kāi)始收集數(shù)據(jù)。比如,海王星的發(fā)現(xiàn)就是在人們發(fā)現(xiàn)天王星運(yùn)動(dòng)軌跡和牛頓力學(xué)預(yù)測(cè)出來(lái)的不一樣之后,天文學(xué)家拍了很多星空的照片后發(fā)現(xiàn)的;心理學(xué)研究也是在有了一個(gè)明確的研究課題后,再通過(guò)實(shí)驗(yàn)的方法采集數(shù)據(jù),如 “棉花糖測(cè)驗(yàn)”系列實(shí)驗(yàn),以及關(guān)于認(rèn)知失調(diào)的“追隨者案例”等等。大數(shù)據(jù)則避免了采樣之苦,因?yàn)榇髷?shù)據(jù)常常以全集(大數(shù)據(jù)的特征之一)作為樣本集。

但是,如何收集到全集就是一件很有挑戰(zhàn)的事情了。目前一些聰明公司,比如Google, Facebook, 百度,京東都是繞一個(gè)彎子,間接地去收集數(shù)據(jù),然后利用數(shù)據(jù)的相關(guān)性,導(dǎo)出自己想要的結(jié)論。但是即便是這些如此成功的公司,仍然也有很多失敗的案例。2010年,Google推出了自己的電視機(jī)頂盒Google TV,為了獲取數(shù)據(jù)為進(jìn)入電視廣告做準(zhǔn)備。但是,由于Google TV銷售得很差,最終Google徹底地放棄了這產(chǎn)品。到目前為止,無(wú)論是Google過(guò)去的機(jī)頂盒,還是后來(lái)的Chromecast,蘋(píng)果的Apple TV,除了統(tǒng)計(jì)一下收視率,計(jì)算一下可能的廣告觀眾,并沒(méi)有什么大的作為。數(shù)據(jù)收集是一個(gè)開(kāi)放性的話題,不存在唯一性或最佳方法,目前仍然面臨著很大的挑戰(zhàn)。

二、數(shù)據(jù)儲(chǔ)存

僅Google街景地圖每天產(chǎn)生的數(shù)據(jù)量就有1TB,假如一份數(shù)據(jù)存三個(gè)拷貝,一年下來(lái)就1PB。即使使用當(dāng)今最大容量的10TB硬盤(pán),也需要用100個(gè)。因此,不能簡(jiǎn)單地依靠設(shè)備來(lái)解決數(shù)據(jù)儲(chǔ)存的問(wèn)題,而是需要技術(shù)解決方案來(lái)提高儲(chǔ)存效率,保證不斷產(chǎn)生出來(lái)的數(shù)據(jù)都能存得下。目前的數(shù)據(jù)儲(chǔ)存手段主要是從如下2個(gè)方面考慮:去除數(shù)據(jù)冗余和便于使用。去除數(shù)據(jù)冗余可以簡(jiǎn)單理解為去除數(shù)據(jù)中的重復(fù)部分,比如同一份附件在所有的郵件中只儲(chǔ)存一次。這樣,在去除數(shù)據(jù)冗余的過(guò)程中,相應(yīng)的數(shù)據(jù)讀寫(xiě)處理就要改變。是否有比現(xiàn)在更有效率的儲(chǔ)存格式或方式,仍然是大數(shù)據(jù)所面臨的挑戰(zhàn)。另外,便于使用的思路是從使用者的角度就去考慮數(shù)據(jù)的儲(chǔ)存。大數(shù)據(jù)之前,數(shù)據(jù)在設(shè)計(jì)文件系統(tǒng)的數(shù)據(jù)儲(chǔ)存格式時(shí),主要考慮的是規(guī)模小、維度少的結(jié)構(gòu)化數(shù)據(jù)。到了大數(shù)據(jù)時(shí)代,不僅數(shù)據(jù)量和維度都劇增,而且大數(shù)據(jù)在形式上也沒(méi)有固定模式,因此需要重新設(shè)計(jì)通用、有效和便捷的數(shù)據(jù)表示方式和儲(chǔ)存方式。

三、數(shù)據(jù)處理

大數(shù)據(jù)由于體量大、維度多,處理起來(lái)計(jì)算量巨大,其處理效率是一大技術(shù)挑戰(zhàn)。并行計(jì)算是目前解決計(jì)算量巨大的重要手段,但仍然存在一些的問(wèn)題。例如,任何一個(gè)問(wèn)題總用一部分計(jì)算是無(wú)法并行計(jì)算的,這類計(jì)算占比越大,并行處理的效率就越低;再次,并行計(jì)算中無(wú)法保證每一個(gè)小任務(wù)的計(jì)算量是相同的,這樣一來(lái),并行計(jì)算的效率也會(huì)大打折扣,即完成了自己計(jì)算任務(wù)的服務(wù)器需要等待個(gè)別尚未完成的服務(wù)器,最終的計(jì)算速度取決于最后完成的子任務(wù)。

四、數(shù)據(jù)挖掘

如何從一堆雜亂無(wú)章的數(shù)據(jù)中挖掘出有價(jià)值的信息,是機(jī)器智能的關(guān)鍵,也是大數(shù)據(jù)的使命。數(shù)據(jù)在進(jìn)行降噪處理之后,基本就可以直接使用了,接下來(lái)的關(guān)鍵一步就是機(jī)器學(xué)習(xí)。目前廣泛使用的機(jī)器學(xué)習(xí)算法有人工神經(jīng)網(wǎng)絡(luò)算法、最大熵模型、邏輯自回歸等。Google公司的AlphaGo的訓(xùn)練算法就是人工神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)的過(guò)程是一個(gè)不斷迭代、不斷進(jìn)化的過(guò)程,只要事先定出一個(gè)目前,這些算法就會(huì)不斷地優(yōu)化模型,讓它越來(lái)越接近真實(shí)的情況。尋找更優(yōu)算法一直也是科學(xué)家們探索的難題。

五、數(shù)據(jù)安全

大數(shù)據(jù)應(yīng)用的一個(gè)挑戰(zhàn)還來(lái)自數(shù)據(jù)安全的擔(dān)憂和對(duì)隱私的訴求。2014年爆出的索尼公司丟失數(shù)據(jù)時(shí),造成的損失高達(dá)1億美元。比商業(yè)數(shù)據(jù)丟失后損失更大的是醫(yī)療數(shù)據(jù)的被盜。在中國(guó),除了在北京建立了大數(shù)據(jù)中心,還在貴陽(yáng)建立了大數(shù)據(jù)災(zāi)備中心,而且正籌備在內(nèi)蒙古再建立另一個(gè)數(shù)據(jù)災(zāi)備中心。而關(guān)于數(shù)據(jù)隱私,我想大家應(yīng)該是深有感觸,由于信息泄露而帶來(lái)的騷擾電話以及電信詐騙,就發(fā)生在我們每個(gè)人身上。據(jù)《智能時(shí)代》中記載:“在美國(guó)的黑市上,一個(gè)醫(yī)療記錄的賣家是商業(yè)數(shù)據(jù)的50倍左右”??梢?jiàn),數(shù)據(jù)安全已然成為大數(shù)據(jù)發(fā)展的一大隱患和難題。

上述大數(shù)據(jù)5個(gè)方面的技術(shù)挑戰(zhàn)并不是獨(dú)立的,而是相輔相成、互相影響的。關(guān)于大數(shù)據(jù)的技術(shù)挑戰(zhàn)在此僅談?wù)剛€(gè)人的一點(diǎn)認(rèn)識(shí),希望對(duì)大家在這方面的思考有所幫助。下周我們繼續(xù)聊,大數(shù)據(jù)給我們帶來(lái)便利以及隱患。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容