《智能時代》讀書筆記5:大數(shù)據(jù)和智能革命的技術(shù)挑戰(zhàn)

大數(shù)據(jù)的數(shù)據(jù)量大、維度多、數(shù)據(jù)完備等特點(diǎn),使得它從收集數(shù)據(jù)開始,到存儲和處理,再到應(yīng)用,都與過去的數(shù)據(jù)方法有很大的不同。因此,使用好大數(shù)據(jù)也需要在技術(shù)上和工程上采用與過去不同的方法。

技術(shù)的拐點(diǎn)
科學(xué)技術(shù)的發(fā)展并非是均勻的,重大的科技突破常常需要醞釀很長時間,在這段時間里,我發(fā)現(xiàn)技術(shù)進(jìn)步是一個緩慢的積累,有人把它稱為相對停頓的狀態(tài),因?yàn)檫@個階段一切發(fā)展都是平衡的,但是當(dāng)這些量的積累到一定程度后,科技在段時間內(nèi)獲得單點(diǎn)突破,然后科技全面迸發(fā),這便是拐點(diǎn)。

我們可以從數(shù)據(jù)的產(chǎn)生、存儲、傳輸和處理四個角度來分析一下大數(shù)據(jù)形成的技術(shù)條件。

  • 數(shù)據(jù)的產(chǎn)生

    • 大數(shù)據(jù)的第一個來源是電腦本身

    • 大數(shù)據(jù)的第二個來源是傳感器。

    • 大數(shù)據(jù)的第三個來源是將那些過去已經(jīng)存在的,以非數(shù)字化形式存儲的信息數(shù)字化,這個過程開始于2000年左右。

  • 信息的存儲

  • 傳輸?shù)募夹g(shù)

  • 信息的處理

        應(yīng)用大數(shù)據(jù)的一個前提條件就是將一個大的計算任務(wù)分到很多臺便宜的服務(wù)器上去做并行計算。
    

數(shù)據(jù)收集:看似簡單的難題
大數(shù)據(jù)與傳統(tǒng)的統(tǒng)計方法相比,在收集數(shù)據(jù)方面有了很大的不同。
首先,傳統(tǒng)的數(shù)據(jù)方法常常是先有一個目的,然后開始時收集數(shù)據(jù)。在大數(shù)據(jù)時代,在收集數(shù)據(jù)時常常沒有這樣預(yù)先設(shè)定的目標(biāo),而是先把所有能夠收集到的數(shù)據(jù)收集起來,經(jīng)過分析后,能夠得到什么結(jié)論就是什么結(jié)論。正是因?yàn)樵谑占瘮?shù)據(jù)時沒有前提和假設(shè),大數(shù)據(jù)分析才能給我們帶來很多預(yù)想不到的驚喜,也才使得大家接的計算機(jī)變得聰明了。

在獲取數(shù)據(jù)方面,大數(shù)據(jù)和傳統(tǒng)的統(tǒng)計方法另一個不同點(diǎn)在于,過去我們是通過少量的采樣獲得所謂具有代表性的數(shù)據(jù),這些數(shù)據(jù)被稱為樣本。
根據(jù)統(tǒng)計學(xué)原理,只要樣本具有代表性,通過分析這些少量的樣本數(shù)據(jù),就可以總結(jié)出規(guī)律性。
但是,我們常常認(rèn)為具有代表性的數(shù)據(jù),可能并不那么具有代表性。

真是世界的情況是,獲得足夠量的具有代表性的數(shù)據(jù)遠(yuǎn)比我們想象的要難得多。

大數(shù)據(jù)則避免了采樣之苦,因?yàn)榇髷?shù)據(jù)常常是以全集作為樣本集。但是怎樣收集到全集就是一件很有挑戰(zhàn)的事情了,因?yàn)椴荒茉俨捎眠^去抽樣調(diào)查的方式了。
那么,聰明的公司會怎樣解決收集數(shù)據(jù)的難題呢?最常見的方法就是繞一個彎路,間接地收集數(shù)據(jù),然后利用數(shù)據(jù)的相關(guān)性,導(dǎo)出自己所要知道的信息,但是這條路并不好走。

在現(xiàn)實(shí)世界里有一個匪夷所思的現(xiàn)象。一方面,微軟、蘋果和谷歌這些IT公司,為了挖掘每一個家庭的消費(fèi)潛力,想盡辦法千方百計地要掌握每個家庭客廳的數(shù)據(jù)。另一方面,擁有這些數(shù)據(jù)的公司除了統(tǒng)計一下收視率,計算一下可能的廣告觀眾,并沒有什么大的作為。從這個現(xiàn)象可以看出,一些公司已經(jīng)敏銳地看到了數(shù)據(jù)的價值,而另外一些公司卻拿著金飯碗在要飯,這其實(shí)反映出兩種類型的公司再方法論上的差異。

在收集數(shù)據(jù)是,我們還需要再一次強(qiáng)調(diào)它是在無意間完成的。
數(shù)據(jù)的收集是一個開放性的話題,不存在唯一的,最佳的方法。但是好的方法一定能夠保證數(shù)據(jù)的全面性(完備性)和不變性。

數(shù)據(jù)存儲的壓力和數(shù)據(jù)顯示的難題
目前節(jié)約存儲設(shè)備的技術(shù)體現(xiàn)在兩個方面,第一類技術(shù)就是存儲同樣的信息占用的空間更小。當(dāng)然,這不是簡簡單單的數(shù)據(jù)壓縮。從信息論的角度講,就是要去除數(shù)據(jù)的冗余,但是在去除冗余之時,相應(yīng)的數(shù)據(jù)讀寫處理要做改變。
第二類技術(shù)涉及到數(shù)據(jù)安全,在這里所講的數(shù)據(jù)安全是指數(shù)據(jù)不丟失、不損壞。而不是指防止數(shù)據(jù)被盜。

大數(shù)據(jù)方面面臨的另一個技術(shù)難題就是如何標(biāo)準(zhǔn)化數(shù)據(jù)格式,以便共享。

并行計算和實(shí)時處理:并非增加機(jī)器那么簡單
大數(shù)據(jù)由于體量大、維度多,處理起來計算量巨大,它的使用效率取決于并行計算的水平。
我們在前面提到了Google的MapReduce和雅虎的Hadoop等工具,它們能夠把相當(dāng)一部分大型計算任務(wù)拆分成若干小任務(wù)在很多并行的服務(wù)器上運(yùn)算。這確實(shí)給大數(shù)據(jù)處理帶來了福音,但是并沒有完全解決計算瓶頸問題。
首先,任何一個問題總會有一部分計算是無法并行的,這類計算占比越大,并行處理的效率越低。
另一個影響并行計算效率的因素在于無法保證每個小任務(wù)的計算量是相等的。

大數(shù)據(jù)處理的另一個挑戰(zhàn)是對實(shí)時性的要求。一些看似簡單的操作一到達(dá)數(shù)據(jù)頭上就特別費(fèi)時間。
要解決實(shí)時處理大數(shù)據(jù)的問題,就需要從根本上改變系統(tǒng)設(shè)計和算法,而不是增加機(jī)器那么簡單。

數(shù)據(jù)挖掘:機(jī)器智能的關(guān)鍵
使用大數(shù)據(jù),相當(dāng)于在一對沙子中淘金,不經(jīng)過處理的原始數(shù)據(jù)是給不出什么新知識的,大數(shù)據(jù)能產(chǎn)生的效益在很大程度上取決于使用(在挖掘)數(shù)據(jù)的水平。

機(jī)器學(xué)習(xí)的過程無一例外是一個不斷迭代,不斷進(jìn)步的過程,用機(jī)器學(xué)習(xí)的專業(yè)術(shù)語來說就是“期望值最大化”(Expectation Maximization)的過程:只要事先定出一個學(xué)習(xí)的目標(biāo),這些算法就會不斷地優(yōu)化模型,讓它越來越接近真實(shí)地情況??梢哉f,機(jī)器學(xué)習(xí)訓(xùn)練算法迭代的次數(shù)越多,或者通俗地說學(xué)習(xí)的越深入,得到的數(shù)學(xué)模型效果越好。因此,同樣的數(shù)據(jù),同樣的算法,采用不同深度的機(jī)器學(xué)習(xí)方法,得到的結(jié)果會有所不同。
但是機(jī)器學(xué)習(xí)的算法通常都比較“慢”,用比較專業(yè)的術(shù)語講,就是計算復(fù)雜度太高,因此隨著數(shù)據(jù)量的增加,計算時間會劇增。

至于Google選擇人工神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的算法的原因,聽上去匪夷所思,細(xì)想起來卻很有道理-----人工神經(jīng)網(wǎng)絡(luò)的核心算法幾十年來基本上沒有變過。人么從直覺上一般會認(rèn)為不斷改進(jìn)的算法才是好的,應(yīng)該采用的,但是在工程上卻不然,像Google大腦這樣試圖解決各種問題(而不是一個特定問題)的大數(shù)據(jù)機(jī)器學(xué)習(xí)工具,實(shí)現(xiàn)起來工作量巨大,一旦實(shí)現(xiàn),就希望能夠使用很長時間,因此算法需要穩(wěn)定,不能三天兩頭地改進(jìn)。

數(shù)據(jù)安全的技術(shù)
大數(shù)據(jù)應(yīng)用的一個挑戰(zhàn)來自對數(shù)據(jù)安全性的擔(dān)憂和對隱私的訴求。

數(shù)據(jù)安全有兩層含義,首先是要保證用戶的數(shù)據(jù)不損壞,不丟失。
但是數(shù)據(jù)安全還有第二層的含義,即要保證數(shù)據(jù)不會被盜走或者盜用。

當(dāng)然,比數(shù)據(jù)集中存放更讓業(yè)內(nèi)人士不踏實(shí)的是一旦黑客得到多維度的數(shù)據(jù),從理論上講,黑客可以像數(shù)據(jù)科學(xué)家一樣對大數(shù)據(jù)進(jìn)行分析,那么機(jī)密泄露的損失就大得難以估量。

通常人們在方便性和安全性方面會優(yōu)先考慮方便性,這是人的天性使然。

既然不能夠完全把偷盜者擋在外面,就需要有更好的方式來保障信息安全。
科學(xué)家和工程師首先想到的是在文件系統(tǒng)和操作系統(tǒng)設(shè)計上加以改進(jìn)。
另一種行之有效的方法恰恰是利用大數(shù)據(jù)本身的特點(diǎn),來保護(hù)大數(shù)據(jù)的信息安全。

保護(hù)隱私:靠大數(shù)據(jù)長期掙錢的必要條件
由于大數(shù)據(jù)具有多維度和全面性的特點(diǎn),它可以從很多看似支離破碎的信息中完全復(fù)原一個人或者一個組織的全貌,并且了解到這個人生活的細(xì)節(jié)或者組織內(nèi)部的各種信息。這樣就會引發(fā)大家對隱私權(quán)的擔(dān)憂。

大眾在大數(shù)據(jù)時代對自己的隱私如此不在意,可能有三個原因。
首先不是清楚大數(shù)據(jù)按照目前的這個方式發(fā)展,最終會嚴(yán)重侵犯個人隱私,因?yàn)樵谶^去的技術(shù)革命中這不是問題。
其次是抱著僥幸的心理,認(rèn)為那么多用戶數(shù)據(jù),怎么可能數(shù)據(jù)的擁有者或者操作者正好能挖掘到我的隱私,這是因?yàn)樗麄儗Υ髷?shù)據(jù)帶來的機(jī)器智能不了解,事實(shí)上這不需要人工去做人肉搜索,計算機(jī)可以自動完成挖掘任務(wù),而且做得非常智能。
最后,很多人覺得,我既不做什么壞事,也不擔(dān)心行蹤被暴露,也不是什么名人怕大家知道什么秘密,那些擁有我的數(shù)據(jù)的公司即便知道我的隱私,也損害不了我的利益。這種想法實(shí)際上是大錯特錯,因?yàn)橛脩舻睦嬖陔[私暴露之后很容易被損害。

為什么必須在技術(shù)上保護(hù)隱私,而不僅僅是在法律層面考除法來解決侵犯隱私的行為呢?隨翻在法律層面保護(hù)隱私是必須的,但是光靠法律是解決不了問題的。首先,很多侵犯隱私的行為是個人行為,比如偷窺,很難發(fā)現(xiàn)和查處。其次,法律的制定永遠(yuǎn)落后于案件的發(fā)生,尤其是在大陸法系的國家。
一類保護(hù)隱私的技術(shù)是從收集信息的一開始就對數(shù)據(jù)進(jìn)行一些預(yù)處理,預(yù)處理后的數(shù)據(jù)保留了原來的特性,使得數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師能夠處理數(shù)據(jù),卻“讀不懂”數(shù)據(jù)的內(nèi)容。
另一類保護(hù)隱私的技術(shù)是所謂的雙向監(jiān)視。這是一個很新穎的保護(hù)隱私的想法,簡單地講就是當(dāng)使用者看計算機(jī)時,計算機(jī)也在盯著使用者看。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容