? ? ? ? 今天我不想聊深度學習,機器學習,我想來說大數(shù)據(jù)。人類認知的核心一直都保持著穩(wěn)定的流程:在知識的指引下探索,理解,分析,歸納,變成新知識。這個過程肯定會有很多不同步驟分類的意見,每個步驟的名稱有不同的叫法,我覺得這不影響我繼續(xù)探討我談?wù)J知這么一個問題。
? ? ? ? 讓我們從上面這個認知的流程出發(fā),貫穿這個流程的數(shù)據(jù),從一個步驟到下一個步驟的驅(qū)動則是使用知識“乘以”數(shù)據(jù)的結(jié)果。如果熟悉機器學習的人立刻意識到我在說什么,這不就是L = W x X + b,這個深度神經(jīng)網(wǎng)絡(luò)的基本公式嗎?W代表我們的知識,X代表數(shù)據(jù),b代表我們對于知識偏見的整體認知。那么這個公式有什么缺陷嗎?有的,這個公式太武斷了,X代表了已經(jīng),代表了過去,人類的直覺是我知道你怎么來的,很就很容易推斷你怎么去的。可是,這樣的美好預(yù)測被一件事情打破了,那就是意外。我們怎么定義意外,就是從未出現(xiàn)在我們過去的已經(jīng)中間的未知。我們把已經(jīng)用L表示和未知用L_來表示,還記得交叉熵(cross-entropy)嗎?就是我們用來修正權(quán)值網(wǎng)絡(luò)的CE = 西格瑪L x log(L_),原來我們的知識就是不斷的在評價我們已知和未知的差距中間不斷的優(yōu)化,那么除了大小差距的概念,剩下來的幾乎全都是數(shù)據(jù)和知識,而知識本身又是數(shù)據(jù)和之前的知識計算得到的。當我們把這個過程回朔到最初的那個點,我們發(fā)現(xiàn),除了數(shù)據(jù),就是第一推動力的那個初始W,一切都是從此開始。當我們找到這個初始的第一推動力,得到交叉熵概念之后,整個世界都可以推演下去,因此我們得到第一個結(jié)論,一切認知的起點是初始權(quán)值網(wǎng)絡(luò)W,但是一切都是數(shù)據(jù)。
? ? ? ? 當我們意識到數(shù)據(jù)的時候,我們是在說一種類型的數(shù)據(jù)。而我們說大數(shù)據(jù)的時候,我們是在針對一種場景。當我們把數(shù)據(jù)分類的時候,偏見由此產(chǎn)生,大數(shù)據(jù)把各種偏見放到一起來消除,產(chǎn)生有條理的,完備的場景描述和觀點。我反復分析數(shù)據(jù)和大數(shù)據(jù)的時候,希望能夠找到與之匹配的分析工具。數(shù)據(jù)觸點把各種數(shù)據(jù)接入,離線,流式,碎片還是其它形式;數(shù)據(jù)存儲讓數(shù)據(jù)分析可以輕易訪問;數(shù)據(jù)分析直接把觀點和描述用人最喜歡的可視化方式展現(xiàn)。這是多么Hortonworks的一件事情。
? ? ? ? ?其實,最后不管是深度學習,不管是大數(shù)據(jù),最后一件事情是我們最關(guān)心的,就是數(shù)據(jù)下面的實質(zhì)是什么?或者說,未來是什么?這一切從數(shù)據(jù)中來,最后回到數(shù)據(jù)中去,深度學習只是分析并且產(chǎn)生對未來數(shù)據(jù)預(yù)測的中間步驟,如果你覺得這些都是空洞無物的,那么我們現(xiàn)在給出非常實際的預(yù)測:
1. 一切都是數(shù)據(jù),深度學習和大數(shù)據(jù)緊密結(jié)合,最后能夠產(chǎn)生的可作用于這個世界的知識或者認知會是商業(yè)追逐的關(guān)鍵,而不是數(shù)據(jù),也不是算法,比如:自動駕駛技術(shù)商用化之后的關(guān)鍵是給汽車操控系統(tǒng)下達指令的智能指令庫,這個庫的條理,完備和成熟決定了玩家在市場上的競爭力。
2. 達成這個目的的成本消耗在于構(gòu)建數(shù)據(jù)捕獲,存儲,分析和抽取認知和知識的架構(gòu),以及供給這個架構(gòu)的大數(shù)據(jù)和計算力。這個成本是目前大玩家防止中小玩家進入市場的主要門檻。
3. 預(yù)測這種事情的突破不會是總是從已知到未知的推理和邏輯,更會是量子物理,相對論還有經(jīng)典物理對于這個世界認知革命性的突破,也就是參透時間。否則,就是純粹的比拼信息不對稱和計算力強橫程度而已,數(shù)據(jù)和算法到了最后都不是個事。
我回到大數(shù)據(jù)來看深度學習是因為深度學習在對于動物大腦神經(jīng)網(wǎng)絡(luò)的仿真和神經(jīng)網(wǎng)絡(luò)自身發(fā)展都已經(jīng)走到了一個新的瓶頸,網(wǎng)絡(luò)的結(jié)構(gòu)隨著需要解決問題的難度和深入程度變得越來越復雜,也就越來越和生物大腦的構(gòu)成大相徑庭。這一點,我們可以從飛機的發(fā)明和進步和飛鳥不同找到安慰我們自己的先例,但是依然不能讓我們看到深度學習的未來,所以我們是時候放手深度學習,還是回到大數(shù)據(jù)來梳理,深度學習的未來可能在于大數(shù)據(jù)本身,而不是神經(jīng)網(wǎng)絡(luò)的進步和演化,因為刻舟求劍式的發(fā)展神經(jīng)網(wǎng)絡(luò)一直沒有停止,無關(guān)大神,無關(guān)學派,無關(guān)巨頭。