DS學(xué)習(xí)筆記(一):關(guān)于大數(shù)據(jù)的災(zāi)難和浪漫

數(shù)據(jù)科學(xué)和統(tǒng)計(jì)學(xué)的區(qū)別

有人說,數(shù)據(jù)科學(xué)家就是住在灣區(qū)的統(tǒng)計(jì)學(xué)家。這當(dāng)然是笑話,但表面上看起來兩者都是從數(shù)據(jù)分析中得出結(jié)論的學(xué)科,好像確實(shí)大同小異。數(shù)據(jù)科學(xué)到底是不是統(tǒng)計(jì)學(xué)為了蹭熱度而把自己重新包裝了一下啊?

首先,兩者的應(yīng)用不太一樣。傳統(tǒng)統(tǒng)計(jì)學(xué)是從樣本觀察中得出能夠應(yīng)用到目標(biāo)整體的結(jié)論,而數(shù)據(jù)科學(xué)主要關(guān)注怎么應(yīng)用過去獲得數(shù)據(jù)來預(yù)測未來。一個(gè)是“一葉知秋”,一個(gè)是“鑒古通今”。其次,統(tǒng)計(jì)學(xué)側(cè)重于量化樣本和整體的差異性或不確定性,而數(shù)據(jù)科學(xué)更注重預(yù)測的準(zhǔn)確性,對(duì)不確定性不是很在意。另外從數(shù)據(jù)量來看,傳統(tǒng)統(tǒng)計(jì)學(xué)的樣本數(shù)量一般較低,而數(shù)據(jù)科學(xué)借助近年來計(jì)算技術(shù)的飛躍,有能力處理大量的數(shù)據(jù) ,并且數(shù)據(jù)的形式也更為“原生態(tài)”,沒有經(jīng)過精細(xì)的處理。

大數(shù)據(jù)與維數(shù)災(zāi)難

We are drowning in information and starving for knowledge. -- John Naisbitt.

通常我們談到“大數(shù)據(jù)”,一般認(rèn)為是數(shù)據(jù)量的“大”,即樣本數(shù)多;但實(shí)際上大數(shù)據(jù)也可以指數(shù)據(jù)的維度(特征數(shù))很高,維數(shù)甚至可能遠(yuǎn)大于樣本數(shù)。例如在醫(yī)學(xué)應(yīng)用中,一些罕見病的病人數(shù)量可能全世界只有幾千個(gè),但每個(gè)病人都有大量的測量數(shù)值、診斷報(bào)告、醫(yī)學(xué)影像……這種大數(shù)據(jù)反而讓人頭疼,因?yàn)檫@就涉及到“維數(shù)災(zāi)難(curse of dimensionality)”的概念。

維數(shù)災(zāi)難是如何產(chǎn)生的呢?簡單來說,隨著數(shù)據(jù)維數(shù)的增高,數(shù)據(jù)點(diǎn)之間距離也越來越遠(yuǎn)。例如二維平面上的兩個(gè)點(diǎn),如果投影到一維上,這個(gè)投影的距離必定是小于或等于它們本來在二維上的距離。從二維到三維也是如此。數(shù)據(jù)點(diǎn)間的距離擴(kuò)大直接導(dǎo)致整個(gè)樣本空間越來越稀疏,也就是說,樣本和樣本的差異性越來越大。這就帶來很多統(tǒng)計(jì)上的困擾,因?yàn)榻y(tǒng)計(jì)理論的基礎(chǔ)就是用樣本來估計(jì)整體;如果樣本之間相差都很大,就很難選出有代表性的樣本?;蛘哒f,要維持同樣的采樣距離,需要的樣本數(shù)就要呈指數(shù)增長。網(wǎng)友名言“人和人的差距,有時(shí)候比人和狗的差距還大”,其實(shí)是有道理的呀!因?yàn)槿松砩夏苡脕矸诸惖臉?biāo)簽實(shí)在太多了,每個(gè)人深究起來都非常不同,誰又能代表誰呢。

幸運(yùn)的是,現(xiàn)實(shí)世界中的很多數(shù)據(jù)雖然是高維的,但不是所有維度都和我們所要解決的問題相關(guān)。例如在人臉識(shí)別中,照片的光線、人的表情、拍照角度,跟辨認(rèn)出照片里到底是誰沒有什么關(guān)系。通過降維的手段弱化可以將這些特征弱化,從而提高預(yù)測的準(zhǔn)確性。在動(dòng)畫電影和游戲的制作中,經(jīng)常用感應(yīng)器追蹤真人演員的動(dòng)作,再投影到二維平面上來輔助動(dòng)畫人物的合成,這也是降維的例子。

機(jī)器星探

無監(jiān)督機(jī)器學(xué)習(xí)的一個(gè)重要類別是聚簇(clustering),即在沒有外界輔助的情況下將樣本根據(jù)特征自動(dòng)分類。記得那個(gè)腦筋急轉(zhuǎn)彎嗎?小明往鍋里倒了紅豆和綠豆,但豆子在鍋里神奇地分成了兩類——一邊是紅豆,一邊是綠豆!聚簇就是在鍋里多于兩個(gè)豆的情況下也能把它們正確地分開的方法。

NASA的Autoclass系統(tǒng)曾在紅外天文衛(wèi)星(IRAS)目錄的大量數(shù)據(jù)中發(fā)現(xiàn),某種恒星似乎存在兩種不同的紅外線譜。經(jīng)確認(rèn),這兩種譜來自于該星系中不同位置的紅外線源(下圖黃藍(lán)兩色),應(yīng)該被歸為兩類。給星星分類,好像要比給紅豆綠豆分類高大上一些吧!這就是機(jī)器學(xué)習(xí)的浪漫。

NASA的聚簇系統(tǒng)被用來給星星分類
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容