數(shù)據(jù)本無(wú)情 何必論大小

數(shù)據(jù)量的增長(zhǎng)可預(yù)見(jiàn)是越來(lái)越快,但我們又不能從這海量的數(shù)據(jù)直接看出端倪,要輔助決策或者智能升級(jí),匯總、統(tǒng)計(jì)、分析、建模就是必經(jīng)手段,數(shù)據(jù)之大擺在眼前的時(shí)候,更容易專(zhuān)注于解決這個(gè)大問(wèn)題的手段,因?yàn)榇髷?shù)據(jù)大的問(wèn)題是顯然的,甚至大到能讓我們忽視最初想要解決的問(wèn)題或決策。但其實(shí)對(duì)數(shù)據(jù)大小本身的探究也是有助于解決大數(shù)據(jù)大問(wèn)題的,而且在算力提升之前,我們更多的還是從這個(gè)角度來(lái)做的。所以,不談新瓶新酒,只想說(shuō):大并不新鮮,小亦有美點(diǎn),如果大頭不好解決的問(wèn)題場(chǎng)景不妨試一下小端的魔力,也許能發(fā)現(xiàn)不一樣的沉香。

數(shù)據(jù)之大

在大數(shù)據(jù)之稱(chēng)號(hào)隨著互聯(lián)網(wǎng)之風(fēng)口,占據(jù)越來(lái)越多行業(yè)制高點(diǎn)之前,數(shù)據(jù)之大其實(shí)是已然存在的事實(shí)。大數(shù)據(jù)的時(shí)尚,劉德寰老師亦有九點(diǎn)思考:關(guān)于子集,網(wǎng)站或公司擁有的數(shù)據(jù)都是一個(gè)子集;關(guān)于錯(cuò)誤,混雜噪音也會(huì)隨著數(shù)據(jù)增大而增大;關(guān)于抽樣,也是合理有效的…

大數(shù)據(jù)并不新鮮,我們只是趕上算力爆發(fā)的臨界,發(fā)現(xiàn)以前只能埋沒(méi)角落的所謂大樣本,可以用更復(fù)雜的模型來(lái)學(xué)習(xí)學(xué)習(xí),但前輩對(duì)數(shù)據(jù)的分析之道已然是很精細(xì)的,不做借鑒甚至完全摒棄真能做得更好么。

數(shù)據(jù)之小

分布式的興起,使我們得以方便高效的處理更多數(shù)據(jù),拿更多的數(shù)據(jù)做模型。但在沒(méi)有這個(gè)便利的過(guò)往,我們?cè)谛?shù)據(jù)上也有一套行之有效的方案,那就是抽樣。如果經(jīng)過(guò)有效抽樣設(shè)計(jì)的數(shù)據(jù)分析所做決策參考,與暴力輸入所有數(shù)據(jù)全由模型詮釋的決策參考,結(jié)論相同或相似或迥異,您是否有對(duì)大和小的信任偏好呢?還請(qǐng)注意所謂所有數(shù)據(jù),很多情況下其實(shí)只是更大范圍數(shù)據(jù)的一個(gè)小樣本,比如縱向的時(shí)間選擇,橫向的場(chǎng)景限制,大小是相對(duì)的,沒(méi)有小何來(lái)大,沒(méi)有最大只有更大。

大小偏好的有效性,也許只能從實(shí)踐中檢驗(yàn),不管大小,適合自己的才是最好的,只是無(wú)需一味地追求大之方案。跨越時(shí)空,美國(guó)大選不同時(shí)期的兩個(gè)例子,詮釋了小而美的套路,其走俏也是很有可能的。1936年蓋洛普以5w樣本戰(zhàn)勝了文學(xué)摘要250w的問(wèn)卷,雖然它不能次次中獎(jiǎng),見(jiàn)538美國(guó)大選模型介紹;其中,Nate同學(xué)基于匯總數(shù)據(jù)的統(tǒng)計(jì)表現(xiàn),也是風(fēng)頭盡顯,2012年50個(gè)州預(yù)測(cè)全對(duì),并于后來(lái)公布了其背后的想法

數(shù)據(jù)之實(shí)

數(shù)據(jù)已日漸成為生活的必需品,不論我們是否愿意或主動(dòng)參與,我們都已成為的數(shù)據(jù)的生產(chǎn)者和消費(fèi)者。出門(mén)選擇數(shù)據(jù)推薦的最優(yōu)路線,飲食選擇數(shù)據(jù)推薦的新開(kāi)餐廳,健康狀況也由隨身監(jiān)測(cè)的智能手環(huán)提示,在使用與反饋的循環(huán)中構(gòu)建越來(lái)越智能的生活。也許不久,一個(gè)人自我評(píng)估的方式是你給這個(gè)世界留下了多少有效數(shù)據(jù),過(guò)去有名人著書(shū)立說(shuō),以后你的歷史足跡也可能被很多研究所用,基因、行為等等,用于復(fù)原疾病、社會(huì)演變的數(shù)據(jù)模型,你的數(shù)據(jù)被用的頻次高了,被單拎出來(lái)復(fù)原一下你的典型人生,比著書(shū)什么的厲害多了。要理解和分析我們自己參與生產(chǎn)的大數(shù)據(jù),在“大”行其道的當(dāng)前,期望給大家回顧一個(gè)從“小”出發(fā)的視角,以期能更好地服務(wù)于數(shù)據(jù)生產(chǎn)價(jià)值。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容