大數(shù)據(jù)與模式識(shí)別
? ? ? 2014年,最熱鬧的概念莫過(guò)于大數(shù)據(jù),大數(shù)據(jù)似乎成為科技和商業(yè)發(fā)展的未來(lái)。但我個(gè)人認(rèn)為,大數(shù)據(jù)無(wú)論從技術(shù)還是應(yīng)用都不能承載時(shí)代給予的重任,而模式識(shí)別才是。業(yè)界給予大數(shù)據(jù)如此之高的期望,是人們從數(shù)據(jù)匱乏時(shí)代走向數(shù)據(jù)富足時(shí)代。人們過(guò)去的決策往往是基于數(shù)據(jù)和信息不充分的背景下,人們期望在信息完整的背景下做出決策,這是大數(shù)據(jù)的根本所在,也是優(yōu)勢(shì)所在。但這同時(shí)是大數(shù)據(jù)的軟肋所在,優(yōu)勢(shì)同時(shí)也是劣勢(shì)。有人說(shuō),大數(shù)據(jù)分析就是模式識(shí)別,這個(gè)觀點(diǎn)有問(wèn)題。大數(shù)據(jù)分析需要模式識(shí)別支撐,但是,模式識(shí)別的內(nèi)涵要大于大數(shù)據(jù)分析,模式識(shí)別是獨(dú)立于大數(shù)據(jù)分析的。
? ? ? ?大數(shù)據(jù)的采集和量級(jí)已經(jīng)不是問(wèn)題,最核心的問(wèn)題是數(shù)據(jù)之間的關(guān)系。那些是有效數(shù)據(jù),那些是無(wú)效數(shù)據(jù),數(shù)據(jù)之間是如何作用的,這是大數(shù)據(jù)的根本所在。啤酒和尿布的故事是大數(shù)據(jù)的經(jīng)典案例,通過(guò)大數(shù)據(jù)發(fā)現(xiàn)了數(shù)據(jù)之間的關(guān)系。但這個(gè)關(guān)系是通過(guò)用戶信息鉤稽在一起的,它的是一群年輕爸爸的購(gòu)買(mǎi)數(shù)據(jù)的子集,有了年輕爸爸這個(gè)父集才能將啤酒和尿布這個(gè)子集關(guān)聯(lián)起來(lái)。但由于地球越來(lái)越平,各種疆界被不斷的打破,世界的聯(lián)接關(guān)系越來(lái)越復(fù)雜,越來(lái)越碎片化,我們不知道哪只蝴蝶翅膀的煽動(dòng)引起哪場(chǎng)風(fēng)暴。我們導(dǎo)入的數(shù)據(jù)越來(lái)越龐大,計(jì)算越來(lái)越復(fù)雜,而數(shù)據(jù)關(guān)系本身也處于變化之中,所以大數(shù)據(jù)給出的結(jié)論是滯后的,或者說(shuō)是短命的。從哲學(xué)層面來(lái)說(shuō),大數(shù)據(jù)是形而下的,是機(jī)械技術(shù),而不是生命智慧技術(shù)。
大數(shù)據(jù)自古有之,天文、歷法等都是大數(shù)據(jù)的成果。大數(shù)據(jù)的作用取決于數(shù)據(jù)的時(shí)效性和數(shù)據(jù)關(guān)系穩(wěn)定性兩者之積,在農(nóng)業(yè)社會(huì)、工業(yè)社會(huì),數(shù)據(jù)時(shí)效性和穩(wěn)定性都相對(duì)穩(wěn)定,所以大數(shù)據(jù)適用。但是,到了信息時(shí)代,這兩類特性大大降低,人類行為對(duì)空間和時(shí)間的依賴度大大降低,而通過(guò)技術(shù)我們超越時(shí)間和空間。去年微薄還如日中天,今年就近黃昏了,用戶呼啦一聲跑到微信上去了,你按照去年網(wǎng)絡(luò)大數(shù)據(jù)投放微薄的推廣肯定血本無(wú)歸。你通過(guò)大數(shù)據(jù)獲得的模型,很快就失效了,要求你要不斷的追蹤數(shù)據(jù)的變化和遷移,構(gòu)建動(dòng)態(tài)模型,而這個(gè)層面是模式識(shí)別的事。對(duì)于決策來(lái)說(shuō),如果信息完整,關(guān)系確定,誰(shuí)都能夠做出準(zhǔn)確的決策,也就是所謂的隔離效應(yīng)。人類的智慧和機(jī)會(huì)在于,在信息短缺的背景下做出判斷,這種決策方式在技術(shù)語(yǔ)音上叫模式識(shí)別。大數(shù)據(jù)和模式識(shí)別是線與面的關(guān)系,數(shù)據(jù)是點(diǎn),大數(shù)據(jù)發(fā)現(xiàn)點(diǎn)與點(diǎn)之間的關(guān)系把它聯(lián)成線,模式識(shí)別是將這些線連成各種各樣的面。模式識(shí)別是整體識(shí)別模式,是將環(huán)境整體納入識(shí)別體系中。我們辨別不同人的方式就是模式識(shí)別,我們可能根本不清楚某人眼睛、鼻子的大小和形狀,但是我們卻能辨別這個(gè)人是不是他。因?yàn)槲覀兪菍?duì)整個(gè)人進(jìn)行記憶的,他的長(zhǎng)相、包括他的聲音、眼神、表情等,通過(guò)對(duì)人整體信息的識(shí)別,進(jìn)一步辨識(shí)是他而不是他的雙胞胎哥哥。
? ? ? ? 信息不完備環(huán)境下的模式識(shí)別是智慧的內(nèi)核所在,大數(shù)據(jù)將信息進(jìn)行聯(lián)接,描繪出可能的連接,而模式識(shí)別的任務(wù)是從復(fù)雜的聯(lián)系中找到有用的路徑,并以此構(gòu)建因果環(huán)境,建立認(rèn)知模型及演進(jìn)模型。人類的知識(shí)體系可以說(shuō)是通過(guò)大數(shù)據(jù)加模式識(shí)別方式建立的。而科學(xué)則是將模式識(shí)別更加形而上,將模型通過(guò)“數(shù)”來(lái)描述,是更高層次的模式識(shí)別。從本質(zhì)上,中國(guó)最神秘的周易是將不可言“道”納入到“數(shù)”這個(gè)可感知的范疇內(nèi),和西方科學(xué)體系是一致的,只是表現(xiàn)方式和路徑不同而已。中醫(yī)和西醫(yī)的差別也是如此,中醫(yī)體系納入考量的范疇更大,量化方式更加抽象,比西醫(yī)更加高級(jí)。當(dāng)前社會(huì)節(jié)奏飛快,人們?cè)谧鰶Q策時(shí)往往是處在信息不完備的狀態(tài)下,快速?zèng)Q策依靠的是當(dāng)前信息和過(guò)去所有經(jīng)驗(yàn)所形成的決策模型。在《影響力》一書(shū)中,作者表述了一個(gè)觀點(diǎn),人們?cè)谧鰶Q策時(shí)往往不是依賴信息,而是依賴經(jīng)驗(yàn),也就是說(shuō)人們使用信息時(shí)大多采用的模式識(shí)別。例如一些募捐者使用互惠原理進(jìn)行募捐。
從技術(shù)層面講,大數(shù)據(jù)最難的部分是辨識(shí)信息。除了機(jī)器語(yǔ)言外,人類創(chuàng)造的信息都包含多維度信息,或者說(shuō)人類表達(dá)一個(gè)完整的意思都包括多維度的信息。大數(shù)據(jù)如何辨識(shí)這些信息需要通過(guò)模式識(shí)別,并將其納入不同的格式化數(shù)據(jù)范疇。其次是構(gòu)建不同數(shù)據(jù)之間的關(guān)系,這個(gè)關(guān)系一種是通過(guò)計(jì)算連接的,一種是主觀連接的。
? ? ? ? 所以,大數(shù)據(jù)是果,而模式識(shí)別是因。大數(shù)據(jù)解決的是所以然,而模式識(shí)別解決的是之所以然。之所以要掰扯這兩個(gè)概念是因?yàn)楹芏喙静](méi)有意識(shí)到這個(gè)問(wèn)題,把兩種混為一談,或者把模式識(shí)別囊括到大數(shù)據(jù)中,這是錯(cuò)誤的。只是收集數(shù)據(jù)的公司是沒(méi)有什么未來(lái)的,因?yàn)槟悴荒苷加袛?shù)據(jù),而在模式識(shí)別上積累才能有未來(lái)。
? ? ? ?對(duì)于模式識(shí)別,重要是思維,是目的,數(shù)據(jù)是支撐。我們的通話記錄數(shù)據(jù)代表什么?計(jì)算機(jī)能夠告訴我們什么?電信運(yùn)營(yíng)商已經(jīng)把這些數(shù)據(jù)分析的透透的,并根據(jù)這些誒數(shù)據(jù)設(shè)計(jì)了N多的手機(jī)套餐。但是,放到行為分析專家的手中,他可以分析出不同人群的社交特點(diǎn)。而放到社會(huì)管理部門(mén)手中,他們看到的區(qū)域動(dòng)態(tài)人群流動(dòng)和分布。
: