徐子沛《大數(shù)據(jù)》
破繭:數(shù)據(jù)挖掘之只能生命的產(chǎn)生
每天早上一醒來,我就要問自己:怎樣才能讓數(shù)據(jù)流動(dòng)得更好、管理得更好、分析得更好?
——羅林·福特,沃爾瑪首席信息官
數(shù)據(jù)挖掘是通過特定的計(jì)算機(jī)算法對(duì)大量的數(shù)據(jù)進(jìn)行自動(dòng)分析,從而揭示數(shù)據(jù)之間隱藏的關(guān)系、模式和趨勢,為決策者提供新的知識(shí)。之所以稱之為“挖掘”,是比喻在海量數(shù)據(jù)中尋找知識(shí),就像開礦掘金一樣困難。
一開始,數(shù)據(jù)挖掘曾一度被稱為“基于數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)”。隨著數(shù)據(jù)倉庫的產(chǎn)生,“數(shù)據(jù)挖掘”的叫法開始被廣泛接受。也正是因?yàn)橛辛藬?shù)據(jù)倉庫的依托,數(shù)據(jù)挖掘如虎添翼,如“巧婦”走進(jìn)了“米倉”,在實(shí)業(yè)界不斷創(chuàng)造點(diǎn)“數(shù)”成金的故事。其中,最為經(jīng)典的例子當(dāng)屬啤酒喝尿布。
這是發(fā)生在沃爾瑪?shù)墓适隆Q芯咳藛T發(fā)現(xiàn):跟尿布一起搭配購買最多的商品竟然是啤酒。
原因:一些年輕的爸爸經(jīng)常要到超市去購買嬰兒尿布,有30%到40%的新爸爸會(huì)順便買點(diǎn)啤酒犒勞自己。
數(shù)據(jù)挖掘的兩個(gè)側(cè)重點(diǎn)

數(shù)據(jù)挖掘的兩個(gè)側(cè)重點(diǎn).png
如何把散布在網(wǎng)絡(luò)上的這些資源整合起來,并從中自動(dòng)挖掘有價(jià)值的信息和知識(shí),正是當(dāng)前數(shù)據(jù)挖掘面臨的最大挑戰(zhàn)之一。