說到數(shù)據(jù),要分析清楚幾個概念。
統(tǒng)計是一門應用學科,通過利用高等數(shù)學和概率論等數(shù)學背景來建立理論模型,將相關數(shù)據(jù)整理和填補,利用各種統(tǒng)計檢驗方法對其進行量化分析,以求達到總結和預測的最終作用。統(tǒng)計學和數(shù)據(jù)挖掘的關系并非是包容的,一般人認為數(shù)據(jù)挖掘是統(tǒng)計學的分支,其實二者是有一定的交集。對于現(xiàn)在大數(shù)據(jù)背景下,人們更多強調(diào)數(shù)據(jù)的海量,卻往往忽略統(tǒng)計基礎的實現(xiàn)。統(tǒng)計與數(shù)據(jù)挖掘的區(qū)別如下:
1、統(tǒng)計學是以數(shù)學為基礎理論體系的,而數(shù)據(jù)挖掘偏向于計算機領域;
2、統(tǒng)計學接觸的是樣本數(shù)據(jù),即在樣本基礎上估計總體,而數(shù)據(jù)挖掘本身在總體范圍里面估計。
3、統(tǒng)計學更加注重運用數(shù)學上已經(jīng)明確的模型來研究數(shù)據(jù),而數(shù)據(jù)挖掘注重機器學習和計算機科學這樣的經(jīng)驗,即不管模型是否有得解釋。
4、統(tǒng)計學的本質(zhì)是利用預期模型得出結果,而數(shù)據(jù)挖掘的本質(zhì)是發(fā)現(xiàn)非預期但是有價值的信息,確定性是不一致的。
需要具體了解二者關系的同學請戳:http://www.36dsj.com/archives/5114