可以認為大數據、數據挖掘和機器學習是三個平行的概念。大數據側重描述數據,數據挖掘側重描述應用,機器學習側重描述方法。當然,數據是基礎,是挖掘和學習的“燃料”(Ng說深度學習像火箭,計算是引擎,數據是燃料)。
大數據的內涵,是從數據量、數據類型和數據增長速度的角度描述數據。由于這些特點,數據的存儲、傳輸、計算、處理、分析等,都是傳統(tǒng)方式難以應對的,相關的技術就要升級,新的技術棧通?;诜植际郊軜嫿鉀Q,而分布式架構又帶來一致性、資源調度、性能優(yōu)化等多種問題,由此批處理、流計算、圖計算、即席查詢等方向都有發(fā)展。
數據挖掘是指從大量數據中挖掘出有價值的潛藏規(guī)律和知識。數據挖掘渴望完整而真實的原始數據,去噪和樣本平衡很重要。實施過程涉及機器學習、模式識別、統(tǒng)計學、分布式存儲、分布式計算、可視化等,還需要掌握領域專業(yè)知識。
機器學習是從數據中獲取經驗進而改善系統(tǒng)性能的一類重要方法,“學習”的意義就是求解最逼近真相的經驗,理論基礎主要是統(tǒng)計學。數據挖掘經常需要采用機器學習方法,但目前機器學習主要是想實現某種程度的人工智能。
編輯于 2017-09-08
轉自知乎
數據挖掘、機器學習、深度學習這些概念有區(qū)別嗎?
添加一個了解的角度:數據挖掘概念火爆的時候,數據倉庫正當家。機器學習是隨著大數據概念為人熟知的。深度學習是神經網絡算法的新近發(fā)展,是隨著機器學習概念被廣知的。 數據挖掘作為一眾數據分析技術的統(tǒng)稱,出現較早。彼時有余數據庫處理能力局限等原因,強調從抽樣數據出發(fā)分析數據全集。 機器學習嚴格來說與數據挖掘不是對等概念,仍屬于數據挖掘范疇。只不過更多地基于大數據理念出發(fā),直接在數據全集中進行分析,故而有“…