一、大數(shù)據(jù)與機器學(xué)習(xí)的關(guān)系
大數(shù)據(jù)技術(shù)是機器學(xué)習(xí)、深度學(xué)習(xí)和人工智能的基礎(chǔ),現(xiàn)有的機器學(xué)習(xí)和人工智能的發(fā)展都離不開大數(shù)據(jù)。

二、大數(shù)據(jù)生態(tài)圈
目前大數(shù)據(jù)主要有兩大生態(tài)圈:
》Hadoop生態(tài)圈
》Spark生態(tài)圈
三、大數(shù)據(jù)故事
點球(分析對手的特點)
電商(分析消費習(xí)慣、廣告精準(zhǔn)投放、商品個性化推薦等)
四、大數(shù)據(jù)產(chǎn)生的背景
由于信息時代的到來,每天都產(chǎn)生了大量的數(shù)據(jù),想要靠人工去分析和挖掘這些數(shù)據(jù)中存在的有價值的信息變得不現(xiàn)實了,因此,產(chǎn)生了大數(shù)據(jù)技術(shù)。
四、大數(shù)據(jù)的4V特征
數(shù)據(jù)體量巨大(Volume) :截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。
數(shù)據(jù)類型繁多(Variety): 這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。
價值密度低(Value): 價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
處理速度快(Velocity): 這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預(yù)計到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。


五、大數(shù)據(jù)涉及到的技術(shù)
(1)數(shù)據(jù)采集 (2)數(shù)據(jù)存儲
(3)數(shù)據(jù)處理/分析/挖掘 (4)可視化
六、大數(shù)據(jù)在技術(shù)架構(gòu)上帶來的挑戰(zhàn)
1. 對現(xiàn)有數(shù)據(jù)庫管理技術(shù)的挑戰(zhàn)
2. 經(jīng)典數(shù)據(jù)庫沒有考慮數(shù)據(jù)的多類型
3. 實時性技術(shù)挑戰(zhàn)
4. 網(wǎng)絡(luò)架構(gòu)、數(shù)據(jù)中心、運維的挑戰(zhàn)
其他挑戰(zhàn)
1.數(shù)據(jù)隱私
2.數(shù)據(jù)源復(fù)雜多樣
八、如何學(xué)好大數(shù)據(jù)
- 官網(wǎng)、官網(wǎng)、官網(wǎng)
- 英文、英文、英文
- 項目實踐,對知識點進(jìn)行鞏固和融會貫通
- 社區(qū)活動:Meetup、開源社區(qū)大會、線下沙龍等
- 切記:多動手、多練習(xí),貴在堅持