大數(shù)據(jù)領(lǐng)域三個大的技術(shù)方向:
1、Hadoop大數(shù)據(jù)開發(fā)方向
2、數(shù)據(jù)挖掘、數(shù)據(jù)分析&機器學(xué)習(xí)方向
3、大數(shù)據(jù)運維&云計算方向
大數(shù)據(jù)學(xué)習(xí)什么

Python:Python 的排名從去年開始就借助人工智能持續(xù)上升,現(xiàn)在它已經(jīng)成為了語言排行第一名。
語法簡捷而清晰,對底層做了很好的封裝,是一種很容易上手的高級語言。
大數(shù)據(jù)和數(shù)據(jù)科學(xué)領(lǐng)域,任何集群架構(gòu)軟件都支持Python,Python也有很豐富的數(shù)據(jù)科學(xué)庫,所以Python不得不學(xué)。
Linux:更好的理解hadoop、hive、hbase、spark等大數(shù)據(jù)軟件的運行環(huán)境和網(wǎng)絡(luò)環(huán)境配置,學(xué)會shell就能看懂腳本這樣能更容易理解和配置大數(shù)據(jù)集群。
Hadoop:Hadoop里面包括幾個組件HDFS、MapReduce和YARN,HDFS是存儲數(shù)據(jù)的地方就像我們電腦的硬盤一樣文件都存儲在這個上面,MapReduce是對數(shù)據(jù)進行處理計算的,YARN是體現(xiàn)Hadoop平臺概念的重要組件有了它大數(shù)據(jù)生態(tài)體系的其它軟件就能在hadoop上運行了,這樣就能更好的利用HDFS大存儲的優(yōu)勢和節(jié)省更多的資源比如我們就不用再單獨建一個spark的集群了,讓它直接跑在現(xiàn)有的hadoop yarn上面就可以了。
Zookeeper:ZooKeeper是一種為分布式應(yīng)用所設(shè)計的高可用、高性能且一致的開源協(xié)調(diào)服務(wù),它提供了一項基本服務(wù):分布式鎖服務(wù)。由于ZooKeeper的開源特性,后來我們的開發(fā)者在分布式鎖的基礎(chǔ)上,摸索了出了其他的使用方法:配置維護、組服務(wù)、分布式消息隊列、分布式通知/協(xié)調(diào)等。
Sqoop:這個是用于把Mysql里的數(shù)據(jù)導(dǎo)入到Hadoop里的。當然你也可以不用這個,直接把Mysql數(shù)據(jù)表導(dǎo)出成文件再放到HDFS上也是一樣的,當然生產(chǎn)環(huán)境中使用要注意Mysql的壓力。
Hive:對于會SQL語法的來說就是神器,它能讓你處理大數(shù)據(jù)變的很簡單,不會再費勁的編寫MapReduce程序。
Hbase:這是Hadoop生態(tài)體系中的NOSQL數(shù)據(jù)庫,他的數(shù)據(jù)是按照key和value的形式存儲的并且key是唯一的,所以它能用來做數(shù)據(jù)的排重,它與MYSQL相比能存儲的數(shù)據(jù)量大很多。所以他常被用于大數(shù)據(jù)處理完成之后的存儲目的地。
Kafka:Kafka的整體架構(gòu)非常簡單,是顯式分布式架構(gòu),producer、broker(kafka)和consumer都可以有多個。Producer,consumer實現(xiàn)Kafka注冊的接口,數(shù)據(jù)從producer發(fā)送到broker,broker承擔一個中間緩存和分發(fā)的作用。broker分發(fā)注冊到系統(tǒng)中的consumer。broker的作用類似于緩存,即活躍的數(shù)據(jù)和離線處理系統(tǒng)之間的緩存??蛻舳撕头?wù)器端的通信,是基于簡單,高性能,且與編程語言無關(guān)的TCP協(xié)議。幾個基本概念。
Spark:它是用來彌補基于MapReduce處理數(shù)據(jù)速度上的缺點,它的特點是把數(shù)據(jù)裝載到內(nèi)存中計算而不是去讀慢的要死進化還特別慢的硬盤。特別適合做迭代運算,所以算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。
機器學(xué)習(xí)(Machine Learning, ML):是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。它是人工智能的核心,是使計算機具有智能的根本途徑,其應(yīng)用遍及人工智能的各個領(lǐng)域,它主要使用歸納、綜合而不是演繹。機器學(xué)習(xí)的算法基本比較固定了,學(xué)習(xí)起來相對容易。
深度學(xué)習(xí)(Deep Learning, DL):深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,最近幾年發(fā)展迅猛。深度學(xué)習(xí)應(yīng)用的實例有AlphaGo、人臉識別、圖像檢測等。是國內(nèi)外稀缺人才,但是深度學(xué)習(xí)相對比較難,算法更新也比較快,需要跟隨有經(jīng)驗的老師學(xué)習(xí)。

在這里我還是要推薦下我自己建的大數(shù)據(jù)學(xué)習(xí)交流qq裙:788483959 (大數(shù)據(jù)資料分享), 裙 里都是學(xué)大數(shù)據(jù)開發(fā)的,如果你正在學(xué)習(xí)大數(shù)據(jù) ,小編歡迎你加入,大家都是軟件開發(fā)黨,不定期分享干貨(只有大數(shù)據(jù)開發(fā)相關(guān)的),包括我自己整理的一份最新的大數(shù)據(jù)進階資料和高級開發(fā)教程,歡迎進階中和進想深入大數(shù)據(jù)的小伙伴。大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析與挖掘線上教學(xué),免費試聽!