大數(shù)據(jù)大綱&大數(shù)據(jù)生態(tài)圈所涉及的技術(shù)

大數(shù)據(jù)特征:

1)大量化(Volume):存儲量大,增量大 TB->PB

2)多樣化(Variety):

來源多:搜索引擎,社交網(wǎng)絡(luò),通話記錄,傳感器

格式多:(非)結(jié)構(gòu)化數(shù)據(jù),文本、日志、視頻、圖片、地理位置等

3)快速化(Velocity):海量數(shù)據(jù)的處理需求不再局限在離線計算當中

4)價值密度低(Value):但是這種價值需要在海量數(shù)據(jù)之上,通過數(shù)據(jù)分析與機器學習更快速的挖掘出來


大數(shù)據(jù)帶來的革命性變革:

1)成本降低

2)軟件容錯,硬件故障視為常態(tài)

3)簡化分布式并行計算


數(shù)據(jù)分析師的必備技能:

數(shù)據(jù)采集:所謂數(shù)據(jù)采集并不是我們理解的數(shù)據(jù)爬蟲,尤其是我們在工作中遇到的數(shù)據(jù)很多都是來自系統(tǒng)內(nèi)的數(shù)據(jù),來自數(shù)據(jù)庫的數(shù)據(jù)來自日志的數(shù)據(jù)。但是這些數(shù)據(jù)維度是非常多并且復雜的,所以在分析前我們就需要把這些數(shù)據(jù)采集來。數(shù)據(jù)采集常用的手段有:SQL/Python,其中SQL是數(shù)據(jù)分析的必備技能,Python是加分項。


數(shù)據(jù)清洗:采集來的數(shù)據(jù)一般是不規(guī)整的,字段缺失或者有錯誤是常有的事情,如果我們不對這些數(shù)據(jù)進行清洗,分析出的結(jié)果就會出現(xiàn)各種異常。在數(shù)據(jù)清洗這一塊就需要用到一些簡單的統(tǒng)計學基礎(chǔ)。


數(shù)據(jù)分析:數(shù)據(jù)分析最重要的是行業(yè)知識和邏輯思維能力。行業(yè)知識往往是通過在行業(yè)中的工作經(jīng)歷來獲取的,當然作為學生也可以通過一些行業(yè)相關(guān)的數(shù)據(jù)報告和雜志來獲得。而邏輯思維能力,需要后天的不斷的鍛煉,常見的鍛煉方法是多看數(shù)據(jù)分析實戰(zhàn)相關(guān)的書籍,學習作者的思維方式;經(jīng)常和小伙伴一起做頭腦風暴;對于一些工作生活中有趣的經(jīng)驗主義的事情嘗試通過數(shù)據(jù)角度去解答。


數(shù)據(jù)可視化:讓結(jié)論更加的容易理解。目前國內(nèi)外的數(shù)據(jù)可視化的產(chǎn)品也非常多,常用的有:Echarts/Tableau/Excel/Python等



為了應對大數(shù)據(jù)的這幾個特點,開源的大數(shù)據(jù)框架越來越多,先列舉一些常見的:

文件存儲:Hadoop HDFS、Tachyon、KFS

離線計算:Hadoop MapReduce、Spark

流式、實時計算:Storm、Spark Streaming、S4、Heron、

K-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB

資源管理:YARN、Mesos

日志收集:Flume、Scribe、Logstash、Kibana

消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協(xié)調(diào)服務:Zookeeper

集群管理與監(jiān)控:Ambari、Ganglia、Nagios、Cloudera Manager

數(shù)據(jù)挖掘、機器學習:Mahout、Spark MLLib

數(shù)據(jù)同步:Sqoop

任務調(diào)度:Oozie

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容