數(shù)據(jù)分析師是不易被人工智能取代的新興職業(yè),相比算法工程師、人工智能工程師而言比較好入門(mén)。學(xué)好數(shù)據(jù)分析,也可為進(jìn)一步的數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)打下一定的基礎(chǔ)。
最近我知乎了各種如何學(xué)習(xí)數(shù)據(jù)分析之類(lèi)的話題,get到了許多打開(kāi)數(shù)據(jù)分析的正確姿勢(shì),現(xiàn)在就好好歸納總結(jié)一哈。
一:編程能力
是否會(huì)編程是區(qū)別初級(jí)數(shù)據(jù)分析師和高級(jí)數(shù)據(jù)分析師的分水嶺。在這里,我定位的是高級(jí)數(shù)據(jù)分析師,所以編程能力尤為重要,我把它放在了第一位。
有關(guān)數(shù)據(jù)分析的編程語(yǔ)言有Python和R語(yǔ)言。R語(yǔ)言傾向于統(tǒng)計(jì)分析、繪圖等。統(tǒng)計(jì)學(xué)家或者學(xué)統(tǒng)計(jì)學(xué)的喜歡用R語(yǔ)言,而我推薦學(xué)習(xí)Python,因?yàn)镻ython是面向未來(lái)的語(yǔ)言,無(wú)論從流行度、可用性還是學(xué)習(xí)難度來(lái)講,Python都是最好的入門(mén)語(yǔ)言。
當(dāng)然,如果可以的話,再掌握一下R語(yǔ)言是最好不過(guò)的,學(xué)習(xí)嘛,永無(wú)止盡。
零基礎(chǔ)學(xué)習(xí)Python可以看看:
廖雪峰老師的Python(入門(mén))教程:http://www.imooc.com/learn/177
廖雪峰老師的Python(進(jìn)階)教程:http://www.imooc.com/learn/317
或者菜鳥(niǎo)教程上的Python教程:http://www.runoob.com/python/python-tutorial.html
或者W3Cschool上的Python教程:https://www.w3cschool.cn/python/
購(gòu)買(mǎi)書(shū)籍的話,推薦《Python編程:從入門(mén)到實(shí)踐》 豆瓣評(píng)分:9.0
當(dāng)然,只有Python基礎(chǔ)肯定是不夠的,既然是學(xué)習(xí)數(shù)據(jù)分析,肯定就要有數(shù)據(jù)才行,數(shù)據(jù)從哪里來(lái),肯定是從互聯(lián)網(wǎng)上來(lái)?;ヂ?lián)網(wǎng)上的信息何其之多,必須要對(duì)其加以過(guò)濾處理,提取我們想要的信息。這就要用到Python爬蟲(chóng),這也是學(xué)Python一個(gè)很重要的目的和作用。
學(xué)習(xí)Python爬蟲(chóng)肯定比學(xué)習(xí)Python基礎(chǔ)要困難一下,但好在網(wǎng)上的學(xué)習(xí)資源十分豐富,努力學(xué)習(xí)必定會(huì)有收獲的。
關(guān)于Python爬蟲(chóng)的學(xué)習(xí)資源網(wǎng)上有很多,這里我推薦:
爬蟲(chóng)大神崔慶才的個(gè)人博客:http://cuiqingcai.com/,博客里面滿滿的Python爬蟲(chóng)教程,相當(dāng)?shù)膮柡Α?/p>
知乎大V:路人甲 ,他的專(zhuān)欄《學(xué)習(xí)編程》,關(guān)注人數(shù)達(dá)114k,里面有很多學(xué)習(xí)Python的資源和總結(jié),相當(dāng)?shù)慕o力。
關(guān)于Python爬蟲(chóng)的書(shū)籍,目前我還沒(méi)有較好的書(shū)籍推薦,如果說(shuō)實(shí)在要推薦的話,我推薦三本書(shū):
《Python網(wǎng)絡(luò)數(shù)據(jù)采集》 豆瓣評(píng)分:7.7
《Python爬蟲(chóng)開(kāi)發(fā)與項(xiàng)目實(shí)戰(zhàn)》 豆瓣評(píng)分:8.1
《精通Scrapy網(wǎng)絡(luò)爬蟲(chóng)》 這是十月份出的新書(shū),豆瓣上還沒(méi)有評(píng)分。
知乎里面有很多爬蟲(chóng)大神,沒(méi)事多逛逛知乎總會(huì)有收獲的。
關(guān)于編程能力,是一個(gè)很深的概念,需要靠大量的擼代碼積累經(jīng)驗(yàn)。先暫且說(shuō)到這些。
二:SQL
學(xué)習(xí)數(shù)據(jù)分析,最難最重要的就是編程能力,熬過(guò)去了,后面的就稍微簡(jiǎn)單一些了。
既然是跟數(shù)據(jù)打交道,就免不了要使用數(shù)據(jù)庫(kù)。
目前主要有四種數(shù)據(jù)庫(kù):
1:SQLite 是一個(gè)文件型輕量級(jí)數(shù)據(jù)庫(kù),它的處理速度很快,在數(shù)據(jù)量不是很大的情況下,可以使用SQLite。
2:MySQL 是一個(gè)應(yīng)用極其廣泛的關(guān)系型數(shù)據(jù)庫(kù),它是開(kāi)源免費(fèi)的,可以支持大型數(shù)據(jù)庫(kù),很多中小型企業(yè)都是用的MySQL。
3:MongoDB 是一個(gè)面向文檔的非關(guān)系型數(shù)據(jù)庫(kù),它功能強(qiáng)大、靈活、易于拓展。
4:Redis 是一個(gè)使用ANSI C 編寫(xiě)的高性能key-value數(shù)據(jù)庫(kù),使用內(nèi)存作為主存儲(chǔ)器。
它們各有優(yōu)點(diǎn),可以靈活使用,如果說(shuō)非要選一個(gè)的話,我建議使用MySQL,因?yàn)樗褂米顝V泛。學(xué)習(xí)最主流的技術(shù),可以在一定程度上發(fā)揮更大的作用。
關(guān)于SQL的學(xué)習(xí)資源:
推薦W3Cschool的SQL教程:https://www.w3cschool.cn/sql/
W3Cschool的MySQL教程:https://www.w3cschool.cn/mysql/
購(gòu)買(mǎi)書(shū)籍推薦《SQL基礎(chǔ)教程》作者:MICK
豆瓣評(píng)分:9.0,好像這本書(shū)出了第二版了,建議購(gòu)買(mǎi)最新版的。
三:數(shù)據(jù)分析能力
前面說(shuō)了那么多,都是為了數(shù)據(jù)分析做準(zhǔn)備。數(shù)據(jù)分析就好比親手做一頓美食,現(xiàn)在食材有了(通過(guò)Python爬蟲(chóng)采集),盛放美食的容器也有了(數(shù)據(jù)庫(kù))?,F(xiàn)在就差開(kāi)火做飯了,寫(xiě)到這感覺(jué)肚子餓了,哎呀,忍住。
對(duì)于數(shù)據(jù)分析,我還沒(méi)有過(guò)多的涉足,總之,多看書(shū),多做項(xiàng)目。
這里我推薦幾本書(shū)(都是放在我購(gòu)物車(chē)?yán)镞€沒(méi)有買(mǎi)的書(shū))
學(xué)習(xí)數(shù)據(jù)分析必看的書(shū)單:
《Python數(shù)據(jù)分析基礎(chǔ)》八月份的新書(shū),豆瓣上還沒(méi)有評(píng)分。
《利用Python進(jìn)行數(shù)據(jù)分析》2013年的老書(shū),豆瓣評(píng)分:8.5
《Python數(shù)據(jù)處理》六月份的新書(shū),豆瓣上沒(méi)有評(píng)分。
《用數(shù)據(jù)講故事》 豆瓣評(píng)分:8.7
雖然我還沒(méi)來(lái)得及看這幾本書(shū),但是我想認(rèn)真看了之后,對(duì)于數(shù)據(jù)分析的理解肯定會(huì)更加深刻的。
四:數(shù)據(jù)可視化
現(xiàn)在美食做好了,但不能一股腦的裝在碗里吧,美食講究色香味俱全。所以要給它作一個(gè)漂亮的造型,呈現(xiàn)在客人面前。這就是數(shù)據(jù)可視化。
數(shù)據(jù)可視化需要借助工具,什么工具呢?那就是大名鼎鼎的tableau!
什么?你沒(méi)有聽(tīng)說(shuō)過(guò)tableau?現(xiàn)在聽(tīng)我說(shuō)了也不遲,哈哈。
tableau是一款世界級(jí)的商業(yè)智能工具軟件,tableau可以幫助我們快速的分析、可視化并分享信息。在福布斯2017年公布的《10大需求增長(zhǎng)最快的職場(chǎng)技能》報(bào)告中,tableau高居第三,成為數(shù)據(jù)分析和可視化的職場(chǎng)必殺技。
說(shuō)了這么多,咱們還是好好聊聊怎么學(xué)習(xí)tableau吧。tableau是一款收費(fèi)軟件,先看一下它的價(jià)格吧:
果然優(yōu)秀的軟件都是收費(fèi)的,而且還貴的要死。
但是,tableau的良心之處在于:學(xué)生和教師可以免費(fèi)使用tableau,只需要用我們的學(xué)生證信息去免費(fèi)申請(qǐng)一個(gè)序列碼,然后就可以下載激活該軟件,有效期為1年,如果一年后還是學(xué)生的話,還可以用學(xué)生證再去申請(qǐng)一個(gè)序列號(hào),然后再免費(fèi)用一年。
tableau的下載地址:https://www.tableau.com/zh-cn/products/desktop/download
也可以自行百度,在其官網(wǎng)上利用學(xué)生證獲取序列碼。
如何學(xué)習(xí)使用tableau呢?這里我推薦兩種方式:
1 觀看其官網(wǎng)上的入門(mén)教學(xué)視頻
共計(jì)80個(gè)學(xué)習(xí)視頻。
2 購(gòu)買(mǎi)書(shū)籍來(lái)學(xué)習(xí):
推薦書(shū)籍《人人都是數(shù)據(jù)分析師:tableau應(yīng)用實(shí)戰(zhàn)》 豆瓣評(píng)分:7.3
努力通過(guò)以上學(xué)習(xí),成為一名優(yōu)秀的數(shù)據(jù)分析師就指日可待了。上面談到的四點(diǎn)傾向于商業(yè)數(shù)據(jù)分析,對(duì)于數(shù)據(jù)挖掘方向,需要掌握更多的數(shù)學(xué)和統(tǒng)計(jì)知識(shí)。
學(xué)習(xí)之路漫漫,切記不可懈??!
五:GitHub技能
GitHub可以說(shuō)是每個(gè)程序員必須掌握的技能,在面試找工作的時(shí)候,有GitHub項(xiàng)目,或者為某GitHub開(kāi)源項(xiàng)目貢獻(xiàn)過(guò)源碼都是面試的加分項(xiàng)。之所以把GitHub放在最后講,是因?yàn)檫@不關(guān)乎數(shù)據(jù)分析的基礎(chǔ)學(xué)習(xí),而是每個(gè)從事IT行業(yè)的程序員的必備技能。
GitHub的學(xué)習(xí)可以看廖雪峰老師的GitHub教程:https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000,
講的特別精煉。易于上手。
說(shuō)了這么多,如果對(duì)你有一點(diǎn)的觸動(dòng)或者啟發(fā),那我寫(xiě)的這些就是很有意義了。
對(duì)于編程方面的書(shū)籍,我建議購(gòu)買(mǎi)圖靈叢書(shū)系列的,質(zhì)量很高。對(duì)于各大出版社,個(gè)人認(rèn)為:人民郵電出版社>清華大學(xué)出版社>機(jī)械工業(yè)出版社。買(mǎi)得一本好書(shū),會(huì)讓自己的學(xué)習(xí)更加順暢,所以要仔細(xì)甄別。
當(dāng)然:紙上得來(lái)終覺(jué)淺,絕知此事要躬行。一定要多練,多擼代碼,不懂就看文檔,問(wèn)度娘。
共勉!
每天學(xué)習(xí)一點(diǎn)點(diǎn),每天進(jìn)步一點(diǎn)點(diǎn)。