七周入門數(shù)據(jù)分析師

作者:秦路

鏈接:https://www.zhihu.com/question/29265587/answer/125091104

來源:知乎


第一周:Excel學(xué)習掌握

如果Excel玩的順溜,你可以略過這一周。不過介于我入行時也不會vlookup,所以有必要講下。

重點是了解各種函數(shù),包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉(zhuǎn)換等。

Excel函數(shù)不需要學(xué)全,重要的是學(xué)會搜索。即如何將遇到的問題在搜索引擎上描述清楚。

我認為掌握vlookup和數(shù)據(jù)透視表足夠,是最具性價比的兩個技巧。

學(xué)會vlookup,SQL中的join,Python中的merge很容易理解。

學(xué)會數(shù)據(jù)透視表,SQL中的group,Python中的pivot_table也是同理。

這兩個搞定,基本10萬條以內(nèi)的數(shù)據(jù)統(tǒng)計沒啥難度,80%的辦公室白領(lǐng)都能秒殺。

Excel是熟能生巧,多找練習題。還有需要養(yǎng)成好習慣,不要合并單元格,不要過于花哨。表格按照原始數(shù)據(jù)(sheet1)、加工數(shù)據(jù)(sheet2),圖表(sheet3)的類型管理。

專欄上寫了三篇Excel的文章,比較簡單,大體介紹了Excel應(yīng)用,可以作為職場新人的指南。

第一篇數(shù)據(jù)分析—函數(shù)篇。主要簡單講解常用的函數(shù),以及與之對應(yīng)的SQL/Python函數(shù)。

第二篇數(shù)據(jù)分析—技巧篇。主要簡單講解我認為很有新價比的功能,提高工作效率。

第三篇數(shù)據(jù)分析—實戰(zhàn)篇。主要將前兩篇的內(nèi)容以實戰(zhàn)方式進行,簡單地進行了一次數(shù)據(jù)分析。數(shù)據(jù)源采用了真實的爬蟲數(shù)據(jù),是5000行數(shù)據(jù)分析師崗位數(shù)據(jù)。

下面是為了以后更好的基礎(chǔ)而附加的學(xué)習任務(wù)。

了解單元格格式,后期的數(shù)據(jù)類型包括各類timestamp,date,string,int,bigint,char,factor,float等。

了解數(shù)組,以及怎么用(excel的數(shù)組挺難用),Python和R也會涉及到 list。

了解函數(shù)和參數(shù),當進階為編程型的數(shù)據(jù)分析師時,會讓你更快的掌握。

了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以后你會回來感謝我的。

養(yǎng)成一個好習慣,不要合并單元格,不要過于花哨。表格按照原始數(shù)據(jù)、加工數(shù)據(jù),圖表的類型管理。

如果時間還有剩余,可以看大數(shù)據(jù)時代 (豆瓣),培養(yǎng)職業(yè)興趣。

再來一道練習題,我給你1000個身份證號碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。(身份證號碼規(guī)律可以網(wǎng)上搜索)

第二周:數(shù)據(jù)可視化

數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)可視化是數(shù)據(jù)分析的主要方向之一。除掉數(shù)據(jù)挖掘這類高級分析,不少數(shù)據(jù)分析就是監(jiān)控數(shù)據(jù)觀察數(shù)據(jù)。

數(shù)據(jù)分析的最終都是要兜售自己的觀點和結(jié)論的。兜售的最好方式就是做出觀點清晰數(shù)據(jù)詳實的PPT給老板看。如果沒人認同分析結(jié)果,那么分析也不會被改進和優(yōu)化,不落地的數(shù)據(jù)分析價值又在哪里?

首先要了解常用的圖表:

各類圖表的詳細介紹可以查看第四篇文章:數(shù)據(jù)可視化:你想知道的經(jīng)典圖表全在這

了解圖表后,還應(yīng)該學(xué)會報表制作,這里準備了第五篇:數(shù)據(jù)可視化:打造高端的數(shù)據(jù)報表。將教會大家Excel的高級圖表用法。

如果還不過癮,我們得掌握信息圖和BI,下圖就是微軟的Power BI:

BI(商業(yè)智能)和圖表的區(qū)別在于BI擅長交互和報表,更擅長解釋已經(jīng)發(fā)生和正在發(fā)生的數(shù)據(jù)。將要發(fā)生的數(shù)據(jù)是數(shù)據(jù)挖掘的方向。

BI的好處在于很大程度解放數(shù)據(jù)分析師的工作,推動全部門的數(shù)據(jù)意識,另外降低其他部門的數(shù)據(jù)需求(萬惡的導(dǎo)數(shù)據(jù))。

BI市面上的產(chǎn)品很多,基本都是建立儀表盤Dashboard,通過維度的聯(lián)動和鉆取,獲得可視化的分析。第六篇:數(shù)據(jù)可視化:深入淺出BI將以第一周的實戰(zhàn)數(shù)據(jù)學(xué)習BI,上圖的就是學(xué)習后的成果。

數(shù)據(jù)可視化的學(xué)習就是三個過程,了解數(shù)據(jù)(圖表),整合數(shù)據(jù)(BI),展示數(shù)據(jù)(信息化)。

可視化也和審美息息相關(guān),很多直男代表并不擅長做圖,沒關(guān)系,抽空可以看書:數(shù)據(jù)之美 (豆瓣)

PPT也別落下,Excel作圖多練習,不會有壞處的。

PPT - 熱門問答

Excel 圖表繪制 - 熱門問答

第三周:分析思維的訓(xùn)練

這周我們輕松一下,學(xué)學(xué)理論知識。

分析思維首推大名鼎鼎的金字塔原理 (豆瓣),幫助數(shù)據(jù)分析師結(jié)構(gòu)化思維。如果金字塔原理讓你醍醐灌頂,那么就可以學(xué)思維導(dǎo)圖,下載一個XMind中文網(wǎng)站,或者在線用百度腦圖(百度難得不被罵的產(chǎn)品)。

如果不想看金字塔原理,那么就看第七篇文章:如何培養(yǎng)麥肯錫式的分析思維。將書本的內(nèi)容提煉了大部分。

再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。你要快速成為數(shù)據(jù)分析師,思考方式也得跟著改變。網(wǎng)上搜咨詢公司的面試題,搜Case Book。題目用新學(xué)的思維導(dǎo)圖做,先套那些經(jīng)典框架,做一遍,然后去看答案對比。

等思維框架建立好,我們應(yīng)該往里面塞點數(shù)據(jù)分析的思維了,如何建立數(shù)據(jù)分析的思維框架。兩篇文章相結(jié)合,就能出師了。

這里送三條金句:

一個業(yè)務(wù)沒有指標,則不能增長和分析

好的指標應(yīng)該是比率或比例

好的分析應(yīng)該對比或關(guān)聯(lián)。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?

這1000人的數(shù)量,和附件其他超市比是多是少?(對比)

這1000人的數(shù)量比昨天多還是少?(對比)

1000人有多少產(chǎn)生了實際購買?(轉(zhuǎn)化比例)

路過超市,超市外的人流是多少?(轉(zhuǎn)化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結(jié)果。

優(yōu)秀的數(shù)據(jù)分析師會拷問別人的數(shù)據(jù),而他本身的分析也是經(jīng)得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數(shù)據(jù)思維,只能做到了解。數(shù)據(jù)思維是不斷練習的結(jié)果,我只是盡量縮短這個過程。

深入淺出數(shù)據(jù)分析 (豆瓣)

這本書太啰嗦了,我看到一半放棄了…但推薦人不少,可以快速翻看一下。

第四周:數(shù)據(jù)庫學(xué)習

Excel對十萬條以內(nèi)的數(shù)據(jù)處理起來沒有問題,但是互聯(lián)網(wǎng)行業(yè)就是不缺數(shù)據(jù)。但凡產(chǎn)品有一點規(guī)模,數(shù)據(jù)都是百萬起。這時候就需要學(xué)習數(shù)據(jù)庫。

數(shù)據(jù)庫入門看這篇文章:寫給新人的數(shù)據(jù)庫指南

越來越多的產(chǎn)品和運營崗位,會在招聘條件中,將會SQL作為優(yōu)先的加分項。

SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL絕對是數(shù)據(jù)處理效率的一大進步。

學(xué)習圍繞Select展開。增刪改、約束、索引、數(shù)據(jù)庫范式均可以跳過。SQL學(xué)習不需要買書,W3C學(xué)習就行了,SQL 教程。大多數(shù)互聯(lián)網(wǎng)公司都是MySQL,我也建議學(xué),性價比最高。

主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉(zhuǎn)換函數(shù)等。

如果想要跟進一步,可以學(xué)習row_number,substr,convert,contact等。另外不同數(shù)據(jù)平臺的函數(shù)會有差異,例如Presto和phpMyAdmin。

你看,和Excel的函數(shù)都差不多。按照SQL,從入門到熟練SQL,從熟練到掌握這兩篇的內(nèi)容學(xué)習。雖然沒有實戰(zhàn)的打磨,但是了解一個大概夠了。

期間你不需要考慮優(yōu)化和寫法丑陋,查詢幾秒和幾分鐘對數(shù)據(jù)分析師沒區(qū)別,跑數(shù)據(jù)時喝杯咖啡唄,以后你跑個SVM都能去吃飯了。

網(wǎng)上也能搜索SQL相關(guān)的練習題,刷一遍就行。也能自己下載數(shù)據(jù)庫管理工具,找些數(shù)據(jù)練習。我用的是Sequel Pro。

附加學(xué)習:

如果這周的學(xué)習充裕,可以了解MapReduce原理。

來一道練習題,表A是用戶的注冊時間表,表B是用戶所在地,寫出各地區(qū)每月新注冊用戶的查詢SQL。掌握到這個程度,基本夠用,雖然往后工作中會有更多變態(tài)數(shù)據(jù)需求。

第五周:統(tǒng)計知識學(xué)習

很遺憾,統(tǒng)計知識是我最薄弱的地方,也是數(shù)據(jù)分析的基礎(chǔ)之一。

統(tǒng)計知識會要求我們以另一個角度看待數(shù)據(jù)。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。

這一周努力掌握描述性統(tǒng)計,包括均值、中位數(shù)、標準差、方差、概率、假設(shè)檢驗、顯著性、總體和抽樣等概念。詳細的數(shù)學(xué)推導(dǎo)不用細看,誰讓我們是速成呢,只要看到數(shù)據(jù),知道不能怎么樣,而是應(yīng)該這樣分析即可。

Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變量多樣本,學(xué)會各種檢驗。

(圖片網(wǎng)上找來的)

統(tǒng)計數(shù)字會撒謊 (豆瓣)

休閑讀物,有趣的案例可以讓我們避免很多數(shù)據(jù)陷阱。

深入淺出統(tǒng)計學(xué) (豆瓣)

還是經(jīng)典的HeadFirst系列,適應(yīng)它一貫的啰嗦吧。

多說一句,老板和非分析師不會有興趣知道背后的統(tǒng)計學(xué)原理,通常要的是分析后的是與否,二元答案。不要告訴他們P值什么的,告訴他們活動有效果,或者沒效果。

第六周:業(yè)務(wù)學(xué)習(用戶行為、產(chǎn)品、運營)

這一周需要了解業(yè)務(wù)。對于數(shù)據(jù)分析師來說,業(yè)務(wù)的了解比數(shù)據(jù)方法論更重要。當然很遺憾,業(yè)務(wù)學(xué)習沒有捷徑。

我舉一個數(shù)據(jù)沙龍上的例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣員的送貨效率低于其他城市,導(dǎo)致用戶的好評率降低??偛康臄?shù)據(jù)分析師建立了各個指標去分析原因,都沒有找出來問題。后來在訪談中發(fā)覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導(dǎo)致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,數(shù)據(jù)上根本不可能知道垂直距離這個指標。這就是數(shù)據(jù)的局限,也是只會看數(shù)據(jù)的分析師和接地氣分析師的最大差異。

對于業(yè)務(wù)市場的了解是數(shù)據(jù)分析師工作經(jīng)驗上最大優(yōu)勢之一。既然是零經(jīng)驗面試,公司肯定也知道剛?cè)腴T分析師不會有太多業(yè)務(wù)經(jīng)驗,不會以這個卡人。所以簡單花一周了解行業(yè)的各指標。

以知乎最多的互聯(lián)網(wǎng)行業(yè)為例。至少了解活躍用戶數(shù),活躍用戶率,留存率,流失率,傳播系數(shù)等通用概念。

增長黑客 (豆瓣)

數(shù)據(jù)驅(qū)動業(yè)務(wù)的典型,里面包含產(chǎn)品運營最經(jīng)典的AAARR框架。部分非數(shù)據(jù)的營銷案例,如果時間不夠可以略過。此外產(chǎn)品和運營的入門讀物也能看,這里就不推薦了。

網(wǎng)站分析實戰(zhàn) (豆瓣)

如果應(yīng)聘的公司涉及Web產(chǎn)品,可以了解流量的概念。書中案例以Google Analytics為主。其實現(xiàn)在是APP+Web的復(fù)合框架,比如朋友圈的傳播活動肯定需要用到網(wǎng)頁的指標去分析。

精益數(shù)據(jù)分析 (豆瓣)

互聯(lián)網(wǎng)數(shù)據(jù)分析的入門書籍,歸納總結(jié)了幾個常用的分析框架。比較遺憾的是案例都是歐美。

還有一個小建議,現(xiàn)在有不少第三方的數(shù)據(jù)應(yīng)用,囊括了不少產(chǎn)品領(lǐng)域的數(shù)據(jù)分析和統(tǒng)計。自學(xué)黨們即使沒有生產(chǎn)環(huán)境的數(shù)據(jù),也可以看一下應(yīng)用Demo,有好處的。

除了業(yè)務(wù)知識,業(yè)務(wù)層面溝通也需要掌握。另外建議在面試前幾天收集該行業(yè)的業(yè)務(wù)強化一下。

第七周:Python/R 學(xué)習

終于到第七周,也是最痛苦的一周。這時應(yīng)該學(xué)習編程技巧。

是否具備編程能力,是初級數(shù)據(jù)分析和高級數(shù)據(jù)分析的風水嶺。數(shù)據(jù)挖掘,爬蟲,可視化報表都需要用到編程能力。掌握一門優(yōu)秀的編程語言,可以讓數(shù)據(jù)分析師事半功倍,升職加薪,迎娶白富美。(SAS/SPSS我不了解,所以不做指導(dǎo))

這里有兩條支線,學(xué)習R語言或Python。速成只要學(xué)習一條,以后再補上另外一門。

我剛好兩類都學(xué)過。R的優(yōu)點是統(tǒng)計學(xué)家編寫的,缺點也是統(tǒng)計學(xué)家編寫。如果是各類統(tǒng)計函數(shù)的調(diào)用,繪圖,分析的前驗性論證,R無疑有優(yōu)勢。但是大數(shù)據(jù)量的處理力有不逮,學(xué)習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,sklearn等各包也已經(jīng)追平R。

如果學(xué)習R,我建議看R語言實戰(zhàn) (豆瓣), 照著書本打一遍代碼,一星期綽綽有余。另外還有一本統(tǒng)計學(xué) (豆瓣),偏知識理論,可以復(fù)習前面的統(tǒng)計學(xué)知識。

R學(xué)習和熟悉各種包。知道描述性統(tǒng)計的函數(shù)。掌握DataFrame。如果時間有余??梢栽偃W(xué)習ggplot2。

Python擁有很多分支,我們專注數(shù)據(jù)分析這塊,入門可以學(xué)習深入淺出Python(影印版) (豆瓣)。也是把代碼寫一遍。

需要學(xué)會條件判斷,字典,切片,循環(huán),迭代,自定義函數(shù)等。知道數(shù)據(jù)領(lǐng)域最經(jīng)典的包Pandas+Numpy。

在速成后的很長一段時間,我們都要做調(diào)包俠。

這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用Anaconda。都是數(shù)據(jù)分析的利器。

Mac自帶Python2.7,但現(xiàn)在Python 3已經(jīng)比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環(huán)境變量的問題,是個大坑(R的中文編碼也是天坑)。

到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟速成是以轉(zhuǎn)崗或拿offer為目的。

成為數(shù)據(jù)分析師后,坑才剛剛開始,努力吧。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容