SQL查詢:JOIN ON、DISTINCT、GROUP BY、ORDER BY等等。從數(shù)據(jù)庫中提取數(shù)據(jù)是數(shù)據(jù)分析的第一步。另外我們的數(shù)據(jù)規(guī)模是TB級的,所以還要能使用SQL讓集群做一些簡單的計算,不然都下載到本地的話運算資源是肯定不夠的??赡苓€會問一些非常基礎的問題,比如PRIMARY KEY、int、str、double之類。Excel:數(shù)據(jù)透視表、VLOOKUP、COUNTIFS、SUMIFS、VAR.P、條件格式等等,可能會涉及到諸如VLOOKUP中的TRUE和FALSE參數(shù)有什么區(qū)別,VAR.P和VAR.S有什么區(qū)別等細節(jié)問題。
1.2 自選動作
根據(jù)簡歷來問,簡歷上寫什么就問什么,會問得比較深入。簡歷作為敲門磚,撰寫也是非常重要的,切不可寫的過于夸張和造假,奉勸各位不要作死,畢竟不作死都有可能會死。Python、Stata、R、SPSS、SAS、EViews都算比較常見的數(shù)據(jù)分析工具。比如簡歷上寫“精通Python”,雖然hr知道簡歷注水是常態(tài),但既然都“精通”了,那問到pandas,regular expression,DataFrame.iterrows()返回的是Series還是dictionary還是list of tuples,tuple和list的區(qū)別的時候好歹都得答出來吧……
2
2.邏輯思維
主要分為兩方面,對業(yè)務邏輯的理解能力和行文的邏輯水平。
2.1業(yè)務邏輯
雖然一個業(yè)務看似流程簡單清晰,但產(chǎn)生數(shù)據(jù)的復雜程度往往超過大多數(shù)人的想象。對業(yè)務邏輯的考察主要通過相關項目經(jīng)歷。這里小編告誡大家一句,寫在簡歷上的項目經(jīng)歷起碼自己要非常熟悉,對答如流。以我家hr為例,每天接觸的是700多張表,每張表的字段往往超過200個。這些表和字段往往還有關聯(lián)。面對這么多業(yè)務指標,能否迅速理解它們之間的聯(lián)系? 面對新的數(shù)據(jù)需求,能否邏輯清晰地將它拆分成指標、二級指標并進行各種計算? 面對復雜的局部最優(yōu)化和全局最優(yōu)化需求,能否“抓大放小”,能否迅速找到關鍵控制點、關鍵影響因素并加以優(yōu)化?思維不敏捷,邏輯不清晰的話,是很難做好這份工作的。
2.2行文邏輯
畢竟最終產(chǎn)出是一份份報告,可能是HTML郵件也能是PDF。文章結構還是很重要的。這里不展開說了,不過關鍵的幾點是先說結論,先寫摘要。
3
3.理論儲備
也分為規(guī)定動作和可選動作。
3.1 規(guī)定動作
主要是基礎的統(tǒng)計學理論,如方差、協(xié)方差、算數(shù)平均數(shù)、幾何平均數(shù)、中位數(shù)、眾數(shù)、分位值、雙峰數(shù)據(jù)、長尾數(shù)據(jù)、假設檢驗、期望迭代法則、貝葉斯原理等。
3.2 自選動作
根據(jù)簡歷來問,簡歷上寫什么hr一定會問什么。第三次奉勸各位不要作死,寫的檢驗也好機器學習算法也好好歹自己要知道原理、適用條件、局限性。不然跟你聊起Pearson distance、K-means cluster的隨機性問題的時候你接不上來也是很尷尬的。
4
4.對細節(jié)的敏感度
作為數(shù)據(jù)分析師,每天要關注大量數(shù)據(jù)指標。對細節(jié)的敏感度是非常必要的。這主要分為兩方面,對統(tǒng)計口徑的敏感度和對數(shù)據(jù)的敏感度。
4.1 統(tǒng)計口徑
統(tǒng)計口徑一致是確保數(shù)據(jù)可比性的基礎,這非??简灁?shù)據(jù)分析師的敏感度和行業(yè)經(jīng)驗。比如轉化率,是點擊算轉化還是注冊算轉化還是購買算轉化?配送時間,是從用戶下單開始計時還是從訂單確認開始計時還是從商品出庫開始計時?客單價包不包括配送費、打包費、代金券形式的折扣優(yōu)惠?
4.2 數(shù)據(jù)
面試者對數(shù)據(jù)異常波動、離群值、平均數(shù)沒有代表意義等情況的迅速識別能力。比如已知然壽司套餐單價1,500,酒水單價300,平均客單價2,500,能不能馬上想到這可能是雙峰數(shù)據(jù)或者長尾數(shù)據(jù),抑或既雙峰又長尾的數(shù)據(jù)?
5
5.學習能力
互聯(lián)網(wǎng)行業(yè)瞬息萬變,光數(shù)據(jù)的存儲就有Oracle、MySQL、Hadoop、Spark、Hive、Impala、谷哥哥三駕馬車等一大堆奇奇怪怪的東西。互聯(lián)網(wǎng)行業(yè)的從業(yè)者經(jīng)常要面對新需求、新工具、新方法。能否迅速掌握新知識,解決新問題面試者必須證明給hr看。主要考察的方式是了解過往項目經(jīng)歷,或者出作業(yè)題(比如Sci-Hub)。
6
6.排版和簡單UI設計
數(shù)據(jù)分析報告必須簡潔、清晰、重點突出。主要考察方式是出作業(yè)題讓面試者限時交一份slides(就是PPT啦)出來。能掌握標準的Microsoft Design Language是大大的加分項。
7
7.價值觀
主要看工作熱情、態(tài)度、道德水平等等,這方面的問題比較隨機。

8.有意向學習大數(shù)據(jù)的小伙伴 可以進群交流哦?710219868 編號 八月