我所理解的互聯(lián)網(wǎng)數(shù)據(jù)分析師

本文目錄:

數(shù)據(jù)分析師的工作內(nèi)容
數(shù)據(jù)分析師的能力要求
數(shù)據(jù)分析與數(shù)據(jù)挖掘
數(shù)據(jù)分析師的困境
數(shù)據(jù)分析師的推薦資料
總結(jié)

數(shù)據(jù)分析師雖然是很多互聯(lián)網(wǎng)公司都設(shè)立的一個職位,但不同公司對這一職位的定位不同。即使是統(tǒng)一公司,在不同的團隊,數(shù)據(jù)分析師的職責(zé),作用和地位也可能不一樣。本文從筆者自己的實際經(jīng)歷出發(fā),總結(jié)一下數(shù)據(jù)分析師工作的內(nèi)容,要求,工具,技能等多個方面。由于經(jīng)歷尚欠,文章內(nèi)容難免疏漏,請多多包涵。也歡迎交流。

數(shù)據(jù)分析師的工作內(nèi)容

從定位上來講,數(shù)據(jù)分析師是一個“業(yè)務(wù)支持”的工種。數(shù)據(jù)分析本身是通過數(shù)據(jù),最終解決商業(yè)問題的過程。

按照支持的方向劃分,可以分為產(chǎn)品數(shù)據(jù)分析師,運營數(shù)據(jù)分析師。顧名思義,產(chǎn)品數(shù)據(jù)分析師側(cè)重于支持產(chǎn)品的分析工作,包括但不限于產(chǎn)品埋點梳理,產(chǎn)品功能分析,產(chǎn)品核心指標(biāo)分析,產(chǎn)品用戶分析。運營分析師的工作主要包括運營策略評估,運營活動分析,日常經(jīng)營分析,商業(yè)效果分析等。兩者的共同點是,都需要通過多種方法,從數(shù)據(jù)中發(fā)現(xiàn)當(dāng)前業(yè)務(wù)中存在的問題和不足,提出改進策略推進落地,并評估策略或功能上線之后的效果。因此,他們的產(chǎn)出通常包括基本數(shù)據(jù)表格,線上數(shù)據(jù)報表,數(shù)據(jù)分析報告以及其他相關(guān)文檔(如埋點文檔,PPT報告等)。分析師的產(chǎn)出,既可以是交給產(chǎn)品經(jīng)理,運營人員等業(yè)務(wù)方,也可以是上層領(lǐng)導(dǎo)。前者的情況下,分析師通常具有一定的主動權(quán)和話語權(quán),而如果是后者,則可能相對被動一些(當(dāng)然也需要具體情況具體分析)。但兩種情況下,數(shù)據(jù)分析師都是要幫助業(yè)務(wù)方從更深入的層面理解業(yè)務(wù),洞察業(yè)務(wù),發(fā)現(xiàn)新的增長點。

具體來講,數(shù)據(jù)分析師的工作內(nèi)容有以下方面:

1.數(shù)據(jù)埋點的規(guī)劃,確認和梳理

無論是一個新的產(chǎn)品功能還是一個運營活動,上線之前必須要對埋點進行規(guī)劃,確保核心數(shù)據(jù)指標(biāo)分的埋點上報邏輯是正確的。數(shù)據(jù)分析師需要和產(chǎn)品經(jīng)理配合,共同做好埋點梳理,不能所有的點都埋,也不能漏掉核心的埋點,更不能等上線之后再補埋點。還需要清楚埋點的數(shù)據(jù)如何從對應(yīng)的數(shù)據(jù)表中獲取,有沒有和現(xiàn)有埋點的沖突,不同版本之間埋點是否存在差異等。進一步的,可能會有一些埋點數(shù)據(jù)經(jīng)常需要使用,而埋點的底層表通常數(shù)據(jù)量很大,直接取效率可能比較低,這時就可以考慮將我們所關(guān)心的數(shù)據(jù)做一個每日定時任務(wù),每日生成一張表,供之后的分析使用。

2.數(shù)據(jù)指標(biāo)體系的構(gòu)建

指標(biāo)是對一個業(yè)務(wù)場景的定義,需要有指標(biāo)名稱和數(shù)值以及相應(yīng)的算法,必要時還要給出SQL。指標(biāo)體系是很多指標(biāo)組成的一個統(tǒng)一整體,既相互獨立,有相互關(guān)聯(lián)。構(gòu)建指標(biāo)體系通??梢园凑罩笜?biāo)集+維度集的思路來進行。指標(biāo)集是圍繞核心指標(biāo)的一系列指標(biāo),維度集包括時間維度和空間維度,如年月日周時分秒,全國區(qū)域省份城市等。維度集還可以包括業(yè)務(wù)細分的維度,如操作系統(tǒng),新老用戶,支付方式等。數(shù)據(jù)分析師在日常工作中,需要梳理不同層級的指標(biāo)體系,明確其計算邏輯,口徑和使用場景,確保能用最合適的指標(biāo)為業(yè)務(wù)更好地服務(wù)。

3.業(yè)務(wù)日常分析與專題分析

這一部分和前一部分緊密相連。日常分析包括產(chǎn)品功能上線的收益分析,也包括關(guān)鍵指標(biāo)的日常監(jiān)控和異動分析。產(chǎn)品上線分析需要結(jié)合具體的功能進行。指標(biāo)監(jiān)控和異動分析則需要一定的經(jīng)驗。常見的異動分析方法有維度拆解,漏斗分析,公式拆解,指標(biāo)關(guān)聯(lián)分析等,有時也需要結(jié)合外部環(huán)境,運營事件等進行。前期可能需要進行一定的探索才能真正找到原因,業(yè)務(wù)成熟之后,這部分可以考慮上線成為歸因分析的系統(tǒng),自動化定位原因,提高效率。這其實是一個“數(shù)據(jù)分析思維產(chǎn)品化”的過程,既能夠沉淀自己的方法論,也能夠通過產(chǎn)品化進行推廣,使更多的人受益。

專題分析是工作中價值輸出占比比較大的一部分。相比日常分析來講可能更綜合一些,但并沒有明確的界限。一般來講分為3個階段,6個步驟:

第一階段,問題識別與構(gòu)建

  • Step1:識別問題
  • Step2:回顧之前的發(fā)現(xiàn)

第二階段,定位問題,并給出解決方案

  • Step3:建模(變量選擇)
  • Step4:收集數(shù)據(jù)
  • Step5:分析數(shù)據(jù)

第三階段,傳達結(jié)果并推動結(jié)果落地

  • Step6:傳達給相關(guān)方數(shù)據(jù)分析結(jié)果并采取行動

來源:https://mp.weixin.qq.com/s/1thDxXDo_9agUIjunaSD5g

4.數(shù)據(jù)報表的配置搭建

數(shù)據(jù)報表可能會有多種形式,如每日郵件,tableau,其他線上報表等。也可能具有不同的時間周期,如日報,周報,月報等。線上的報表通常以統(tǒng)計圖,統(tǒng)計表的形式呈現(xiàn),日報周報除了基礎(chǔ)數(shù)據(jù)外,還需要有文字解讀,觀點建議等。線上報表配置時,通常需要依賴一定的調(diào)度任務(wù)(每天自動定時產(chǎn)出數(shù)據(jù)表,線上報表就是把這些表的數(shù)據(jù)直接或者間接呈現(xiàn)出來)。


image

數(shù)據(jù)分析師的能力要求

1.技能要求

必須指出,任何的技能,都只是工具,只要能達到最終的結(jié)果,無論用什么手段都可以,重要的是簡單高效熟悉。我們從數(shù)據(jù)獲取,數(shù)據(jù)預(yù)處理,數(shù)據(jù)分析,結(jié)果呈現(xiàn)等幾個方面分別來說明。

數(shù)據(jù)獲取:

  • SQL技能。我們在工作中的業(yè)務(wù)數(shù)據(jù)主要來源于自有的數(shù)據(jù)庫或者數(shù)據(jù)倉庫。這些數(shù)據(jù)大多是已經(jīng)由數(shù)倉同學(xué)處理好的,結(jié)構(gòu)化的,使用SQL(這里是一個廣義概念,實際中主要是Hive SQL)是一種最簡單有效的獲取數(shù)據(jù)的方式。SQL本身入門門檻低,上手快,專業(yè)性不是很強。多寫多練,就可以熟能生巧。但一定要注意SQL邏輯和口徑的準(zhǔn)確性,這需要我們使用正確的表,準(zhǔn)確的限定條件,以及根據(jù)經(jīng)驗對取數(shù)結(jié)果進行判斷。還要注意SQL的執(zhí)行效率。
  • python爬蟲。除了在數(shù)據(jù)庫中的數(shù)據(jù),我們也常常需要從公司外部獲取數(shù)據(jù),而python爬蟲是獲取互聯(lián)網(wǎng)數(shù)據(jù)的常見而有效的方式,因此掌握爬蟲技能十分重要和必要。爬蟲主要包括網(wǎng)頁獲取,網(wǎng)頁解析,數(shù)據(jù)存儲等步驟。python中主要涉及requests,lxml,BeautifulSoup,pyquery,pymysql,pymongo,selenium,scrapy等工具包。

數(shù)據(jù)預(yù)處理:

這一階段包含數(shù)據(jù)清洗和數(shù)據(jù)預(yù)處理兩個部分。數(shù)據(jù)清洗的環(huán)節(jié)目標(biāo)是提高數(shù)據(jù)質(zhì)量,為后續(xù)的分析工作奠定基礎(chǔ),是高質(zhì)量數(shù)據(jù)的最后一道屏障。數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)可以概括為“完全合一”(參考極客時間《數(shù)據(jù)分析實戰(zhàn)45講》課程)。“完”是指完整性:數(shù)據(jù)中不應(yīng)該存在空值,空行等?!叭笔侵溉嫘裕褐饕竿涣袛?shù)據(jù),單位要統(tǒng)一,定義要明確。“合”是指合法性:所有數(shù)據(jù)的取值應(yīng)該在合理范圍內(nèi),不能出現(xiàn)異常數(shù)據(jù)和非法字符等?!耙弧笔侵肝ㄒ恍裕和瑯拥臄?shù)據(jù)不能存在多次。因此該階段可能的工作包括:數(shù)據(jù)格式的轉(zhuǎn)換,缺失值填充,重復(fù)值刪除,處理非法字符等。而數(shù)據(jù)預(yù)處理主要包括數(shù)據(jù)集成,數(shù)據(jù)變換等。數(shù)據(jù)集成是將不同來源的數(shù)據(jù)通過一定的手段整合在一起,工業(yè)級的數(shù)據(jù)集成需要用到專業(yè)的ETL工具。而數(shù)據(jù)變換主要指數(shù)據(jù)的歸一化,如Max-Min規(guī)范化,Z-score規(guī)范化等。以python為例,實際中進行數(shù)據(jù)清洗,數(shù)據(jù)集成會用到pandas,數(shù)據(jù)變換則使用sklearn工具包。

數(shù)據(jù)分析:

這一階段是數(shù)據(jù)分析工作的核心,也是最能體現(xiàn)數(shù)據(jù)分析師價值的地方,需要從“高質(zhì)量”的數(shù)據(jù)出發(fā),基于對業(yè)務(wù)場景的理解,從數(shù)據(jù)趨勢,數(shù)據(jù)分布,數(shù)據(jù)計算中總結(jié)出業(yè)務(wù)現(xiàn)狀,由此提出業(yè)務(wù)的改進建議。常見的數(shù)據(jù)分析方法有:象限法,公式拆解法,對比分析法,歸因分析,漏斗分析,留存分析,同期群分析,AB實驗等。

實際中,我們通常會使用一些可視化方式提高分析的效率??梢暬墓ぞ哂泻芏?,Excel是一種,簡便易用,適合大多數(shù)人。除此外還有Tableau,功能雖然更強大,但需要付費。python中也有很多的數(shù)據(jù)可視化工具包,例如matplotlib,seaborn,pyecharts,bokeh等。R也是數(shù)據(jù)可視化時經(jīng)常會選擇的工具??梢暬某尸F(xiàn)常用的圖表有柱形圖,散點圖,折線圖,扇形圖,氣泡圖,雷達圖以及他們的變體和組合等。實現(xiàn)的方式并沒有優(yōu)劣,只需要選擇自己擅長的,能達到結(jié)果就好。

結(jié)果呈現(xiàn):

這里的結(jié)果包括分析報告的輸出和報表輸出。主要是指輸出的分析報告會有多種形式,可能是excel表格,可能是word文檔,大多數(shù)情況可能是PPT。無論哪種形式,既需要有文字結(jié)論,也需要輔之以圖表清楚地說明問題。因此要求比較熟練地使用office辦公套件。

數(shù)據(jù)報表的輸出通常需要對于基礎(chǔ)平臺有一定的了解,會使用Shell,SQL,HDFS,spark,數(shù)據(jù)倉庫等。要能夠處理異常情況,排查錯誤等,對于上線后出現(xiàn)的可能出現(xiàn)各種bug也需要能夠及時準(zhǔn)確處理。

2.思維要求

這里主要是指對于業(yè)務(wù)的深入理解的同時,可以結(jié)合一些已有的經(jīng)典模型和理論。例如AARRR模型,RFM模型,二八法則,魚骨圖,馬斯洛需求理論,生命周期理論等。這些經(jīng)典的方法論能夠幫助我們尋找思路,也能夠幫助我們檢驗當(dāng)前工作的完整性。這就需要一定的知識儲備,多多攝入一些經(jīng)濟學(xué),心理學(xué),戰(zhàn)略管理等知識。

另外,數(shù)據(jù)分析師需要具備一定的數(shù)據(jù)敏感度。對于業(yè)務(wù)上或者行業(yè)內(nèi)的數(shù)據(jù),要有一定的預(yù)估判斷能力,把握一個大概的量級。對于一個數(shù)據(jù)的可信程度,能夠在第一時間做出判斷是數(shù)據(jù)分析師比較基礎(chǔ)的一個必備的能力。

前文中我們提到了“產(chǎn)品化”,這也是數(shù)據(jù)分析師在工作中需要經(jīng)常總結(jié)和思考的。


image

數(shù)據(jù)分析與數(shù)據(jù)挖掘

廣義上的數(shù)據(jù)分析包括數(shù)據(jù)挖掘的內(nèi)容,例如基于業(yè)務(wù)進行數(shù)據(jù)模型搭建。這里就會用到一些經(jīng)典的數(shù)據(jù)挖掘算法,例如決策樹,樸素貝葉斯,邏輯回歸,K-Means。這部分的工作在數(shù)據(jù)分析師的日常中也會遇到,但可能只占一小部分,不同的公司和團隊也不同,需要看具體的情況。一般的業(yè)務(wù)分析可能用不到這些方法,但對其有一定的了解還是十分必要。不僅僅因為有時候數(shù)據(jù)分析師需要使用和產(chǎn)出這些模型,也可能需要對接算法工程師,因此了解常用的機器學(xué)習(xí)模型(分類,聚類,降維等),甚至深度學(xué)習(xí)的原理十分必要。個人認為,相比于算法工程師,數(shù)據(jù)分析師更貼近業(yè)務(wù),代碼能力和工程能力要求不那么高。

數(shù)據(jù)分析師的困境

目前很多數(shù)據(jù)分析師的崗位,或多或少都會存在一個問題:Title是數(shù)據(jù)分析師,實際上卻是提數(shù)工程師。數(shù)據(jù)分析師在工作中缺少主動權(quán)和話語權(quán),僅僅被當(dāng)做是數(shù)據(jù)工具,這一點眼中違背了這個崗位原本的價值定位。改變這一現(xiàn)狀需要分析師提高自己的主動性,主動發(fā)現(xiàn)問題,主動提供自己的思考和建議,持續(xù)跟進分析結(jié)論和效果反饋,提高自己的“存在感”。改變這種現(xiàn)狀可能不是一個人能完成的,也不是一朝一夕的能做到的。或許需要自上而下的推動,或許需要很久的摸索,但可以肯定的是,SQL boy的角色沒有真正發(fā)揮分析師的作用。這里推薦一位大佬(公眾號:木東居士)的文章,對這一困境進行了闡述。希望對大家有所啟發(fā)。數(shù)據(jù)分析師做成了提數(shù)工程師,該如何破局

image

數(shù)據(jù)分析師的推薦資料

  • 埋點和數(shù)據(jù)采集平臺:

    業(yè)界使用比較多的有:友盟,Google Analysis,百度統(tǒng)計,talking data,growing io等。

  • 書籍推薦:

    《誰說菜鳥不會數(shù)據(jù)分析》《深入淺出數(shù)據(jù)分析》《赤裸裸的統(tǒng)計學(xué)》《增長黑客》《精益數(shù)據(jù)分析》《運營之光》

  • 常用網(wǎng)站:

    數(shù)據(jù)分析網(wǎng):https://www.afenxi.com/

    愛統(tǒng)計網(wǎng):http://www.i#cn/

    人人都是產(chǎn)品經(jīng)理:http://www.woshipm.com/

總結(jié)

任何一個崗位都有從入門到精通的一個過程,數(shù)據(jù)分析師也一樣。本文總結(jié)和數(shù)據(jù)分析師的日常工作內(nèi)容和基本要求,注重廣度而非深度,也談到了該崗位定位的問題和存在的困境。實際工作中確實會遇到各種各樣的問題和挑戰(zhàn),只有迎難而上,多多總結(jié),保持思考,才能從容應(yīng)對。祝大家工作順利,天天進步!

歡迎關(guān)注我的公眾號:超哥的雜貨鋪~


掃碼關(guān)注:超哥的雜貨鋪
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容