想到啥寫點(diǎn)兒啥,關(guān)于公司,關(guān)于數(shù)據(jù),關(guān)于團(tuán)隊(duì)的一些想法,看法。
在創(chuàng)業(yè)公司工作是一件很有意思的事情,有樂趣也有挑戰(zhàn)。
嚴(yán)格來說,這次是第2次在創(chuàng)業(yè)公司了,先說說第一次那短暫的經(jīng)歷吧。
互聯(lián)網(wǎng)金融
故事發(fā)生在2015年,還記得那是個(gè)流火的七月,我們一行三人,頂著熱浪走進(jìn)了一棟大廈。跟未來的老板聊了一下午,主要是聽他說,說公司的現(xiàn)狀,說這個(gè)行業(yè),說著未來的愿景,說著上市計(jì)劃。“風(fēng)口行業(yè),可以試試”,“有實(shí)體產(chǎn)業(yè),而且是大集團(tuán),可以”。就這樣,我們?nèi)肼毩诉@家互聯(lián)網(wǎng)金融公司-東虹橋金融在線。
集團(tuán)是做電纜起家的,我們這家互聯(lián)網(wǎng)金融公司也是依托于一家小貸公司,做了有5年了,我們屬于小貸公司的線上平臺(tái),平臺(tái)也是剛剛開始。我們?nèi)肼毢箝_始著手業(yè)務(wù)的梳理和數(shù)據(jù)平臺(tái)的搭建,數(shù)據(jù)量很小,目前業(yè)務(wù)也簡(jiǎn)單,為了快,我們直接就使用MySQL來當(dāng)數(shù)倉(cāng)了,其中一個(gè)同事著手搭建Hadoop平臺(tái),后期遷移到Hive上。
以前對(duì)金融行業(yè)不了解,對(duì)這種互聯(lián)網(wǎng)金融更是一臉懵,空的時(shí)候就研究下,發(fā)現(xiàn)我們公司的收益率由25%+,投資后還送加息券什么的。要知道那時(shí)候余額寶的收益率也就是8%、9%左右,這個(gè)讓我很是震驚,投點(diǎn)兒?不敢,太高了,不投?這個(gè)羊毛不薅,對(duì)不起自己啊。
其實(shí),一開始我對(duì)這個(gè)行業(yè)不太信任,收益太高了,高的嚇人,后來持續(xù)關(guān)注了一下市場(chǎng),和我們公司標(biāo)的的投資情況,都是很快就滿標(biāo)了,還款也是按時(shí)的。差不多一個(gè)月后,我也開始薅羊毛了,羊毛黨這個(gè)詞兒好像就是這個(gè)時(shí)候出來的吧。
回來說重點(diǎn),說說數(shù)據(jù)。對(duì)于當(dāng)時(shí)的平臺(tái),只有兩部分?jǐn)?shù)據(jù),1個(gè)是用戶行為數(shù)據(jù),1個(gè)是用戶交易數(shù)據(jù),所以我們也只做了:
- 平臺(tái)指標(biāo)梳理,明確指標(biāo)定義
- 梳理構(gòu)建基本維度:日期維度、區(qū)域維度、性別、年齡維度、投資金額段維度、投資次數(shù)維度、渠道維度
- 構(gòu)建基本寬表
- 用戶來源分析、活動(dòng)效果分析、用戶畫像、用戶積分模型
- 基于Echarts搭建數(shù)據(jù)可視化平臺(tái)
在這家公司其實(shí)算是從零開始,搭建了基礎(chǔ)的數(shù)倉(cāng)模型,和一個(gè)可視化平臺(tái),關(guān)于分析也就是搞了個(gè)用戶畫像,然后基于畫像輸出了一個(gè)用戶積分模型,給用戶分級(jí)用的。
這家公司的創(chuàng)業(yè)氛圍不明顯,可能是依托集團(tuán)的原因吧。當(dāng)然,我們還會(huì)額外兼職些別的任務(wù),公司是主打“互聯(lián)網(wǎng)金融+電影”,所以有時(shí)候需要地推宣傳,我們也會(huì)被派些任務(wù)。公司不僅投資拍電影,還搞演唱會(huì),當(dāng)時(shí)有很多的標(biāo)的都是投資送電影票,送演唱會(huì)門票。
可惜啊,就是電影的原因,出現(xiàn)了問題,16年《葉問三》上映了,公司投資了,結(jié)果爆出來虛假票房,這是個(gè)導(dǎo)火線吧,后來集團(tuán)下面的一家線下理財(cái)公司爆出來資金鏈的問題,出現(xiàn)大面積擠兌,燒著燒著,就燒到我們公司了,再然后,公司就涼了,再然后就開始裁員了,然后我們組就拜拜了。
歷時(shí)9個(gè)月左右,互聯(lián)網(wǎng)金融的工作截止,感覺以后不會(huì)再去這個(gè)行業(yè)了,金融這個(gè)東西,水太深,要去就去大公司,小的真心不推薦。
新零售
2015年是互聯(lián)網(wǎng)金融的風(fēng)口,2017年是新零售的風(fēng)口,最明顯的是無人貨架的風(fēng)口,一批一批無人貨架公司站起來。
在這一年,我又走進(jìn)了一家新零售公司“猩便利”,高管團(tuán)隊(duì)是阿里的、美團(tuán)點(diǎn)評(píng)的,一出生就帶著明星光環(huán)。記得是10月份來面試,當(dāng)時(shí)公司還是在Wework,辦公環(huán)境偏開放式的,很有趣,那沒有前臺(tái),只有一個(gè)大吧臺(tái),第一次去有點(diǎn)兒蒙,這是個(gè)啥公司,給HR打個(gè)電話,就在沙發(fā)那等,看上班的員工來來往往的,端著咖啡在吧臺(tái)討論,熱火朝天,欣欣向榮。
然后我就來這上班了。公司主營(yíng)業(yè)務(wù)是“無人貨架+無人便利店”,走的是即時(shí)消費(fèi)。剛?cè)サ臅r(shí)候,數(shù)據(jù)組有幾個(gè)分析師,本來也是奔著分析師崗位去的,但是說讓我先把數(shù)倉(cāng)搞搞,出于對(duì)這個(gè)行業(yè),對(duì)這家公司感興趣,依然來了,著手?jǐn)?shù)據(jù)平臺(tái)的整體搭建。
- 數(shù)倉(cāng)從零開始
離線平臺(tái)使用的是阿里云的Maxcompute,直接可以快速使用,省去了自己搭建平臺(tái)的成本。當(dāng)時(shí)公司的業(yè)務(wù)發(fā)展很快,9個(gè)門店+幾萬(wàn)臺(tái)貨架,大大小小有幾十個(gè)系統(tǒng)。
數(shù)倉(cāng)這個(gè)東西一方面是業(yè)務(wù)理解,一方面是建模思想。

針對(duì)這些挑戰(zhàn),我們考慮相應(yīng)的解決方案,現(xiàn)在回過頭去想想,很多地方當(dāng)時(shí)做的不太好:
- 規(guī)范制定的太少,推動(dòng)沒有盯住
當(dāng)時(shí)只是簡(jiǎn)單的制定了數(shù)倉(cāng)的分層結(jié)構(gòu),任務(wù)和表的命名規(guī)則,任務(wù)開發(fā)規(guī)則等,還是有很大的靈活性,導(dǎo)致后期團(tuán)隊(duì)人員越來越多,全都自由發(fā)揮了;加上后期沒有對(duì)每個(gè)人的開發(fā)內(nèi)容做審核,更加劇了這種情況。
項(xiàng)目初期,定制詳盡的規(guī)范,不斷完善,并且制定相應(yīng)的開發(fā)流程,做好審核工作。當(dāng)然,這回耗費(fèi)一定的時(shí)間成本,但絕對(duì)是值得的,不然后期項(xiàng)目一定混亂不堪,重構(gòu)的成本更高。
- 沒有忍心對(duì)歷史項(xiàng)目進(jìn)行重構(gòu)
剛?cè)サ臅r(shí)候,數(shù)據(jù)分析師已經(jīng)在做一些常規(guī)的取數(shù)工作,一些報(bào)表開發(fā)工作了,有一些日常的任務(wù)和表。開始想著歷史的就算了,新的按照規(guī)范來就好,結(jié)果導(dǎo)致后來這些項(xiàng)目還不斷的在使用,類似不符合規(guī)范的表也依然會(huì)出現(xiàn)(監(jiān)督審核工作不到位)。
在和業(yè)務(wù)方溝通了通知機(jī)制,催他們完善表結(jié)構(gòu)信息、ER模型,梳理完業(yè)務(wù)后,數(shù)倉(cāng)模型也逐步搭起來。因?yàn)槿耸值膯栴}(就我一個(gè)了解數(shù)倉(cāng)),其他都是些分析師,所以我?guī)е鴰讉€(gè)分析師一起搭建模型。
分析團(tuán)隊(duì)當(dāng)時(shí)是這樣的,按照業(yè)務(wù)線分成了貨架團(tuán)隊(duì)和門店團(tuán)隊(duì),老大的意思是讓我分別花幾周的時(shí)間帶他們做。
一邊熟悉業(yè)務(wù),一邊帶著幾個(gè)分析師搞dwd層,就是些明細(xì)寬表。記得老大總問我:“業(yè)務(wù)頻繁變動(dòng),數(shù)倉(cāng)該怎么做才能保持穩(wěn)定”,是,創(chuàng)業(yè)公司嘛,業(yè)務(wù)迭代是快,老版本的表結(jié)構(gòu)、業(yè)務(wù)流程剛梳理清楚,新版本要上線了,經(jīng)常出現(xiàn)這種情況。
處在業(yè)務(wù)發(fā)展擴(kuò)張期,這種情況很常見,所以我說的是,盡量只搭建相對(duì)穩(wěn)定的模型,dwd層可以多處理些,集市層應(yīng)用層可以臨時(shí)處理。
按照我以前的經(jīng)驗(yàn)來看,數(shù)倉(cāng)的搭建流程是這樣的:
- 梳理當(dāng)前業(yè)務(wù),梳理日常出數(shù)據(jù)的指標(biāo)、報(bào)表,輸出指標(biāo)字典、維度字典
- 梳理庫(kù)表模型,最先搭建可以輸出上面這些指標(biāo)和報(bào)表的模型,然后進(jìn)行數(shù)據(jù)校驗(yàn),切換使用的表
- 完善數(shù)倉(cāng)模型
剛?cè)サ臅r(shí)候,我就說要梳理個(gè)指標(biāo)字典,被否了,結(jié)果到現(xiàn)在也沒有一個(gè)完整版的全公司指標(biāo)。
第一版的數(shù)倉(cāng)就在這個(gè)跌跌撞撞,不斷摸索中進(jìn)行著,后面團(tuán)隊(duì)進(jìn)行了拆分,拆成了分析組和平臺(tái)組,也招了幾個(gè)了解數(shù)倉(cāng)的人。
中間一段時(shí)間,我們有點(diǎn)兒走偏,為了配合做數(shù)據(jù)產(chǎn)品,我們花了很多的時(shí)間做數(shù)據(jù)需求,主要任務(wù)分布:

我們就在完成這些需求的同時(shí)去優(yōu)化數(shù)倉(cāng)的表,這個(gè)過程很累,每天都很忙,忙的要死啊。由于團(tuán)隊(duì)分開了,老大不同,前面提到的問題更加劇了:
- 分析團(tuán)隊(duì)又搞自己的規(guī)范,和之前有些不一樣,并且沒有按照一開始的設(shè)計(jì)進(jìn)行開發(fā),對(duì)新員工的培訓(xùn)不徹底,導(dǎo)致平臺(tái)的表越來越亂
- 團(tuán)隊(duì)內(nèi)部溝通也欠缺,大家都在忙,每個(gè)人對(duì)接不同的業(yè)務(wù)團(tuán)隊(duì),每人一塊,很多人踩的坑沒有及時(shí)分享,好多人重復(fù)踩;做的事情輸出的模型也沒有分享,導(dǎo)致每個(gè)人都有一套自己的邏輯。
這其實(shí)陷入了一個(gè)怪圈,惡性循環(huán)的怪圈,團(tuán)隊(duì)內(nèi)部一定要多分享、多溝通
......
公司的發(fā)展,中間也出現(xiàn)過問題,就無人貨架來說,最重要的就是“盜損”,開放式的架子,付款全靠個(gè)人自覺,這個(gè)本身就是不靠譜的,17年為了鋪量,在幾十個(gè)城市有鋪貨架,倒損情況非常嚴(yán)重。17年大量無人貨架公司涌入,在18年初就出現(xiàn)了倒閉潮,這個(gè)時(shí)間窗口太快了。18年也是資本寒冬,年末各種公司裁員,我們也不例外。
總結(jié)
在創(chuàng)業(yè)公司做數(shù)據(jù),還是很有趣的,可以接觸到不同經(jīng)歷的人,學(xué)到很多的東西;
有試錯(cuò)的機(jī)會(huì),可以放開手腳去做,只要你有想法;
可以鍛煉自己的執(zhí)行力、主動(dòng)性;
有挑戰(zhàn),有機(jī)遇。