內(nèi)外數(shù)據(jù)整合的一點(diǎn)心得

最近幾個(gè)月一直在折騰內(nèi)外數(shù)據(jù)整合,稍微寫點(diǎn)心得。

先做個(gè)“不內(nèi)外整合“的鋪墊,傳統(tǒng)的“基于內(nèi)部數(shù)據(jù)的優(yōu)化”,大概分為如下步驟

  1. 獲取自己的每一步的內(nèi)部轉(zhuǎn)化率

  2. 通過(guò)調(diào)研競(jìng)品,熟人打聽之類,得到標(biāo)桿

  3. 選擇內(nèi)部轉(zhuǎn)化率最差的步驟改進(jìn),ab測(cè)試

參考我以前的文章

如何在45分鐘內(nèi)改善一個(gè)網(wǎng)站的轉(zhuǎn)化率

【整理版】漏斗圖的兩個(gè)實(shí)際工作案例

這種方式的優(yōu)點(diǎn)是:容易上手,缺點(diǎn)是:依賴標(biāo)桿、流于表面,大部分市場(chǎng)上的競(jìng)品互相抄襲,最后同行業(yè)做到差不多的轉(zhuǎn)化率,就是這么來(lái)的。

本文想討論的是,在內(nèi)部數(shù)據(jù)基礎(chǔ)上,引入外部數(shù)據(jù),我之前的文章有類似:

競(jìng)爭(zhēng)對(duì)手比價(jià)分析

如何用數(shù)據(jù)解釋“知己知彼”

內(nèi)外整合的數(shù)據(jù)分析,增加了更多的信息量和不確定性,如果說(shuō)基礎(chǔ)優(yōu)化只需要中學(xué)數(shù)學(xué)的話,這個(gè)步驟需要一點(diǎn)點(diǎn)本科的概率論,大概可分為如下步驟:

  1. 分析內(nèi)部數(shù)據(jù),嘗試解釋波動(dòng)和做優(yōu)化。這時(shí)遇到了無(wú)法解釋的波動(dòng),和完全不符合預(yù)期的結(jié)果。

  2. 抓取直覺(jué)上覺(jué)得有關(guān)(且抓的到)的外部數(shù)據(jù),選擇合理的顆粒度和內(nèi)部數(shù)據(jù)關(guān)聯(lián)。例如每天某商品價(jià)格對(duì)比,和當(dāng)天該商品銷量。

  3. 嘗試引入單個(gè)外部數(shù)據(jù),解釋純內(nèi)部數(shù)據(jù)無(wú)法解釋的波動(dòng);嘗試將外部數(shù)據(jù)組合起來(lái),關(guān)聯(lián)內(nèi)部數(shù)據(jù)做解釋和預(yù)測(cè)。

不難發(fā)現(xiàn),這已經(jīng)是在玩計(jì)量經(jīng)濟(jì)學(xué)了,實(shí)際上整天考慮成本、取舍、效益、進(jìn)度管理之類的,產(chǎn)品運(yùn)營(yíng)這個(gè)崗位本來(lái)就很經(jīng)濟(jì)學(xué),只不過(guò)現(xiàn)在更加強(qiáng)調(diào)數(shù)據(jù),門檻大大提高了而已

(有個(gè)梗是這樣,傳統(tǒng)的需求可以說(shuō),我需要這個(gè)按鈕產(chǎn)生低價(jià)排序,而大數(shù)據(jù)時(shí)代,如果提個(gè)需求是,我需要這個(gè)按鈕產(chǎn)生客人需要的排序,這個(gè)崗位就是廢的,實(shí)際的需求還是要有人來(lái)提)。

在數(shù)據(jù)內(nèi)外整合的落地方面,我個(gè)人理解有三點(diǎn)心得。

一、定量的習(xí)慣

現(xiàn)在網(wǎng)上教程動(dòng)輒祭出“機(jī)器學(xué)習(xí)”,然后問(wèn)題就解決了,實(shí)際工作里,這些關(guān)起門來(lái)的分析對(duì)于業(yè)務(wù)的幫助大部分很小。多大程度上將業(yè)務(wù)的定性語(yǔ)言,定量地描述出來(lái),以擴(kuò)大數(shù)據(jù)分析的范圍,這一步遠(yuǎn)遠(yuǎn)比后續(xù)套模型、調(diào)參數(shù),來(lái)得重要。

所謂的數(shù)據(jù)驅(qū)動(dòng),我理解分為兩部分,第一個(gè)部分是,假如現(xiàn)實(shí)世界的所有問(wèn)題是一個(gè)空間,數(shù)據(jù)能解決的問(wèn)題是一個(gè)子空間,我們需要努力擴(kuò)大這個(gè)比例。第二個(gè)部分是,在數(shù)據(jù)能解決的子空間里,有相當(dāng)部分是限于計(jì)算資源,或方法過(guò)于原始,導(dǎo)致理論上能解決而實(shí)際無(wú)法(在有生之年)解決的,這部分是算法科學(xué)家和硬件科學(xué)家努力的方向。

我想說(shuō),第二部分和我們互聯(lián)網(wǎng)業(yè)者是沒(méi)有半毛錢關(guān)系的(除了那些整天要公司花幾百萬(wàn)買設(shè)備的數(shù)據(jù)大拿們,雖然他們沒(méi)錯(cuò),但是第二部分的投入效益極低,只有大公司和燒錢的可以玩),大家只需要關(guān)注第一部分就足夠了。而第一部分是完全可以通過(guò)習(xí)慣養(yǎng)成來(lái)潛移默化推進(jìn)的。

例如說(shuō)我面試一個(gè)小朋友,問(wèn)他如何評(píng)估一個(gè)新聞對(duì)近期轉(zhuǎn)化率的影響,可能有兩種回答:

1、我覺(jué)得大部分人不會(huì)關(guān)心新聞,所以看看銷量有無(wú)變化就好,其實(shí)就算有,也不一定是因?yàn)樾侣劇?/p>

2、可能看看搜索指數(shù)在各個(gè)分類的起伏,看看品牌搜索是否在沒(méi)有活動(dòng)情況下起伏,新客的來(lái)源結(jié)構(gòu)是否有變化(以及和搜索指數(shù)抖動(dòng)是否形似),被訪問(wèn)的熱門內(nèi)容是否有變化,留存率是否有變化。

顯然如果一個(gè)團(tuán)隊(duì)里都是第一種的話,數(shù)據(jù)驅(qū)動(dòng)的那個(gè)子空間就非常非常小,可能就天天抄抄競(jìng)品,在其他支持組能支持的數(shù)據(jù)范圍內(nèi),追追ab對(duì)比,就完事兒可以等年終獎(jiǎng)了(大部分打工心態(tài)的互聯(lián)網(wǎng)公司都是這樣,不然創(chuàng)業(yè)公司怎么有機(jī)會(huì)呢);

而第二種團(tuán)隊(duì)里,數(shù)據(jù)驅(qū)動(dòng)的空間就大很多,可以輕易發(fā)現(xiàn)很多“低懸的果實(shí)”,缺點(diǎn)是得到成果很不穩(wěn)定,而且看起來(lái)比第一種團(tuán)隊(duì)要不務(wù)正業(yè)的多—這也是為什么說(shuō),數(shù)據(jù)驅(qū)動(dòng)要從管理層開始的道理之一,呵呵。

二、倒推的習(xí)慣

很多人都知道搜索引擎最初的ranking原理就是,越多某個(gè)話題指向的網(wǎng)站,越相關(guān)于某個(gè)話題,這顯然是一種“倒推”,“倒推”是統(tǒng)計(jì)學(xué)思想的精髓。

無(wú)論是分析歷史數(shù)據(jù),還是對(duì)預(yù)測(cè)的未來(lái)數(shù)據(jù)進(jìn)行回顧,我們看到的都是一大堆的“結(jié)果”,有些根據(jù)內(nèi)部數(shù)據(jù)得到的預(yù)測(cè)和結(jié)果完全不符的,引入外部數(shù)據(jù)以后,有可能會(huì)呈現(xiàn)出某種規(guī)律性,這就是我們?cè)谧穼さ摹?/p>

第一批外部數(shù)據(jù)的選擇,肯定是拍腦袋,正如前面的幾篇博客提到,價(jià)格對(duì)比、覆蓋率對(duì)比、多樣性等,屬于根據(jù)直覺(jué),就覺(jué)得可能會(huì)影響轉(zhuǎn)化率的外部數(shù)據(jù),玩一下以后你會(huì)發(fā)現(xiàn),的確能解決一些問(wèn)題,但還有大量無(wú)法解釋的結(jié)果,也就是還有大量的特征等待你去發(fā)掘。

怎么找特征也有大量的充滿術(shù)語(yǔ)的可怕文章,用一個(gè)簡(jiǎn)單的類比,當(dāng)以色列特工潛入非洲拯救人質(zhì)的時(shí)候,他們用以色列語(yǔ)大喊趴下,然后射殺所有站著的人,這就是一個(gè)最簡(jiǎn)單的、用于分開人質(zhì)和恐怖分子的數(shù)據(jù)離散分析,用excel也完全可以做到,就是這么簡(jiǎn)單。

有時(shí)也會(huì)有funny的收獲,例如有些輸入輸出是毫無(wú)道理的,像是價(jià)格變貴、覆蓋變少,但是銷售變好了,當(dāng)然了這肯定說(shuō)明你漏了什么重要的因素沒(méi)有考慮,但是在找到之前,如果數(shù)據(jù)顯示真的足夠離散,不需要去追究為什么,因?yàn)槟悻F(xiàn)在可能正在以你沒(méi)想到的方式影響那個(gè)隱藏特征,先用起來(lái)再說(shuō)。

三、工具也需要優(yōu)化

內(nèi)部數(shù)據(jù)可以用非常原始的方法去分析,至今有很多手算轉(zhuǎn)化率的日常工作,但是加入外部數(shù)據(jù)以后,由于數(shù)據(jù)結(jié)構(gòu)的復(fù)雜,分析的耗時(shí)指數(shù)增長(zhǎng),原來(lái)的方法和工具不再適用,這時(shí)候才會(huì)誕生大量的指標(biāo)、指數(shù)、可視化。

雖然金融行業(yè)早就已經(jīng)達(dá)到了這個(gè)水平,但其他行業(yè)還都是剛剛開始,對(duì)于顆粒度、周期隔斷的摸索還很初步,可能大部分人對(duì)自己每天看的指標(biāo),應(yīng)該如何離散化,都不如家里炒股票的父母對(duì)各種k線分類的掌握。

當(dāng)數(shù)據(jù)多到一定程度的時(shí)候,你可能會(huì)感覺(jué)到,只有相關(guān)性、數(shù)量級(jí)數(shù)才是有意義的,具體的數(shù)字反而沒(méi)有感覺(jué)了,例如說(shuō)某行業(yè)轉(zhuǎn)化率應(yīng)該是淡季2%,旺季5%,這種傳統(tǒng)經(jīng)驗(yàn)會(huì)變得毫無(wú)意義。

如果到達(dá)這個(gè)境界的話,可能會(huì)感覺(jué)到我這篇文章想表達(dá)的一種,怎么說(shuō)呢,焦慮和期望吧。

謝謝閱讀。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容