
非預(yù)測性分析(Non-Predictive Analysis):
地理空間分析(Geospatial Analysis)
這種類型的分析使用基于地理位置的數(shù)據(jù)來推導(dǎo)結(jié)論。例子有:通過地理區(qū)域識(shí)別客戶,計(jì)算店鋪之間的距離以及根據(jù)客戶位置創(chuàng)建交易區(qū)域。
細(xì)分分析(Segmentation Analysis)
細(xì)分是將數(shù)據(jù)分組的過程。分組可以是簡單的,比如購買不同東西的客戶,也可以是復(fù)雜的,比如根據(jù)客戶的人口特征統(tǒng)計(jì)來識(shí)別相似的店鋪。
聚合分析(Aggregation Analysis)
此方法用于計(jì)算跨組或跨維度的數(shù)據(jù),在數(shù)據(jù)分析中很常用。舉例來說,你可能想要某個(gè)銷售員的月度銷售匯總,將其每個(gè)月的銷售額相加即可。然后,你可能需要跨維度進(jìn)行匯總,比如各銷售領(lǐng)域的月度銷售
匯總。聚合通常用于報(bào)告,以達(dá)到劃分和區(qū)別信息的作用,有助于管理層制定決策和觀察表現(xiàn)。
描述性分析(Descriptive Analysis)
描述性統(tǒng)計(jì)可提供一個(gè)數(shù)據(jù)樣本的簡單概括。比如說計(jì)算一所學(xué)校申請者的平均 GPA,或者計(jì)算一個(gè)職業(yè)棒球員的擊球平均水平。在我們的電力供應(yīng)案例中,我們可以使用描述性統(tǒng)計(jì)來計(jì)算每小時(shí)、每天或某一
天的平均溫度。
一些常用的描述性統(tǒng)計(jì)包括平均值、中位數(shù)、眾數(shù)、標(biāo)準(zhǔn)方差和四分位差?!久枋鲂越y(tǒng)計(jì)學(xué)參考資料:https://cn.udacity.com/course/intro-to-descriptive-statistics--ud827】
預(yù)測商業(yè)問題:
數(shù)據(jù)豐富(Data Rich) vs 數(shù)據(jù)不足(Data Poor)
數(shù)據(jù)不足的商業(yè)問題:
數(shù)據(jù)不足的情況下就要構(gòu)建一個(gè)實(shí)驗(yàn)來幫助我們得到想要的數(shù)據(jù)。給出特定商業(yè)情景的實(shí)驗(yàn)通常指的是A/B測試。
數(shù)據(jù)豐富的商業(yè)問題:
數(shù)值型(Numeric)vs非數(shù)值型(Non-Numeric)預(yù)測分析
回歸模型(Regression Models)【目標(biāo)變量是數(shù)值型】
數(shù)值型結(jié)果是那些用數(shù)字表示的結(jié)果。
目標(biāo)變量(Target Variables)
目標(biāo)變量代表需要預(yù)測的結(jié)果。為了選擇正確的預(yù)測模型,我們首先要確定目標(biāo)變量是數(shù)值型還是非數(shù)值型。讓我們先從數(shù)值型變量開始。
數(shù)值型變量(Numeric Variables)的種類
三種最常見的數(shù)值型變量是連續(xù)型、基于時(shí)間型以及計(jì)數(shù)型。
連續(xù)型(Continuous)
連續(xù)型變量能包含一個(gè)范圍內(nèi)的所有數(shù)值。打個(gè)比方,你的身高能測量到多個(gè)小數(shù)位的精度,我們不會(huì)以每英寸的間隔成長。
基于時(shí)間型(Time-Based)
基于時(shí)間的數(shù)值型變量是預(yù)測在某一段時(shí)間內(nèi)會(huì)發(fā)生什么的一種變量,常常與“預(yù)報(bào)”有關(guān)。
計(jì)數(shù)型(Count)
計(jì)數(shù)型變量是離散的正整數(shù)。它們被稱為計(jì)數(shù)數(shù)字是因?yàn)楸挥脕矸治瞿軌蛴?jì)數(shù)的變量。在商業(yè)中這類型的變量并不常見
分類模型(Classification Models)【目標(biāo)變量是類型】
非數(shù)值型結(jié)果是那些我們要預(yù)測案例或客戶所屬類型的結(jié)果,比如客戶是按時(shí)付款、延期付款還是拖欠貸款。
另一個(gè)例子是:某電子設(shè)備是否會(huì)在 1000 個(gè)小時(shí)內(nèi)出故障。預(yù)測非數(shù)值型數(shù)據(jù)的模型被稱為分類模型。
二元和非二元(Binary and Non-Binary)【拓展閱讀:Ben Burkholder 有一門講解分類模型的課程,將深入探討這些不同種類的模型?!?/p>
二元:
當(dāng)給分類變量建模時(shí),可能的結(jié)果數(shù)量是一個(gè)重要參數(shù)。如果只有兩種可能的分類結(jié)果,比如是和否,或者對和錯(cuò),那么這個(gè)變量就被稱為二元變量。
非二元:
如果有多于兩種的分類結(jié)果,比如小、中、大或者按時(shí)付款、拖延付款、拖欠付款,那么該變量就被稱為是非二元變量。這節(jié)課的重要內(nèi)容是要能夠決
定是否使用分類模型以及是否應(yīng)該使用二元模型或非二元模型。
錯(cuò)題:

提示:因?yàn)榭Х冗B鎖店沒有關(guān)于新產(chǎn)品電視廣告的影響的數(shù)據(jù),他們需要用 A/B 測試來預(yù)測電視廣告的影響。