看完這篇就夠了 之《深入淺出數(shù)據(jù)分析》

問(wèn)題一:如何提升銷量

已知數(shù)據(jù):近半年的數(shù)據(jù)報(bào)表,含總銷量、目標(biāo)銷量、廣告費(fèi)、社會(huì)網(wǎng)絡(luò)費(fèi)、單價(jià)

分析流程:

①確定:確定客戶的真正意圖,觀察現(xiàn)有數(shù)據(jù)的規(guī)律,了解其現(xiàn)象

②分解:將客戶的意圖拆解為一個(gè)個(gè)小問(wèn)題,回答小問(wèn)題進(jìn)而解決大問(wèn)題,找出高效的比較因子

③評(píng)估:根據(jù)現(xiàn)有信息和數(shù)據(jù),分解問(wèn)題,總結(jié)客戶確信的觀點(diǎn)和你觀察數(shù)據(jù)后的想法,從不同的角度、心智模型做假設(shè),搞清楚客戶不知道的事情。

④決策:做出自己明確的假設(shè)和結(jié)論,背景+數(shù)據(jù)解說(shuō)+建議

注:數(shù)據(jù)分析的根本在于密切關(guān)注需要了解的數(shù)據(jù)、核心是有效的比較。且分析前務(wù)必要保存原始數(shù)據(jù)!



問(wèn)題二:找出解決銷量下滑的辦法

已知數(shù)據(jù):近半年市場(chǎng)調(diào)查匯總表(含月份、調(diào)查項(xiàng)、各家分店參加調(diào)查的人對(duì)各個(gè)調(diào)查項(xiàng)給出的平均分)

分析流程:

①觀察法(找出最相關(guān)影響因素):找出最明顯相關(guān)因素,把所想到的造成該因素變化現(xiàn)象的事務(wù)之間的聯(lián)系畫(huà)出來(lái)(因果圖)

②比較法(對(duì)比找出較優(yōu)解決方法):注意排除混雜因素的影響,隨機(jī)選擇是種避免方法,要注意將可能成為混雜因素的那些因素最終在控制組和實(shí)驗(yàn)組中具有同票同權(quán),采用控制組做對(duì)比

注:數(shù)據(jù)分析的重點(diǎn)在于分析的結(jié)論有意義。



問(wèn)題三:制定最佳的組合生產(chǎn)方案

已知數(shù)據(jù):兩種產(chǎn)品的利潤(rùn)、有多少橡膠可以用來(lái)生產(chǎn)兩種產(chǎn)品、生產(chǎn)兩種產(chǎn)品的時(shí)間分別多久、兩種產(chǎn)品近3年每月的銷售量表

分析流程:

①最優(yōu)化問(wèn)題:找出約束條件/限制條件(原材料限制、生產(chǎn)時(shí)間限制、銷量可能限制)、決策變量/目標(biāo)變量(利潤(rùn)最大化)

②Solver求解器:excel一鍵求解

注:你要做好修改模型的準(zhǔn)備!



問(wèn)題四:選擇最優(yōu)主頁(yè)(3選1)

已知數(shù)據(jù):3種主頁(yè)分別的營(yíng)業(yè)額、用戶瀏覽時(shí)間、頁(yè)面瀏覽次數(shù)、用戶回頭率

分析流程:

①多元數(shù)據(jù)探索原因,將數(shù)據(jù)圖形化

②用散點(diǎn)圖(R語(yǔ)言實(shí)現(xiàn))探索原因,發(fā)現(xiàn)因果關(guān)系;X軸是自變量(可能多個(gè)原因,瀏覽時(shí)間、瀏覽次數(shù)、回頭率),Y軸是因變量(結(jié)果/期望目標(biāo),營(yíng)業(yè)額)

③每個(gè)觀察數(shù)據(jù)是圖上的每個(gè)點(diǎn),同時(shí)分別用虛線和實(shí)線畫(huà)出XY的目標(biāo)值和當(dāng)前平均值

注:面對(duì)大量數(shù)據(jù)時(shí),需記住目標(biāo),將目光停留在和目標(biāo)有關(guān)的數(shù)據(jù)上,無(wú)視其他。



問(wèn)題五:何時(shí)開(kāi)始提前生產(chǎn)新產(chǎn)品

已知數(shù)據(jù):3種主頁(yè)分別的營(yíng)業(yè)額、用戶瀏覽時(shí)間、頁(yè)面瀏覽次數(shù)、用戶回頭率

分析流程:

①用網(wǎng)路圖畫(huà)出數(shù)據(jù)變量之間的關(guān)系圖,并觀察其間是正相關(guān)還是負(fù)相關(guān)

②假設(shè)檢驗(yàn):證偽法,用已有的證據(jù)剔除錯(cuò)誤的假設(shè)

③證據(jù)的診斷性:用具有診斷性的證據(jù)評(píng)級(jí)排序已有假設(shè),挑選出可能性最強(qiáng)的假設(shè)

注:回避滿意法,保持敏銳,防止掉入認(rèn)知陷阱。



問(wèn)題六:判斷患病的概率

已知數(shù)據(jù):L患病,~L未患病,+陽(yáng)性,-陰性

①基礎(chǔ)患病概率:P(L),研究表明總?cè)丝谥杏?%的人患有蜥蜴流感,可以同時(shí)計(jì)算出“基礎(chǔ)未患病概率”P(~L)=1-P(L)=99%? ?

②真陽(yáng)性率:若某人已患蜥蜴流感,試驗(yàn)結(jié)果為陽(yáng)性的概率為90%

③假陽(yáng)性率:若某人未患蜥蜴流感,試驗(yàn)結(jié)果為陽(yáng)性的概率為9%

分析流程:貝葉斯規(guī)則

①P(L|+)?實(shí)驗(yàn)結(jié)果為陽(yáng)性的患病概率

②P(L|+) =? a / b

? ? ? ? ? ?a=?基礎(chǔ)患病概率P(L) *真陽(yáng)性率P(+|L)

? ? ? ? ? ?b=基礎(chǔ)患病概率P(L) *真陽(yáng)性率P(+|L)+基礎(chǔ)未患病概率P(~L) *假陽(yáng)性率P(+|~L)

注:避免基礎(chǔ)概率謬誤的唯一方法就是對(duì)基礎(chǔ)概率提高警惕,而且務(wù)必要將它整合到分析中去。貝葉斯規(guī)則可以反復(fù)使用,注意每次使用時(shí),要根據(jù)上一次的結(jié)果調(diào)整新的基礎(chǔ)概率。



問(wèn)題七:如何解決分歧、確定決策方向?

已知數(shù)據(jù):分歧的主要問(wèn)題有哪些、不同人對(duì)這些問(wèn)題的可能性看法

分析流程:

①主觀概率:即用一個(gè)數(shù)字形式的概率來(lái)表示對(duì)某事的確認(rèn)程度。

②散點(diǎn)圖:圖形化觀察大家對(duì)不同問(wèn)題的看法分歧度有多分散

③標(biāo)準(zhǔn)偏差:標(biāo)準(zhǔn)偏差越大表明值分布越分散、差異越大。(=STDEV函數(shù)(數(shù)據(jù)范圍))通過(guò)標(biāo)準(zhǔn)偏差排序,選出大家分歧最小的問(wèn)題

④貝葉斯規(guī)則:出現(xiàn)新信息,對(duì)我們已有的主觀概率可能會(huì)造成影響時(shí),用來(lái)修正已有的主觀概率。修正后再制作散點(diǎn)圖,觀察該觀點(diǎn)的分歧度

新證據(jù)E:俄羅斯宣布將賣出油田

已獲得的基礎(chǔ)主觀概率:P(S1),可以同時(shí)計(jì)算出P(~S1)=1-P(S1)???

需要修訂假設(shè)S1:俄羅斯下一季【是否】將繼續(xù)補(bǔ)貼石油業(yè)

需要收集數(shù)據(jù):在S1的情況下出現(xiàn)E的主觀概率P(E|S1)、在~S1的情況下出現(xiàn)E的主觀概率P(E|~S1)

需要計(jì)算的結(jié)果:在E的條件下出現(xiàn)S1的主觀概率,即P(S1|E)

公式: P(S1|E) =??① / ②

???????????①= P(S1) *P(E|S1)

???????????②= P(S1) *P(E|S1) +P(~S1) *P(E|~S1)

注:主觀概率特別適合在預(yù)測(cè)孤立事件,且缺乏從前在相同條件下發(fā)生過(guò)的事件的可靠數(shù)據(jù)的情況下使用。



問(wèn)題八:如何對(duì)無(wú)法量化的工作做成果評(píng)估

已知數(shù)據(jù):實(shí)際決策變量和約束條件太多,要得到量化數(shù)據(jù)的成本太高

分析流程:

①啟發(fā)法:?選擇一兩個(gè)變量,然后根據(jù)這些變量對(duì)整個(gè)系統(tǒng)做出結(jié)論,據(jù)此評(píng)價(jià)工作成效。

②使用快省樹(shù)描述啟發(fā)法

注:固定模式都具有啟發(fā)性。啟發(fā)法并非百試不爽,快而省的經(jīng)驗(yàn)可能有助于找出某些問(wèn)題的答案,但在其他情況下,也會(huì)先入為主、危險(xiǎn)至極!



問(wèn)題九:是否該主動(dòng)向老板要求加薪?

已知數(shù)據(jù):過(guò)去三年公司3000名員工的加薪記錄(含序號(hào)、得到的加薪幅度、是否主動(dòng)提出加薪、性別、加薪年份)

分析流程:

①直方圖:顯示出數(shù)據(jù)點(diǎn)在數(shù)值范圍內(nèi)的分布情況(excel:數(shù)據(jù)-數(shù)據(jù)分析-histogram)

source("http://www.headfirstlabs.com/books/hfda/hfda.R")

hist(emplyees$received[emplyees$negotiated==FALSE, breaks=50)

hist(emplyees$received[emplyees$negotiated==TRUE],?breaks=50)

②平均值、中間值、標(biāo)準(zhǔn)偏差

sd(emplyees$received[emplyees$negotiated==TRUE])

summary(emplyees$received[emplyees$negotiated==TRUE])

sd(emplyees$received[emplyees$negotiated==FALSE])

summary(emplyees$received[emplyees$negotiated==FALSE])



問(wèn)題十:(接問(wèn)題九)如果主動(dòng),加薪幅度該要求多少?(預(yù)測(cè))

已知數(shù)據(jù):同問(wèn)題九

分析流程:

①散點(diǎn)圖

employees<-read.csv("http://www.headfirstlabs.com/books/hfda/hfda_ch10_employees.csv", header=TRUE)

head(employees, n=30)

plot(employees$requested[employees$negotiated==TRUE],?employees$requested[employees$negotiated==FALSE])

②回歸線:輸入x預(yù)測(cè)y值,y=a+bx,a代表y軸截距(x=0),b代表斜率

myLm<-lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=employees)

myLm$coefficients

得出的前一個(gè)數(shù)字是a,后一個(gè)數(shù)字是b

注:回歸線對(duì)具有線性相關(guān)特點(diǎn)的數(shù)據(jù)很有用



問(wèn)題十一:(接問(wèn)題十)預(yù)測(cè)有偏差?

已知數(shù)據(jù):同問(wèn)題九

分析流程:

①外插法:數(shù)據(jù)范圍以外的情況,因?yàn)槿鄙贁?shù)據(jù)無(wú)法進(jìn)行預(yù)測(cè),可以提前增加注釋“預(yù)測(cè)范圍介于x%至y%之間有效”

②內(nèi)插法:數(shù)據(jù)范圍以內(nèi)的情況,但偏離回歸線

③機(jī)會(huì)誤差:實(shí)際結(jié)果與模型預(yù)測(cè)結(jié)果之間的偏差

④回歸線的均方根誤差值:又稱殘差標(biāo)準(zhǔn)差。增加注釋“大部分(但并非全部)結(jié)果會(huì)落在高于或低于預(yù)測(cè)結(jié)果x%的范圍內(nèi)”

summary(myLm)$sigma

⑤管理誤差:將數(shù)據(jù)分拆為幾個(gè)組(分割),例如按10%分界分成兩條回歸線

myLmBig<-lm(received[negotiated==TRUE&requested>10]~requested[negotiated==TRUE&requested>10], data=employees)

myLmSmall<-lm(received[negotiated==TRUE&requested<=10]~requested[negotiated==TRUE&requested<=10], data=employees)

summary(myLmBig)$coefficients

summary(myLmBig)$sigma

summary(myLmSmall)$coefficients

summary(myLmSmall)$sigma

注:預(yù)測(cè)總是與機(jī)會(huì)誤差同在。你的分析應(yīng)該介于具有完全解釋功能和完全預(yù)測(cè)功能之間。



問(wèn)題十二:找出每期刊物上刊登文章的最優(yōu)數(shù)量(確保帶來(lái)更大銷量)

已知數(shù)據(jù):銷量、期數(shù)、文章、作者表格

分析流程:

①數(shù)據(jù)庫(kù):一系列相互有特定關(guān)系的數(shù)據(jù)。通過(guò)數(shù)據(jù)串聯(lián)得出dispatch表(含期刊ID、發(fā)行時(shí)間、文章數(shù)量、銷量)

dispatch<-read.csv("dispatch analysis.csv", header=TRUE)

plot(Sales~jitter(Article.count), data=dispatch)

②關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)

多個(gè)散點(diǎn)圖

library(lattice)

xyplot(webHits~commentCount|authorName, data=articleHitsComments)



問(wèn)題十三:整理數(shù)據(jù)

已知數(shù)據(jù):一列混雜在一起的數(shù)據(jù)

分析流程:

①excel通過(guò)分隔符分列

②用SUBSTITUTE(單元格,“要替換字符”,“新字符”)

③正則表達(dá)式:

NewLastName<-sub("\\(.*\\)", "", hfhh$LastName)

④排序剔重

注:正則表達(dá)式是整理混亂數(shù)據(jù)的殺手锏。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容