問(wèn)題一:如何提升銷量
已知數(shù)據(jù):近半年的數(shù)據(jù)報(bào)表,含總銷量、目標(biāo)銷量、廣告費(fèi)、社會(huì)網(wǎng)絡(luò)費(fèi)、單價(jià)
分析流程:
①確定:確定客戶的真正意圖,觀察現(xiàn)有數(shù)據(jù)的規(guī)律,了解其現(xiàn)象
②分解:將客戶的意圖拆解為一個(gè)個(gè)小問(wèn)題,回答小問(wèn)題進(jìn)而解決大問(wèn)題,找出高效的比較因子
③評(píng)估:根據(jù)現(xiàn)有信息和數(shù)據(jù),分解問(wèn)題,總結(jié)客戶確信的觀點(diǎn)和你觀察數(shù)據(jù)后的想法,從不同的角度、心智模型做假設(shè),搞清楚客戶不知道的事情。
④決策:做出自己明確的假設(shè)和結(jié)論,背景+數(shù)據(jù)解說(shuō)+建議
注:數(shù)據(jù)分析的根本在于密切關(guān)注需要了解的數(shù)據(jù)、核心是有效的比較。且分析前務(wù)必要保存原始數(shù)據(jù)!
問(wèn)題二:找出解決銷量下滑的辦法
已知數(shù)據(jù):近半年市場(chǎng)調(diào)查匯總表(含月份、調(diào)查項(xiàng)、各家分店參加調(diào)查的人對(duì)各個(gè)調(diào)查項(xiàng)給出的平均分)
分析流程:
①觀察法(找出最相關(guān)影響因素):找出最明顯相關(guān)因素,把所想到的造成該因素變化現(xiàn)象的事務(wù)之間的聯(lián)系畫(huà)出來(lái)(因果圖)
②比較法(對(duì)比找出較優(yōu)解決方法):注意排除混雜因素的影響,隨機(jī)選擇是種避免方法,要注意將可能成為混雜因素的那些因素最終在控制組和實(shí)驗(yàn)組中具有同票同權(quán),采用控制組做對(duì)比
注:數(shù)據(jù)分析的重點(diǎn)在于分析的結(jié)論有意義。
問(wèn)題三:制定最佳的組合生產(chǎn)方案
已知數(shù)據(jù):兩種產(chǎn)品的利潤(rùn)、有多少橡膠可以用來(lái)生產(chǎn)兩種產(chǎn)品、生產(chǎn)兩種產(chǎn)品的時(shí)間分別多久、兩種產(chǎn)品近3年每月的銷售量表
分析流程:
①最優(yōu)化問(wèn)題:找出約束條件/限制條件(原材料限制、生產(chǎn)時(shí)間限制、銷量可能限制)、決策變量/目標(biāo)變量(利潤(rùn)最大化)
②Solver求解器:excel一鍵求解
注:你要做好修改模型的準(zhǔn)備!
問(wèn)題四:選擇最優(yōu)主頁(yè)(3選1)
已知數(shù)據(jù):3種主頁(yè)分別的營(yíng)業(yè)額、用戶瀏覽時(shí)間、頁(yè)面瀏覽次數(shù)、用戶回頭率
分析流程:
①多元數(shù)據(jù)探索原因,將數(shù)據(jù)圖形化
②用散點(diǎn)圖(R語(yǔ)言實(shí)現(xiàn))探索原因,發(fā)現(xiàn)因果關(guān)系;X軸是自變量(可能多個(gè)原因,瀏覽時(shí)間、瀏覽次數(shù)、回頭率),Y軸是因變量(結(jié)果/期望目標(biāo),營(yíng)業(yè)額)
③每個(gè)觀察數(shù)據(jù)是圖上的每個(gè)點(diǎn),同時(shí)分別用虛線和實(shí)線畫(huà)出XY的目標(biāo)值和當(dāng)前平均值
注:面對(duì)大量數(shù)據(jù)時(shí),需記住目標(biāo),將目光停留在和目標(biāo)有關(guān)的數(shù)據(jù)上,無(wú)視其他。
問(wèn)題五:何時(shí)開(kāi)始提前生產(chǎn)新產(chǎn)品
已知數(shù)據(jù):3種主頁(yè)分別的營(yíng)業(yè)額、用戶瀏覽時(shí)間、頁(yè)面瀏覽次數(shù)、用戶回頭率
分析流程:
①用網(wǎng)路圖畫(huà)出數(shù)據(jù)變量之間的關(guān)系圖,并觀察其間是正相關(guān)還是負(fù)相關(guān)
②假設(shè)檢驗(yàn):證偽法,用已有的證據(jù)剔除錯(cuò)誤的假設(shè)
③證據(jù)的診斷性:用具有診斷性的證據(jù)評(píng)級(jí)排序已有假設(shè),挑選出可能性最強(qiáng)的假設(shè)
注:回避滿意法,保持敏銳,防止掉入認(rèn)知陷阱。
問(wèn)題六:判斷患病的概率
已知數(shù)據(jù):L患病,~L未患病,+陽(yáng)性,-陰性
①基礎(chǔ)患病概率:P(L),研究表明總?cè)丝谥杏?%的人患有蜥蜴流感,可以同時(shí)計(jì)算出“基礎(chǔ)未患病概率”P(~L)=1-P(L)=99%? ?
②真陽(yáng)性率:若某人已患蜥蜴流感,試驗(yàn)結(jié)果為陽(yáng)性的概率為90%
③假陽(yáng)性率:若某人未患蜥蜴流感,試驗(yàn)結(jié)果為陽(yáng)性的概率為9%
分析流程:貝葉斯規(guī)則
①P(L|+)?實(shí)驗(yàn)結(jié)果為陽(yáng)性的患病概率
②P(L|+) =? a / b
? ? ? ? ? ?a=?基礎(chǔ)患病概率P(L) *真陽(yáng)性率P(+|L)
? ? ? ? ? ?b=基礎(chǔ)患病概率P(L) *真陽(yáng)性率P(+|L)+基礎(chǔ)未患病概率P(~L) *假陽(yáng)性率P(+|~L)
注:避免基礎(chǔ)概率謬誤的唯一方法就是對(duì)基礎(chǔ)概率提高警惕,而且務(wù)必要將它整合到分析中去。貝葉斯規(guī)則可以反復(fù)使用,注意每次使用時(shí),要根據(jù)上一次的結(jié)果調(diào)整新的基礎(chǔ)概率。
問(wèn)題七:如何解決分歧、確定決策方向?
已知數(shù)據(jù):分歧的主要問(wèn)題有哪些、不同人對(duì)這些問(wèn)題的可能性看法
分析流程:
①主觀概率:即用一個(gè)數(shù)字形式的概率來(lái)表示對(duì)某事的確認(rèn)程度。
②散點(diǎn)圖:圖形化觀察大家對(duì)不同問(wèn)題的看法分歧度有多分散
③標(biāo)準(zhǔn)偏差:標(biāo)準(zhǔn)偏差越大表明值分布越分散、差異越大。(=STDEV函數(shù)(數(shù)據(jù)范圍))通過(guò)標(biāo)準(zhǔn)偏差排序,選出大家分歧最小的問(wèn)題
④貝葉斯規(guī)則:出現(xiàn)新信息,對(duì)我們已有的主觀概率可能會(huì)造成影響時(shí),用來(lái)修正已有的主觀概率。修正后再制作散點(diǎn)圖,觀察該觀點(diǎn)的分歧度
新證據(jù)E:俄羅斯宣布將賣出油田
已獲得的基礎(chǔ)主觀概率:P(S1),可以同時(shí)計(jì)算出P(~S1)=1-P(S1)???
需要修訂假設(shè)S1:俄羅斯下一季【是否】將繼續(xù)補(bǔ)貼石油業(yè)
需要收集數(shù)據(jù):在S1的情況下出現(xiàn)E的主觀概率P(E|S1)、在~S1的情況下出現(xiàn)E的主觀概率P(E|~S1)
需要計(jì)算的結(jié)果:在E的條件下出現(xiàn)S1的主觀概率,即P(S1|E)
公式: P(S1|E) =??① / ②
???????????①= P(S1) *P(E|S1)
???????????②= P(S1) *P(E|S1) +P(~S1) *P(E|~S1)
注:主觀概率特別適合在預(yù)測(cè)孤立事件,且缺乏從前在相同條件下發(fā)生過(guò)的事件的可靠數(shù)據(jù)的情況下使用。
問(wèn)題八:如何對(duì)無(wú)法量化的工作做成果評(píng)估
已知數(shù)據(jù):實(shí)際決策變量和約束條件太多,要得到量化數(shù)據(jù)的成本太高
分析流程:
①啟發(fā)法:?選擇一兩個(gè)變量,然后根據(jù)這些變量對(duì)整個(gè)系統(tǒng)做出結(jié)論,據(jù)此評(píng)價(jià)工作成效。
②使用快省樹(shù)描述啟發(fā)法
注:固定模式都具有啟發(fā)性。啟發(fā)法并非百試不爽,快而省的經(jīng)驗(yàn)可能有助于找出某些問(wèn)題的答案,但在其他情況下,也會(huì)先入為主、危險(xiǎn)至極!
問(wèn)題九:是否該主動(dòng)向老板要求加薪?
已知數(shù)據(jù):過(guò)去三年公司3000名員工的加薪記錄(含序號(hào)、得到的加薪幅度、是否主動(dòng)提出加薪、性別、加薪年份)
分析流程:
①直方圖:顯示出數(shù)據(jù)點(diǎn)在數(shù)值范圍內(nèi)的分布情況(excel:數(shù)據(jù)-數(shù)據(jù)分析-histogram)
source("http://www.headfirstlabs.com/books/hfda/hfda.R")
hist(emplyees$received[emplyees$negotiated==FALSE, breaks=50)
hist(emplyees$received[emplyees$negotiated==TRUE],?breaks=50)
②平均值、中間值、標(biāo)準(zhǔn)偏差
sd(emplyees$received[emplyees$negotiated==TRUE])
summary(emplyees$received[emplyees$negotiated==TRUE])
sd(emplyees$received[emplyees$negotiated==FALSE])
summary(emplyees$received[emplyees$negotiated==FALSE])
問(wèn)題十:(接問(wèn)題九)如果主動(dòng),加薪幅度該要求多少?(預(yù)測(cè))
已知數(shù)據(jù):同問(wèn)題九
分析流程:
①散點(diǎn)圖
employees<-read.csv("http://www.headfirstlabs.com/books/hfda/hfda_ch10_employees.csv", header=TRUE)
head(employees, n=30)
plot(employees$requested[employees$negotiated==TRUE],?employees$requested[employees$negotiated==FALSE])
②回歸線:輸入x預(yù)測(cè)y值,y=a+bx,a代表y軸截距(x=0),b代表斜率
myLm<-lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=employees)
myLm$coefficients
得出的前一個(gè)數(shù)字是a,后一個(gè)數(shù)字是b
注:回歸線對(duì)具有線性相關(guān)特點(diǎn)的數(shù)據(jù)很有用
問(wèn)題十一:(接問(wèn)題十)預(yù)測(cè)有偏差?
已知數(shù)據(jù):同問(wèn)題九
分析流程:
①外插法:數(shù)據(jù)范圍以外的情況,因?yàn)槿鄙贁?shù)據(jù)無(wú)法進(jìn)行預(yù)測(cè),可以提前增加注釋“預(yù)測(cè)范圍介于x%至y%之間有效”
②內(nèi)插法:數(shù)據(jù)范圍以內(nèi)的情況,但偏離回歸線
③機(jī)會(huì)誤差:實(shí)際結(jié)果與模型預(yù)測(cè)結(jié)果之間的偏差
④回歸線的均方根誤差值:又稱殘差標(biāo)準(zhǔn)差。增加注釋“大部分(但并非全部)結(jié)果會(huì)落在高于或低于預(yù)測(cè)結(jié)果x%的范圍內(nèi)”
summary(myLm)$sigma
⑤管理誤差:將數(shù)據(jù)分拆為幾個(gè)組(分割),例如按10%分界分成兩條回歸線
myLmBig<-lm(received[negotiated==TRUE&requested>10]~requested[negotiated==TRUE&requested>10], data=employees)
myLmSmall<-lm(received[negotiated==TRUE&requested<=10]~requested[negotiated==TRUE&requested<=10], data=employees)
summary(myLmBig)$coefficients
summary(myLmBig)$sigma
summary(myLmSmall)$coefficients
summary(myLmSmall)$sigma
注:預(yù)測(cè)總是與機(jī)會(huì)誤差同在。你的分析應(yīng)該介于具有完全解釋功能和完全預(yù)測(cè)功能之間。
問(wèn)題十二:找出每期刊物上刊登文章的最優(yōu)數(shù)量(確保帶來(lái)更大銷量)
已知數(shù)據(jù):銷量、期數(shù)、文章、作者表格
分析流程:
①數(shù)據(jù)庫(kù):一系列相互有特定關(guān)系的數(shù)據(jù)。通過(guò)數(shù)據(jù)串聯(lián)得出dispatch表(含期刊ID、發(fā)行時(shí)間、文章數(shù)量、銷量)
dispatch<-read.csv("dispatch analysis.csv", header=TRUE)
plot(Sales~jitter(Article.count), data=dispatch)
②關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)
多個(gè)散點(diǎn)圖
library(lattice)
xyplot(webHits~commentCount|authorName, data=articleHitsComments)
問(wèn)題十三:整理數(shù)據(jù)
已知數(shù)據(jù):一列混雜在一起的數(shù)據(jù)
分析流程:
①excel通過(guò)分隔符分列
②用SUBSTITUTE(單元格,“要替換字符”,“新字符”)
③正則表達(dá)式:
NewLastName<-sub("\\(.*\\)", "", hfhh$LastName)
④排序剔重
注:正則表達(dá)式是整理混亂數(shù)據(jù)的殺手锏。