【數(shù)據(jù)分析商業(yè)實戰(zhàn)】chapter4課程筆記

本章主要知識點為:參數(shù)估計,假設(shè)檢驗,方差分析,相關(guān)分析,線性回歸。


1 均值的誤差為標準誤,是均值的誤差 ,其計算公式為樣本的標準差/樣本數(shù)開根號

2 無論任何分布的均值都是正態(tài)分布,因為中心極限定律。均值的樣本數(shù)越多 ,正態(tài)分布的擬合程度就越高。

3 qq圖 是用于檢測樣本的是否符合正態(tài)分布,其對角線為正態(tài)曲線,在曲線上的點越多,則其越符合正態(tài)曲線。


4 落在藍色區(qū)域拒絕 ,在白色區(qū)域之內(nèi)接受原假設(shè)。



# 假設(shè)檢驗

1 假設(shè) 真假設(shè)和反面假設(shè)?

2 確定置信度?

????小于100 90%

????100-500 5%

????500-1000 1%

3 收集 數(shù)據(jù)

4 看樣本和均值的絕對的差是幾倍的樣本均值的標準誤

t = (樣本均值-假設(shè)均值)/ 標準誤

?z值越大 說明約不靠譜 哈哈哈?

p值為兩邊的面積的和

一般樣本量不超過5000



# 兩獨立樣本T檢驗

其檢驗均值是否相同

p值顯著 ——小于設(shè)定的顯著度


levene 方差齊性檢驗

1 方差相等? or? 2 方差不相等

相等與否對檢驗差異影響不大



#? 方差分析

sst 總體變異——全部的離差平方和

sse 組內(nèi)變異——組內(nèi)的離差平方和

ssm組間變異——組均值和均值的離差平方和

F = 【ssm/自由度】/【sse/自由度】 越大越好,但是這個值算出來之后要依據(jù)經(jīng)驗來判定是否合適

# 相關(guān)分析

# 查看兩個變量之間的關(guān)系,一個標量該改變另外一個變量的均值是否有關(guān)系

相關(guān)系數(shù)person相關(guān)——查看線性關(guān)系

對于發(fā)散變量取對數(shù)



# 線性回歸


1 線性關(guān)系

2 拋物線關(guān)系

3 對數(shù)關(guān)系


在變量顯著的情況下(第二個表P值很小的時候),這個變量才是對結(jié)果有意義的。不顯著的變量可以直接刪除,

coef表示每增長10000個單位 INcome增長97

不懂呀?。?!?

Intercept 是截距項

在上面第一個表示用來做模型結(jié)果評價的,

R-squared 是用于描述模型優(yōu)劣的,是模型的結(jié)實度

ADJ R-squared 在多個模型比較的時候有意義,用于選擇模型用

Prob 用于看模型的顯著度,只要有一個變量顯著就是顯著的

AIC、BIC用于篩選莫模型

后面是對殘差的檢驗。



R方的解釋

多元線性回歸

去除無法提供增量信息的X(也就是去除共線的X)

AIC/BIC 越小模型越好

?逐步加變量(n^2/2)

step1 兩兩檢驗,逐步篩選,隨機森林(更具變量的數(shù)據(jù)量 ),iv(一個要計算幾秒或者幾十秒),最后逐步法

線性回歸在正態(tài)分布式穩(wěn)定的,不正態(tài)的環(huán)境下非穩(wěn)定。


作業(yè)筆記

1 對于左偏數(shù)據(jù)需要對數(shù)據(jù)進行對數(shù)處理

2 一般在做檢驗的過程中樣本量不宜超過5k,作業(yè)的樣本量為16k,這個數(shù)據(jù)可用于統(tǒng)計性描述,單不建議用于假設(shè)檢驗中。

? 3 how to 在describle中對數(shù)值型的分類變量進行分類

4 一般直方圖的柱子在20-50之間最佳

5 在看最大最小值的時候需要看到樣本最本質(zhì)的細節(jié)狀態(tài)

6 在做離散變量對因變量的觀測時,最好能按照中數(shù)單調(diào)遞增或者單調(diào)遞減的方式來進行。如果中位數(shù)值與下個箱子的下邊界重合,說明有明顯差異。

7 做兩個自變量的相關(guān)關(guān)系可以判斷自變量的值是否共線

8 在做變量相關(guān)性分析的時候,如果變量相關(guān)性過小,回歸分析的時候還是可以用的

9 對于連續(xù)變量,無論是自變量還是應(yīng)變量,都需要取對數(shù)。

??

描述性統(tǒng)計是對假設(shè)檢驗提出的前提條件,是否符合需要進一步做假設(shè)檢驗。

根據(jù)樣本量抽樣,通過線性回歸的p值初步檢驗,在變量集中選出200-300個變量即可。

分層抽樣——how to 按照比例分層抽樣

how to 保證分層抽樣的穩(wěn)定系,按照不同自變量情況多分幾個層次


對分類變量可以做啞變量編碼,會提高模型的準確性。保留K-1個啞變量

用小寫的ols ,因為有懲罰項。


什么時候考慮交互項:在不同的變量對另外的應(yīng)變量斜率是不同的



對于數(shù)據(jù)分析的基本步驟

1 觀測因變量的數(shù)據(jù)分布情況?

? ? 數(shù)據(jù)分布,最值情況,數(shù)據(jù)分位點情況

2 觀察自變量的分布情況

? ? 離散變量的每個值的數(shù)據(jù)量,與因變量之間的關(guān)系

? ? 連續(xù)變量的數(shù)值分布情況,與因變量之間的關(guān)系

3 進行假設(shè)檢驗

? ? 初步用線性回歸模型預(yù)測數(shù)據(jù)

? ??

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容