本章主要知識點為：參數(shù)估計，假設(shè)檢驗，方差分析，相關(guān)分析，線性回歸。

1 均值的誤差為標準誤，是均值的誤差，其計算公式為樣本的標準差/樣本數(shù)開根號

2 無論任何分布的均值都是正態(tài)分布，因為中心極限定律。均值的樣本數(shù)越多，正態(tài)分布的擬合程度就越高。

3 qq圖是用于檢測樣本的是否符合正態(tài)分布，其對角線為正態(tài)曲線，在曲線上的點越多，則其越符合正態(tài)曲線。

4 落在藍色區(qū)域拒絕，在白色區(qū)域之內(nèi)接受原假設(shè)。

# 假設(shè)檢驗

1 假設(shè) 真假設(shè)和反面假設(shè)?

2 確定置信度?

????小于100 90%

????100-500 5%

????500-1000 1%

3 收集數(shù)據(jù)

4 看樣本和均值的絕對的差是幾倍的樣本均值的標準誤

t = （樣本均值-假設(shè)均值）/ 標準誤

?z值越大說明約不靠譜哈哈哈?

p值為兩邊的面積的和

一般樣本量不超過5000

# 兩獨立樣本T檢驗

其檢驗均值是否相同

p值顯著 ——小于設(shè)定的顯著度

levene 方差齊性檢驗

1 方差相等? or? 2 方差不相等

相等與否對檢驗差異影響不大

#? 方差分析

sst 總體變異——全部的離差平方和

sse 組內(nèi)變異——組內(nèi)的離差平方和

ssm組間變異——組均值和均值的離差平方和

F = 【ssm/自由度】/【sse/自由度】越大越好，但是這個值算出來之后要依據(jù)經(jīng)驗來判定是否合適

# 相關(guān)分析

# 查看兩個變量之間的關(guān)系，一個標量該改變另外一個變量的均值是否有關(guān)系

相關(guān)系數(shù)person相關(guān)——查看線性關(guān)系

對于發(fā)散變量取對數(shù)

# 線性回歸

1 線性關(guān)系

2 拋物線關(guān)系

3 對數(shù)關(guān)系

在變量顯著的情況下（第二個表P值很小的時候），這個變量才是對結(jié)果有意義的。不顯著的變量可以直接刪除，

coef表示每增長10000個單位 INcome增長97

不懂呀?。?！?

Intercept 是截距項

在上面第一個表示用來做模型結(jié)果評價的，

R-squared 是用于描述模型優(yōu)劣的，是模型的結(jié)實度

ADJ R-squared 在多個模型比較的時候有意義，用于選擇模型用

Prob 用于看模型的顯著度，只要有一個變量顯著就是顯著的

AIC、BIC用于篩選莫模型

后面是對殘差的檢驗。

R方的解釋

多元線性回歸

去除無法提供增量信息的X（也就是去除共線的X）

AIC/BIC 越小模型越好

?逐步加變量（n^2/2）

step1 兩兩檢驗，逐步篩選，隨機森林（更具變量的數(shù)據(jù)量），iv（一個要計算幾秒或者幾十秒），最后逐步法

線性回歸在正態(tài)分布式穩(wěn)定的，不正態(tài)的環(huán)境下非穩(wěn)定。

作業(yè)筆記

1 對于左偏數(shù)據(jù)需要對數(shù)據(jù)進行對數(shù)處理

2 一般在做檢驗的過程中樣本量不宜超過5k，作業(yè)的樣本量為16k，這個數(shù)據(jù)可用于統(tǒng)計性描述，單不建議用于假設(shè)檢驗中。

？ 3 how to 在describle中對數(shù)值型的分類變量進行分類

4 一般直方圖的柱子在20-50之間最佳

5 在看最大最小值的時候需要看到樣本最本質(zhì)的細節(jié)狀態(tài)

6 在做離散變量對因變量的觀測時，最好能按照中數(shù)單調(diào)遞增或者單調(diào)遞減的方式來進行。如果中位數(shù)值與下個箱子的下邊界重合，說明有明顯差異。

7 做兩個自變量的相關(guān)關(guān)系可以判斷自變量的值是否共線

8 在做變量相關(guān)性分析的時候，如果變量相關(guān)性過小，回歸分析的時候還是可以用的

9 對于連續(xù)變量，無論是自變量還是應(yīng)變量，都需要取對數(shù)。

描述性統(tǒng)計是對假設(shè)檢驗提出的前提條件，是否符合需要進一步做假設(shè)檢驗。

根據(jù)樣本量抽樣，通過線性回歸的p值初步檢驗，在變量集中選出200-300個變量即可。

分層抽樣——how to 按照比例分層抽樣

how to 保證分層抽樣的穩(wěn)定系，按照不同自變量情況多分幾個層次

對分類變量可以做啞變量編碼，會提高模型的準確性。保留K-1個啞變量

用小寫的ols ，因為有懲罰項。

什么時候考慮交互項：在不同的變量對另外的應(yīng)變量斜率是不同的

對于數(shù)據(jù)分析的基本步驟

1 觀測因變量的數(shù)據(jù)分布情況?

? ? 數(shù)據(jù)分布，最值情況，數(shù)據(jù)分位點情況

2 觀察自變量的分布情況

? ? 離散變量的每個值的數(shù)據(jù)量，與因變量之間的關(guān)系

? ? 連續(xù)變量的數(shù)值分布情況，與因變量之間的關(guān)系

3 進行假設(shè)檢驗

? ? 初步用線性回歸模型預(yù)測數(shù)據(jù)

? ??

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【數(shù)據(jù)分析商業(yè)實戰(zhàn)】chapter4課程筆記

【數(shù)據(jù)分析商業(yè)實戰(zhàn)】chapter4課程筆記

# 假設(shè)檢驗

# 兩獨立樣本T檢驗

# 相關(guān)分析

多元線性回歸

作業(yè)筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【數(shù)據(jù)分析商業(yè)實戰(zhàn)】chapter4課程筆記

# 假設(shè)檢驗

# 兩獨立樣本T檢驗

# 相關(guān)分析

多元線性回歸

作業(yè)筆記

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av