本章主要知識點為:參數(shù)估計,假設(shè)檢驗,方差分析,相關(guān)分析,線性回歸。
1 均值的誤差為標準誤,是均值的誤差 ,其計算公式為樣本的標準差/樣本數(shù)開根號
2 無論任何分布的均值都是正態(tài)分布,因為中心極限定律。均值的樣本數(shù)越多 ,正態(tài)分布的擬合程度就越高。
3 qq圖 是用于檢測樣本的是否符合正態(tài)分布,其對角線為正態(tài)曲線,在曲線上的點越多,則其越符合正態(tài)曲線。
4 落在藍色區(qū)域拒絕 ,在白色區(qū)域之內(nèi)接受原假設(shè)。

# 假設(shè)檢驗
1 假設(shè) 真假設(shè)和反面假設(shè)?
2 確定置信度?
????小于100 90%
????100-500 5%
????500-1000 1%
3 收集 數(shù)據(jù)
4 看樣本和均值的絕對的差是幾倍的樣本均值的標準誤
t = (樣本均值-假設(shè)均值)/ 標準誤
?z值越大 說明約不靠譜 哈哈哈?
p值為兩邊的面積的和
一般樣本量不超過5000
# 兩獨立樣本T檢驗
其檢驗均值是否相同
p值顯著 ——小于設(shè)定的顯著度

levene 方差齊性檢驗
1 方差相等? or? 2 方差不相等
相等與否對檢驗差異影響不大
#? 方差分析
sst 總體變異——全部的離差平方和
sse 組內(nèi)變異——組內(nèi)的離差平方和
ssm組間變異——組均值和均值的離差平方和
F = 【ssm/自由度】/【sse/自由度】 越大越好,但是這個值算出來之后要依據(jù)經(jīng)驗來判定是否合適
# 相關(guān)分析
# 查看兩個變量之間的關(guān)系,一個標量該改變另外一個變量的均值是否有關(guān)系
相關(guān)系數(shù)person相關(guān)——查看線性關(guān)系
對于發(fā)散變量取對數(shù)

# 線性回歸
1 線性關(guān)系
2 拋物線關(guān)系
3 對數(shù)關(guān)系
在變量顯著的情況下(第二個表P值很小的時候),這個變量才是對結(jié)果有意義的。不顯著的變量可以直接刪除,
coef表示每增長10000個單位 INcome增長97
不懂呀?。?!?

Intercept 是截距項
在上面第一個表示用來做模型結(jié)果評價的,
R-squared 是用于描述模型優(yōu)劣的,是模型的結(jié)實度
ADJ R-squared 在多個模型比較的時候有意義,用于選擇模型用
Prob 用于看模型的顯著度,只要有一個變量顯著就是顯著的
AIC、BIC用于篩選莫模型
后面是對殘差的檢驗。

多元線性回歸
去除無法提供增量信息的X(也就是去除共線的X)
AIC/BIC 越小模型越好
?逐步加變量(n^2/2)
step1 兩兩檢驗,逐步篩選,隨機森林(更具變量的數(shù)據(jù)量 ),iv(一個要計算幾秒或者幾十秒),最后逐步法
線性回歸在正態(tài)分布式穩(wěn)定的,不正態(tài)的環(huán)境下非穩(wěn)定。
作業(yè)筆記
1 對于左偏數(shù)據(jù)需要對數(shù)據(jù)進行對數(shù)處理
2 一般在做檢驗的過程中樣本量不宜超過5k,作業(yè)的樣本量為16k,這個數(shù)據(jù)可用于統(tǒng)計性描述,單不建議用于假設(shè)檢驗中。
? 3 how to 在describle中對數(shù)值型的分類變量進行分類
4 一般直方圖的柱子在20-50之間最佳
5 在看最大最小值的時候需要看到樣本最本質(zhì)的細節(jié)狀態(tài)
6 在做離散變量對因變量的觀測時,最好能按照中數(shù)單調(diào)遞增或者單調(diào)遞減的方式來進行。如果中位數(shù)值與下個箱子的下邊界重合,說明有明顯差異。
7 做兩個自變量的相關(guān)關(guān)系可以判斷自變量的值是否共線
8 在做變量相關(guān)性分析的時候,如果變量相關(guān)性過小,回歸分析的時候還是可以用的
9 對于連續(xù)變量,無論是自變量還是應(yīng)變量,都需要取對數(shù)。
??
描述性統(tǒng)計是對假設(shè)檢驗提出的前提條件,是否符合需要進一步做假設(shè)檢驗。
根據(jù)樣本量抽樣,通過線性回歸的p值初步檢驗,在變量集中選出200-300個變量即可。
分層抽樣——how to 按照比例分層抽樣
how to 保證分層抽樣的穩(wěn)定系,按照不同自變量情況多分幾個層次
對分類變量可以做啞變量編碼,會提高模型的準確性。保留K-1個啞變量
用小寫的ols ,因為有懲罰項。
什么時候考慮交互項:在不同的變量對另外的應(yīng)變量斜率是不同的
對于數(shù)據(jù)分析的基本步驟
1 觀測因變量的數(shù)據(jù)分布情況?
? ? 數(shù)據(jù)分布,最值情況,數(shù)據(jù)分位點情況
2 觀察自變量的分布情況
? ? 離散變量的每個值的數(shù)據(jù)量,與因變量之間的關(guān)系
? ? 連續(xù)變量的數(shù)值分布情況,與因變量之間的關(guān)系
3 進行假設(shè)檢驗
? ? 初步用線性回歸模型預(yù)測數(shù)據(jù)
? ??