第四章 ?數(shù)據(jù)的概括性度量(應(yīng)用中:對樣本數(shù)據(jù),計算某些統(tǒng)計值,來粗略的觀察樣本的分布情況。)
? ?1. 樣本:數(shù)據(jù)有不同類型,進行分析時采用不同的統(tǒng)計方法。數(shù)據(jù)類型有兩種:取值是否有限,是否有序。
? ? 2. 目標(biāo):主要觀察的是樣本的集中趨勢、離散程度、偏態(tài)與峰態(tài)。
? ?集中趨勢 ?(反映一組數(shù)據(jù)中心點的位置):
? ? ? ? ? ?1. 有限取值,眾數(shù)。 ? ? ?前提:數(shù)據(jù)量夠大。 ?特點: 不受極端值影響。 可能不唯一。
? ? ? ? ? ?2. 有序,中位數(shù)、分位數(shù)。? 優(yōu)點: 不受極端值影響。數(shù)據(jù)偏斜程度較大時,適合用中位數(shù)。
? ? ? ? ? ?3. 連續(xù)數(shù)值型, 平均數(shù)、加權(quán)平均數(shù)、幾何平均數(shù)(累乘,開方)。 平均數(shù)是誤差相互抵消后的必然結(jié)果。 ?
? ? ? ? ? ? ? ? 當(dāng)數(shù)據(jù)本身是比率形式時,適合用幾何平均數(shù)。比如計算平均增長率。
? ? ? ? ? ? ? ? ?易受異常值影響。對于偏態(tài)數(shù)據(jù),不適合用作分析指標(biāo)。
離散程度(各變量的值遠離中心的程度)
? ? ? ? ? ? 1. 分類數(shù)據(jù): 異眾比率。 ? ?非眾數(shù)值的占比。
? ? ? ? ? ? ?2. 有序數(shù)據(jù): ?四分位差。 ?上下四分位點之差。
? ? ? ? ? ? ?3. ?數(shù)值型數(shù)據(jù):方差、標(biāo)準(zhǔn)差。 標(biāo)準(zhǔn)差是有量綱的。數(shù)值大小與原變量值自身大小相關(guān)。
? ? ? ? ? ? ?4. ? 相對離散程度: ?變異系數(shù)。標(biāo)準(zhǔn)差/均值。?
偏態(tài)與峰態(tài) (是否對稱、偏斜程度、扁平程度)
? ? ? ? ? ? ? 1. 偏態(tài)系數(shù):excel ? 中 ?SKEW() 函數(shù)
? ? ? ? ? ? ? ?2. 峰態(tài)系數(shù):?
第五章 概率與概率分布(有限值,無限值)
1. 二項分布 ?n次重復(fù)獨立實驗,每次實驗只有兩個結(jié)果。X ~ B(n,p) E(X)= np ?D(X)=npq
2. 泊松分布? 指定時間段、指定面積、指定體積之內(nèi), 某一事件出現(xiàn)次數(shù)的分布。
3. 正態(tài)分布 ?
第六章 ? ?統(tǒng)計量及其抽樣分布
統(tǒng)計量:樣本的函數(shù)。用來反映數(shù)據(jù)的特征。
分布:(目的都在于如何逼近最真實的分布,進而計算統(tǒng)計量,分析數(shù)據(jù),參數(shù)估計,再進一步進行應(yīng)用。)
? ? ? ? ? 1. 抽樣分布 :?
? ? ? ? ? ?2. 漸進分布 : 當(dāng)樣本量趨近于無窮大時,則抽樣分布無限接近真實分布。
? ? ? ? ? ?3. 隨機模擬得到的近似分布 : 精確分布與漸進分布都很難得到。N次,從總體重隨機抽取容量為n的樣本。得到n個統(tǒng)計量T,則得到統(tǒng)計量T的分布。k折、 mini-batch。
? ? ? ? ? ?4. 抽樣方法: 分層抽樣,不均衡時如何抽樣,重復(fù)抽樣。
重要分布
? ? ? ? ? ?1. 卡方分布 ?獨立同正態(tài)分布,隨機變量,平方之和。
? ? ? ? ? ? 2. t 分布 ? ?
? ? ? ? ? ? 3. F分布
中心極限定理:設(shè)從均值為μ、方差為σ^2;(有限)的任意一個總體中抽取樣本量為n的樣本,當(dāng)n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ^2/n 的正態(tài)分布。
補充:?
? ? ? ? 1. 抽樣方法? :過采樣(對數(shù)據(jù)少的類別,重復(fù)采樣。改變數(shù)據(jù)分布消除不平衡,可能導(dǎo)致過擬合。)、欠采樣(對數(shù)據(jù)多的類別,隨機抽樣??赡軐?dǎo)致信息損失。)、分層采樣(將抽樣單位按某種特征或者某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機的抽取樣本。將個層的樣本結(jié)合起來,對總體的目標(biāo)量估計)。權(quán)重調(diào)整(加大數(shù)據(jù)量小的類別的樣本的權(quán)重。)
? ? ? ? ?2. k折交叉驗證、?
? ? ? ? ?2. LR:誤差e,是獨立同分布的,服從均值為0,方差為定值的高斯分布。從這個角度,可以發(fā)現(xiàn)極大似然和均方誤差有相同的含義。
? ? ? ? ?3. 卡方檢驗 : 是假設(shè)檢驗問題??捎脕頇z驗?zāi)硟蓚€分類變量是否相互獨立。
? ? ? ? ? ? ? 假設(shè):觀察頻數(shù)與期望頻數(shù)沒有差別。
? ? ? ? ? ? ? ?認(rèn)為: 當(dāng)n比較大時,χ2統(tǒng)計量近似服從k-1(計算Ei時用到的參數(shù)個數(shù))個自由度的卡方分布。
?檢驗: 計算統(tǒng)計量(卡方值),卡方值大,則拒絕假設(shè)。卡方值小,則接受假設(shè)。