91成人国产视频,精品日韩在线步兵区

推論統(tǒng)計，提到假設(shè)檢驗，從腦海里一躍而出的便是 Z-Test 與 T-Test?？赡茉诖髮W(xué)里學(xué)習(xí)時對這個兩個檢驗方法囫圇吞棗，現(xiàn)在重新理解，更是疑問重重。

都知道， Z-Test 與 T-Test 用于正態(tài)分布的統(tǒng)計檢驗，大致也能知道T或Zvalue 大于查表后的某個數(shù)，便是統(tǒng)計顯著差異，需要拒絕 $H_0$ ，百度搜索也能得知 Z-Test 與 T-Test 的區(qū)別：

Z-Test 用于大樣本(n>30)，或總體方差已知；
T-Test 在小樣本(n<30)，且總體方差未知時，適用性優(yōu)于Z-Test，而在大樣本時，T-Test 與 Z-Test 結(jié)論趨同。

不禁要問，為什么？為什么？為什么？

這里，嘗試從假設(shè)檢驗，Z與T的含義來重新理解。

假設(shè)檢驗

假設(shè)

統(tǒng)計，分為描述統(tǒng)計與推論統(tǒng)計。顧名思義，描述統(tǒng)計如同畫畫似的，將一個事務(wù)的特征用數(shù)字描繪出來，每一幅數(shù)碼相片背后是一組組的數(shù)字，將這組數(shù)字經(jīng)過總結(jié)（我認為總結(jié)便是降低維度）, 變成容易記憶的數(shù)字，這些數(shù)字能在人的腦海里刻畫出一個可識別的形象。那便是描述統(tǒng)計。

推論統(tǒng)計，顯然是在描述差異，尋找規(guī)律?；貧w是在求同，尋找規(guī)律。聚類，是在求異，尋找差異。那么假設(shè)檢驗便是來分別同與異。 $H_0$ 是同， $H_1$ 是異。

"幸福的家庭大都相似，不幸的家庭卻各有不同"---托爾斯泰

用True or False 來求證因何而異實在是太困難了，不能證明，便可證偽。不同，便是異，Genius！假設(shè)檢驗便是在做“不同”的證明，不能證明“不同”，便是不能拒絕 $H_0$ ，顯著“不同”，便是拒絕 $H_0$ ，如此推斷那是 $H_1$ 。

假設(shè)檢驗的目標(biāo)內(nèi)容

統(tǒng)計中，比較的并不是一個值，而是一組數(shù)的特征。兩組數(shù)的分布不相同，那么這兩組數(shù)不同，這是我的定義。最常見，最基本的分布為正態(tài)分布，其他的分布總可以變形轉(zhuǎn)換為正態(tài)分布，所以在統(tǒng)計研究時首要研究的便是正態(tài)分布。

正態(tài)分布由兩個特征值組成mean(平均數(shù)) 和 $\sigma$ (離散值)，用這兩個值可以通過numpy來擬合出一個正態(tài)分布

np.random.normal(mean,std,size)

image.png

兩組數(shù)若符合正態(tài)分布，且相同，那么均值與離差相同，反之只要證明均值不同，則說明兩組數(shù)不同。由此，我認為假設(shè)檢驗的目標(biāo)內(nèi)容是所測試的數(shù)據(jù)的均值等于目標(biāo)均值的可能性。

總體(Population)與抽樣(Sample)

比較兩組數(shù)字，一定是比較的兩組數(shù)字的總體，若知道兩組數(shù)字的總體，那么也無需要假設(shè)檢驗的推論，直接畫圖看就好了，重疊為相同，不重疊為不同。然而，我們很難知道總體，難道說非要把全世界人與猩猩都統(tǒng)計一遍來證明兩者之間的身高顯著不同嗎？學(xué)習(xí)，大體上在學(xué)習(xí)樣本，由樣本去推斷總體。

記得年前去澳門，賭大小，總體上賭大與小的概率相同，50%（如果忽略豹子通殺），但事實上，連續(xù)在賭場看3天開大、開小的概率（統(tǒng)計從早晨開始，累計該桌面的輸贏，至晚上止，第二天重新計算），竟然經(jīng)常大幅偏離50%，甚至?xí)吹?0%小，70%大這樣的詭異情形。賭客押注往往也不是采用均值回歸的策略，而多采用Momentum趨勢策略。當(dāng)然，可以去diss賭客，最終是輸?shù)?，因為口袋里錢總額的限制，因為有了豹子通殺，但是觀察下來采用Momentum策略的賭客好像玩的時間更長一些(直觀的感覺)。

抽樣與總體不相同，抽樣數(shù)據(jù)的均值和離散程度與總體數(shù)據(jù)的均值和離散程度不相同。若要使抽樣能反映出總體來，抽更多的樣或抽更多次數(shù)的樣，中心極限定理。抽樣的均值的分布:

n = [10,100,1000]
p = 0.5

fig, AX = plt.subplots(ncols=3, nrows=1, figsize=(15,5), dpi=288)
for i, ax in enumerate(AX):
    se = np.sqrt(p*(1-p)/n[i])
    distribution = stats.norm(loc = 0, scale=se)
    x = np.linspace(-1,1,100)
    y = distribution.pdf(x)
    ax.plot(x,y)
    ax.set_title('n={}'.format(n[I]))

image.png

可以看到，抽樣的次數(shù)越多，均值的分布的范圍越窄，隨著n變大，均值數(shù)值從區(qū)間向單個值靠攏。也就是n越大，抽樣越接近總體，n越小則樣本偏離總體的可能性越大。

回到假設(shè)檢驗

前面說到假設(shè)檢驗是兩組數(shù)據(jù)的比較，是兩組數(shù)據(jù)總體的比較，而現(xiàn)實中，大多數(shù)情況只能獲得樣本去推測總體來比較，并且這是一個證偽的題，已知樣本越小，偏離總體的可能性越大，那么樣本越小容錯率應(yīng)該更高，不輕易拒絕 $H_0$ ，小樣本所反映的總體均值的分布應(yīng)該更胖。

拒絕 $H_0$

拒絕 $H_0$ ，即兩個均值不相等。

image.png

之前提到，樣本數(shù)量越大，樣本均值分布范圍越瘦，反之越胖。胖子給人在空間中的印象總是“擁擠” + “邊界模糊”，瘦子“清晰”、“銳利”。抽樣n=10的時候，圖像重疊度很高，很難下定決心說，這兩個總體上有差異，n=100,000時，很清晰兩總體一定是不同的。

那么反過來說，如果在樣本很小的時候就能證明兩組數(shù)據(jù)總體上不想等，意味著這兩組數(shù)據(jù)均值一定差別很大，螞蟻和大象的身高，只要抽1只螞蟻，1頭大象就能反映總體上螞蟻與大象升高不同。若要觀察中國的南方人與北方人身高差異，估計得要抽許多人，才能反映出總體的差異。

換一句話說，在小樣本的時候需要對其結(jié)果進行懲罰，使他的分布更胖，更不容易拒絕 $H_0$ 。我認為此時的T檢驗與Z檢驗的差別點出現(xiàn)了。

T檢驗與Z檢驗的差別

Z分布，標(biāo)準(zhǔn)正態(tài)分布。T分布(見下圖，引用wiki百科的圖)，正態(tài)分布，胖瘦隨著n，教科書稱之為自由度，的增加，由胖變瘦，形態(tài)最終趨向標(biāo)準(zhǔn)正態(tài)分布。

image.png

Z分布與T分布，是兩個分布，概率函數(shù)公式的存在差異，T分布較Z分布多了一個自由度的變量，懲罰小樣本，增加其拒絕 $H_0$ 的難度，因而小樣本采用T檢驗，優(yōu)于Z檢驗。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Z-Test與T-Test的區(qū)別

Z-Test與T-Test的區(qū)別

假設(shè)檢驗

假設(shè)

假設(shè)檢驗的目標(biāo)內(nèi)容

總體(Population)與抽樣(Sample)

回到假設(shè)檢驗

拒絕 $H_0$

T檢驗與Z檢驗的差別

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Z-Test與T-Test的區(qū)別

假設(shè)檢驗

假設(shè)

假設(shè)檢驗的目標(biāo)內(nèi)容

總體(Population)與抽樣(Sample)

回到假設(shè)檢驗

拒絕

T檢驗與Z檢驗的差別

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

拒絕 $H_0$