邂逅統(tǒng)計(jì)學(xué)-當(dāng)TD遇到人大

前段時(shí)間學(xué)習(xí)了人大薛薇老師的統(tǒng)計(jì)學(xué)基礎(chǔ)課程,最近剛交了統(tǒng)計(jì)學(xué)作業(yè),得到了TDU同學(xué)和薛老師的高度評(píng)價(jià),并與薛老師交流了關(guān)于“原假設(shè)”的問(wèn)題。在這里和大家分享一下這段學(xué)習(xí)歷程,與大家共勉,也歡迎大家提一些建議哈。


薛老師這次課程主要是基于案例探討統(tǒng)計(jì)分析方法的基本原理,她帶來(lái)的第一個(gè)案例是北京市空氣監(jiān)測(cè)。


開(kāi)頭便告訴我們從統(tǒng)計(jì)視角看案例數(shù)據(jù),確定研究的樣本、步驟、問(wèn)題,只研究供暖季的數(shù)據(jù),數(shù)據(jù)處理的兩種方式:

第一,計(jì)算該時(shí)段各站點(diǎn)各變量均值,樣本量35

第二,忽略時(shí)間上的差異,視數(shù)據(jù)為截面數(shù)據(jù)。優(yōu)勢(shì):有效擴(kuò)大了樣本量(采納)

研究步驟和問(wèn)題:

第一步,樣本數(shù)據(jù)的描述統(tǒng)計(jì)。涉及問(wèn)題:

了解數(shù)據(jù)缺失狀況

基本描述統(tǒng)計(jì)

診斷極端值:從統(tǒng)計(jì)視角檢測(cè)PM2.5爆表情況

第二步,依據(jù)樣本,對(duì)樣本來(lái)自的總體參數(shù)進(jìn)行估計(jì)和對(duì)比。涉及問(wèn)題:

估計(jì)北京市供暖季PM2.5(一個(gè)總體)的平均值

交通污染對(duì)PM2.5的影響:對(duì)比西直門北(區(qū)域)和定陵(區(qū)域)供暖季的PM2.5(兩總體)的平均值

第三步,基于樣本數(shù)據(jù)的深入研究

探討PM2.5成因;對(duì)比北京四個(gè)不同區(qū)域(西北、西南、正南、東/東南)PM2.5總體均值差異

探討PM2.5的空間特征和空氣質(zhì)量的區(qū)域劃分

探討AQI的全面性問(wèn)題

接下來(lái)針對(duì)研究步驟和問(wèn)題展開(kāi)講解,從最基礎(chǔ)的直方圖、概率密度函數(shù)、四分位數(shù)等內(nèi)容到十分經(jīng)典的假設(shè)檢驗(yàn)、Bootstrap、多元線性回歸、聚類分析、主成分分析都有講解。

然后為我們帶來(lái)了第二個(gè)案例,基于HR的調(diào)查研究IT員工離職問(wèn)題,研究離職主要因素并預(yù)測(cè)是否離職。因?yàn)檫@里研究的二分類變量與其他變量之間的關(guān)系,對(duì)二分類的被解釋變量不可以直接采用一般多元線性回歸分析方法,因此進(jìn)行改進(jìn)如下:


建立二項(xiàng)Logit模型,并講解二分類模型的評(píng)價(jià)問(wèn)題,查準(zhǔn)率和查全率(覆蓋率)和ROC曲線。



正所謂“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,在上完課后就進(jìn)入作業(yè)環(huán)節(jié)。

說(shuō)實(shí)話,薛老師布置的作業(yè)并不難,只要好好復(fù)習(xí)課件,一般都能答出來(lái),但復(fù)習(xí)課件不僅僅是為了完成作業(yè),同時(shí)也是一個(gè)理解吸收提高的過(guò)程。(ps:自己的作業(yè)也十分榮幸的得到了TDU同學(xué)和薛老師滿分+的評(píng)價(jià),哈哈。)

以第一題為例,原題如下:

一、(15分)某大型企業(yè)HR通過(guò)隨機(jī)調(diào)查獲得了2720名技術(shù)員工對(duì)企業(yè)滿意度的打分(取值范圍:0~1)數(shù)據(jù)。對(duì)該樣本的基本描述統(tǒng)計(jì)結(jié)果如下。


請(qǐng)問(wèn):

1、 請(qǐng)基于上述計(jì)算結(jié)果,粗略繪制滿意度打分的概率密度分布曲線,并在圖中畫出有相同均值和標(biāo)準(zhǔn)差的正態(tài)分布曲線。(5分)

考察基礎(chǔ)知識(shí),概率密度分布曲線和正態(tài)分布曲線,這兩個(gè)知識(shí)點(diǎn)雖然薛老師沒(méi)有直接講解,但都比較基礎(chǔ),要求我們有一定的R自學(xué)能力,查一下就能知道結(jié)果。通過(guò)plot繪制出density概率密度分布曲線,通過(guò)mean和sd求出均值和方差,然后通過(guò)curve繪制出dnorm正態(tài)分布曲線。

核心代碼如下:

plot(density(Data$satisfaction_level))

mean_data = mean(Data$satisfaction_level)

sd_data = sd(Data$satisfaction_level)

curve(dnorm(x,mean_data,sd_data))

個(gè)人解答如下:

(1)滿意度打分的概率密度分布曲線如圖所示,可以看出,并不符合正態(tài)分布。


(2)求得均值為0.6078971,標(biāo)準(zhǔn)差為0.2541932,相應(yīng)的正態(tài)分布曲線如圖,


2、?基于上述計(jì)算結(jié)果,你認(rèn)為滿意度打分中是否存在異常數(shù)據(jù)?為什么?(5分)

正所謂外行看熱鬧,內(nèi)行看門道,異常數(shù)據(jù)不是你覺(jué)得有異常就異常,需要理論依據(jù),理論依據(jù)是啥?答:閾值,大于1.5倍的四分位差,詳見(jiàn)PPT第17頁(yè)。


個(gè)人解答如下:

答:滿意度打分不存在異常數(shù)據(jù)。為非對(duì)稱分布。

(1)先計(jì)算1.5倍的四分位差:

1.5*(quantile(Data$satisfaction_level,c(0.25,0.75))[2]-

quantile(Data$satisfaction_level,c(0.25,0.75))[1])

得到標(biāo)準(zhǔn)0.585。

(2)在計(jì)算上四分位數(shù)和下四分位數(shù):

quantile(Data$satisfaction_level,c(0.25,0.75))

得到0.43(25%)和0.82(75%)

(3)計(jì)算出最值:

describe(Data$satisfaction_level)

得到0.09(min)和1(max)

因(0.43-0.585)不存在和(0.82+0.585)不存在,故無(wú)異常點(diǎn)。


3、基于上述計(jì)算結(jié)果,如果希望刻畫滿意度打分的樣本分布特征,應(yīng)給出哪些最基本的描述統(tǒng)計(jì)結(jié)果?它們的含義是什么?(5分)

這道題考的十分基礎(chǔ),最基本的描述統(tǒng)計(jì)結(jié)果,可以參考Basic descriptive statistics useful for psychometrics里的描述統(tǒng)計(jì)量,但背后是統(tǒng)計(jì)方法中的描述統(tǒng)計(jì),是統(tǒng)計(jì)學(xué)的基石,也是個(gè)人統(tǒng)計(jì)學(xué)的基本功,雖然簡(jiǎn)單,但必須重視。


個(gè)人解答如下:

答:可以有以下描述統(tǒng)計(jì)結(jié)果,

n:2720,一共有2720名技術(shù)員工的滿意度數(shù)據(jù);

mean:0.61,滿意度的平均值為0.61分;

sd:0.25,滿意度的標(biāo)準(zhǔn)差為0.25,反映滿意度的離散程度;

min:0.09,滿意度的最值,最低分0.09;

max:1,滿意度的最值,最高分1;

skew:-0.48,左偏,偏離度-0.48;

se:0,均值的標(biāo)準(zhǔn)誤差StandardError

備注:標(biāo)準(zhǔn)誤=標(biāo)準(zhǔn)差/√n? ?? ?n是樣本量。公式意思是:標(biāo)準(zhǔn)誤等于標(biāo)準(zhǔn)差除以樣本量的平方根,

其他題目類似,十分經(jīng)典,不在一一展開(kāi)。


之后,我還與薛老師進(jìn)一步交流了關(guān)于“原假設(shè)”的問(wèn)題。

我們先看問(wèn)題以及我的解答:

二、(25分)員工甲認(rèn)為:企業(yè)技術(shù)員工的工作壓力大,他們對(duì)企業(yè)滿意度打分的總體平均值不會(huì)高于0.5分?;诘谝活}的隨機(jī)樣本數(shù)據(jù),員工乙利用假設(shè)檢驗(yàn)方法對(duì)員工甲的觀點(diǎn)進(jìn)行了驗(yàn)證,分析結(jié)果如下。


請(qǐng)問(wèn):

員工乙采用的是哪種統(tǒng)計(jì)檢驗(yàn)方法?請(qǐng)給出假設(shè)檢驗(yàn)的原假設(shè)。(5分)

答:采用的是單個(gè)總體均值的假設(shè)檢驗(yàn);由alternative hypothesis:

true mean is not equal to 0.5知原假設(shè)為真實(shí)的均值等于0.5。

但薛老師認(rèn)為原假設(shè)是H0:μ0≤0.5

我:如果按題意他們對(duì)企業(yè)滿意度打分的總體平均值不會(huì)高于0.5分和最終結(jié)果平均值高于0.5分,那么原假設(shè)H0:μ0≤0.5。但如果看R執(zhí)行的結(jié)果alternative?hypothesis:?true?mean?is?not?equal?to?0.5,那么原假設(shè)為真實(shí)的均值等于0.5,即μ0?=?0.5。在這里是不是應(yīng)該以R執(zhí)行的結(jié)果為準(zhǔn)。薛老師:程序給出的都是雙側(cè)檢驗(yàn)的概率P值,單側(cè)檢驗(yàn)用它的1/2即可最后我提出加上alternative?=?"greater"這個(gè)參數(shù),這樣alternative被則假設(shè)、原假設(shè)、R結(jié)果、題意都統(tǒng)一,就沒(méi)有歧義了。

t.test(Data$satisfaction_level,mu=0.5,side="less",alternative?=?"greater")


得到了薛老師的肯定,最終達(dá)成一致。


一場(chǎng)精彩的統(tǒng)計(jì)學(xué)課程結(jié)束了,但我們?nèi)松膶W(xué)習(xí)之旅還有很長(zhǎng)的路要走。

在此,感謝薛老師的精彩講解,感謝TDU引入這樣一門好課,感謝努力的自己。

時(shí)間在流逝,萬(wàn)物在成長(zhǎng),引用國(guó)學(xué)大師錢穆老師的一句話作為結(jié)語(yǔ),過(guò)去未去,未來(lái)已來(lái)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容